< D FC1B6BFB5C5B92DBCF6C1A42E687770>

Similar documents
<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

DBPIA-NURIMEDIA

09권오설_ok.hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

김기남_ATDC2016_160620_[키노트].key

05( ) CPLV12-04.hwp

인문사회과학기술융합학회

DBPIA-NURIMEDIA

목 차 주요내용요약 1 Ⅰ. 서론 3 Ⅱ. 스마트그리드산업동향 6 1. 특징 2. 시장동향및전망 Ⅲ. 주요국별스마트그리드산업정책 17 Ⅳ. 미국의스마트그리드산업동향 스마트그리드산업구조 2. 스마트그리드가치사슬 3. 스마트그리드보급현황 Ⅴ. 미국의스마트그리드정

<B8F1C2F72E687770>

<31325FB1E8B0E6BCBA2E687770>

DBPIA-NURIMEDIA

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

정보기술응용학회 발표

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

DBPIA-NURIMEDIA

Output file

14.531~539(08-037).fm

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

빅데이터분산컴퓨팅-5-수정

#Ȳ¿ë¼®

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

06_ÀÌÀçÈÆ¿Ü0926

À±½Â¿í Ãâ·Â

(5차 편집).hwp

04_이근원_21~27.hwp

Cloud Friendly System Architecture

1_cover

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 25(3),

<BCBCC1BEB4EB BFE4B6F72E706466>

03-ÀÌÁ¦Çö

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

45-51 ¹Ú¼ø¸¸

<30345F D F FC0CCB5BFC8F15FB5B5B7CEC5CDB3CEC0C720B0BBB1B8BACE20B0E6B0FCBCB3B0E8B0A120C5CDB3CE20B3BBBACEC1B6B8ED2E687770>

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

6.24-9년 6월

00내지1번2번

디지털포렌식학회 논문양식

<30302DB8F1C2F7BFDC2E687770>

에너지경제연구 제13권 제1호

°í¼®ÁÖ Ãâ·Â

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

#유한표지F

<3136C1FD31C8A35FC3D6BCBAC8A3BFDC5F706466BAAFC8AFBFE4C3BB2E687770>

2

공휴일 전력 수요에 관한 산업별 분석

1217 WebTrafMon II

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

-

<5B D B3E220C1A634B1C720C1A632C8A320B3EDB9AEC1F628C3D6C1BE292E687770>

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

< B1E8C7F6C1D65FC7CFB5D3B1E2B9DDBAF2B5A5C0CCC5CDB1E2B9FDB8A6C0CCBFEBC7D128BCF6C1A4292E687770>

Service-Oriented Architecture Copyright Tmax Soft 2005

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

Voice Portal using Oracle 9i AS Wireless

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

PowerPoint 프레젠테이션

1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 95~118 학술 탄소은행제의가정용전력수요절감효과 분석 1) 2) 3) * ** *** 95

±èÇö¿í Ãâ·Â

(JBE Vol. 23, No. 5, September 2018) (Regular Paper) 23 5, (JBE Vol. 23, No. 5, September 2018) ISSN

03-서연옥.hwp

I

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

untitled

DBPIA-NURIMEDIA

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

10 이지훈KICS hwp

02이용배(239~253)ok



2 : (JEM) QTBT (Yong-Uk Yoon et al.: A Fast Decision Method of Quadtree plus Binary Tree (QTBT) Depth in JEM) (Special Paper) 22 5, (JBE Vol. 2

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

<31372DB9DABAB4C8A32E687770>

빅데이터_DAY key

PowerPoint 프레젠테이션

<BEF0B7D0C1DFC0E B3E220BABDC8A32E706466>

DBPIA-NURIMEDIA

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

09오충원(613~623)

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

DW 개요.PDF

.,,,,,,.,,,,.,,,,,, (, 2011)..,,, (, 2009)., (, 2000;, 1993;,,, 1994;, 1995), () 65, 4 51, (,, ). 33, 4 30, (, 201

<30312DC1A4BAB8C5EBBDC5C7E0C1A420B9D720C1A4C3A52DBDC5C1F82E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

Æ÷Àå½Ã¼³94š

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

Windows 8에서 BioStar 1 설치하기

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

2 : 3 (Myeongah Cho et al.: Three-Dimensional Rotation Angle Preprocessing and Weighted Blending for Fast Panoramic Image Method) (Special Paper) 23 2

Transcription:

ISSN 1229-800X The Transactions of the Korean Institute of Electrical Engineers Vol. 64P, No. 2, pp. 85~91, 2015 http://dx.doi.org/10.5370/kieep.2015.64.2.085 하둡기반빅데이터시스템을이용한스마트그리드전력데이터분석 Analyzing Smart Grid Energy Data using Hadoop Based Big Data System 조영탁 * 이원진 ** 이인규 *** 온병원 최중인 (YoungTak-Cho WonJin Lee Ingyu Lee Byung-Won On Jung-In Choi) Abstract - With the increasing popularity of Smart Grid infrastructure, it is much easier to collect energy usage data using AMI (Advanced Measuring Instrument) from residential housing, buildings and factories. Several researches have been done to improve an energy efficiency by analyzing the collected energy usage data. However, it is not easy to store and analyze the energy data using a traditional relational database management system since the data size grows exponentially with an increasing popularity of Smart grid infrastructure. In this paper, we are proposing a Hadoop based Big data system to store and analyze energy usage data. Based on our limited experiments, Hadoop based energy data analysis is three times faster than that of a relational database management system based approach with the current system. Key Words : Smart grid, Big data system, Power data analysis, Hadoop, Energy efficiency 1. 서론스마트그리드란에너지생산및분배시스템에정보통신기술을접목하여전력수요와공급의양방향통신이가능하도록하여새로운부가가치를창출하는차세대지능형전력망인프라로핵심기술은지능형전력량계시스템 (AMI: Advanced Measuring Instrument) 의양방향통신망을이용하여전기등의에너지사용에대한검침과사용정보를수집하고관련정보를안내하며다양한요금제적용등의서비스를제공하는것이다 [1-3]. 기존의스마트그리드시스템은지능형전력량계를이용하여수집된데이터를관계형데이터베이스로저장하여분석하였으나, 스마트그리드보급확산과함께데이터량이기하학적으로증가함에따라서관계형데이터베이스로저장하고분석하는것이어렵게되었다 [4]. 이러한어려움을극복하고자본논문에서는하둡기반의빅데이터시스템을이용하여전력데이터를저장및분석하는방안을제안하고이를이용하여스마트그리드보급사업으로수집된전력데이터를분석하고자한다. 현재스마트그리드확산사업으로 4개지역단지내의 Corresponding Author : Department of Statistics and Computer Science, Kunsan National University, Korea E-mail : bwon@kunsan.ac.kr * Department of Information and Computer Engineering, Ajou University, Korea ** Department of Computer Science, Kyonggi University, Korea *** Sorrell College of Business, Troy University, USA Smart Grid Research Center, Advanced Institutes of Convergence Technology, Korea 접수일자 : 2015년 2월 2일수정일자 : 2015년 4월 14일최종완료 : 2015년 5월 19일 1,880여개소의지능형전력량계로부터 5분단위로전력사용데이터를수신하고있으며, 시범사업으로현재까지수집된데이터는대략 1억개의레코드로데이터크기가 4TB에달한다. 따라서, 관계형데이터베이스로분석연산을수행하기에는부담스러운규모의데이터이다. 추후계획된스마트그리드확산사업에따라 6개지역으로확장할경우, 현재의추세라면데이터크기가 28TB로증가하고, 12개지역으로확장될경우데이터는 57TB가훨씬넘어서관계형데이터베이스로저장하거나분석하는것이현실적으로어려워진다. 결과적으로, 하둡과같은빅데이터저장방법과맵리듀스를이용한병렬데이터분석시스템이전력데이터를저장하고분석하는데필요하다 [4, 5]. 본논문은이렇게수집된에너지사용데이터를하둡을이용하여분석하는방안을제시하고그분석결과를제시하고자한다. 본논문의구성은다음과같다. 2장에서는스마트그리드에서지능형전력량계를이용하여에너지사용데이터를수집하고저장하여분석하기위한빅데이터시스템에관하여기술하고 3장에이와같이수집되어하둡시스템에저장된전력데이터를하둡의기능을이용하여분석하는방법과이를스마트그리드보급사업으로수집된전력데이터에적용하여분석한결과를기술한다. 결론및향후계획은 4장에이어진다. 2. 전력데이터저장및분석을위한빅데이터시스템그림 1은스마트그리드전력데이터를저장및분석하기위한서버시스템의구성을보여준다. 현재구축된시스템은빌딩및공장으로부터지능형전력량계시스템을이용하여전력데이터를수집하는기능을담당하는수집서버그 하둡기반빅데이터시스템을이용한스마트그리드전력데이터분석 85

전기학회논문지 64P 권 2 호 2015 년 6 월 룹과이렇게수집된전력데이터를자동으로빅데이터시스 템으로저장및분석하기위한하둡기반의빅데이터서버 그룹그리고외부사용자에게전력데이터및관련서비스를 제공하기위한웹서비스 서버그룹으로 구성되어 있다. 본 논문에서는데이터 수집서버그룹과 빅데이터 서버그룹에 관하여기술한다. 그림 1 전력데이터를빅데이터로저장하는시스템 Fig. 1 Big data system architecture 2.1 데이터수집서버그룹 그림 2 전력사용대쉬보드 Fig. 2 Energy usage dashboard 스제공을위한웹서버와수집된전력및수요자원데이터관리를위한데이터베이스서버, 스마트미터기기및수요자원관리를위한수요자원관리서버로구성되어있다. 수집된자료및시스템보안을위하여수집서버에는자체방화벽이설치되어외부망으로부터의접근을제어하고, 서버의가용성을늘리기위하여모든서버는이중화하였다. 또한, 부하를분산하기위하여로드밸런싱스위치를사용하여특정서버에부하가치중되는것을방지하였다. 공장및빌딩에서스마트미터를이용하여수집한전력사용데이터를인터넷을통하여수집서버에보내면수집서버그룹의데이터베이스서버가관계형데이터베이스인 Postgres를이용하여전력사용데이터를시간대별로저장한다. 이렇게저장된데이터를이용하여추후기준사용량 (CBL: Customer Baseline Load) 과현재전력사용량을그림 2에서처럼사용자에게대시보드로전시한다. 시간대별로저장한관계형데이터베이스의경우, 개소및단지단위로기준사용량 (CBL) 을계산하면연산속도가느려서온라인으로사용자에게서비스하기에는적절하지않다. 따라서시간대별로순차적으로저장하는관계형데이터베이스시스템보다는개체별로데이터를저장하는하둡의 HBASE와같은컬럼중심의비정형데이터베이스시스템이사용자서비스에적절하다. 따라서, 데이터분석을위하여관계형데이터베이스로저장된전력데이터를하둡기반의저장장치로이동하는것이필요하다. 자세한방안은다음절에서자세히기술한다. 그림 3은특정공장및빌딩내부에서전력사용데이터가수집되어빅데이터시스템으로저장되는과정을보여준다. 전력사용데이터는서브미터링기기의시리얼통신 (RS-485) 또는스마트콘센트의지그비 (Zigbee) 통신을통하여게이트웨이에수집되고, 이렇게게이트웨이에수집된전력사용데이터는랜선을통하여데이터 (Data Portal) 서버에저장된다. 이렇게로컬데이터서버에수집된전력데이터는인터넷을통하여수집서버로전송된다 [12]. 현재스마트그리드보급사업으로 1880여개소에서전력데이터자료를수집하여 Postgres 관계형데이터베이스에적재하고이를하둡의스쿱과플룸기능을이용하여주기적으로 HBASE로적재하여데이터분석에사용한다. 2.2 전력데이터분석을위한빅데이터서버그룹 그림 3 사용전력데이터수집서버 Fig. 3 Energy usage data collection system 전력데이터를빌딩및공장으로부터수집하고관리하는수집서버그룹에는전력데이터및수요자원에대한웹서비 수집된수요전력데이터는분석을위하여그림 4에서처럼빅데이터시스템으로전송되어저장되는데, 빅데이터시스템은서버그룹의호스트와네트웍을관리하기위한매니저노드, 하둡기능제공을위한마스터노드, 데이터저장및분석을위한 10개의데이터노드로이루어진다. 보안을강화하기위하여매니저노드와마스터노드만외부연결스위치에접속되어서비스를제공하고데이터노드는내부스위치에연결되어외부에서의접속은불가능하게구성하였다. 각노드는 CentOS 기반으로빅데이터서비스를위한하둡에코시스템이설치되어있다. 마스터노드는하둡의네임노드와 HBASE의마스터로동작하도록설정하였고, 수요전력데이터는데이터노드에중복저장되어동시에접근하여맵리듀스를이용한병렬처리가가능하고가용성을증대 86

Trans. KIEE. Vol. 64P, No. 2, JUN, 2015 하였다 [6, 7]. 이렇게저장된 HBASE 형태의데이터는피그 (Pig) 와하이브 (Hive) 등의하둡기능을이용하여별도의프로그래밍작업이없이손쉽게분석할수있도록하였다 [8, 9]. 이경우대용량의전력사용데이터를처리하기위하여하둡의맵리듀스분산처리방식을이용하고, 단순통계분석이아닌데이터마이닝과기계학습등고급분석이요구되는경우에마헛 (Mahout) 에서제공하는알고리즘을활용하였다 [6]. 1 전력데이터특성 Table 1 Data Characteristics 그림 4 빅데이터시스템구성 Fig. 4 Big Data System Group 하였다. 데이터노드 1부터데이터노드 10까지는하둡의데이터노드는 HBASE의지역서버로설정하여데이터가분산저장되고병렬처리를지원하여데이터를병렬로분석하는공간으로사용하였다. 특히, 노드 10의경우는스탠바이네임노드로설정하여마스터네임노드에오류가발생하였을경우에자동적으로네임노드의역할을수행할수있도록구성하여서버의가용성을증가시켰다 [6, 13]. 2.3 하둡에코시스템구성빅데이터서버시스템의노드에는데이터병렬분석을위하여그림 5와같은하둡에코시스템을설치하였는데, 스쿱 (Sqoop) 과플룸 (Flume) 은데이터를수집하고저장하는기능으로수집서버에서전력사용데이터를수집하여빅데이터시스템의 HBASE로탑재할때사용한다. 데이터베이스로정형화된전력사용데이터는스쿱을이용하여일괄적으로 HBASE로변환하여저장하고센서데이터등의비정형파일은플룸을사용하여주기적으로 HBASE에저장하도록구성 지역 4개지역 ( 산업유통단지 / 테크노파크 ) AMI 갯수 1,880 레코드숫자 데이터수집기간 데이터갱신 3 억개이상의순시전력데이터 1 억개이상의수요전력데이터 1 년 6 개월 (2012.12 ~ 2014.6) 5 분 ( 순시전력 XML 포멧 ) 15 분 ( 수요전력 ) 3. 전력데이터분석 스마트그리드보급사업으로공장및빌딩에서수집한전력사용데이터는 1에요약되어있는것처럼 4개지역에서 ( 산업유통단지 3곳, 테크노파크 1곳 ) 1880개의 AMI를이용하여 18개월간수집한데이터로 15분단위의 1억개이상의전력사용레코드가관계형데이터베이스로적재되어있다. 데이터는 5분마다한번씩수집되고있으며 Postgres 관계형데이터베이스테이블에타임스탬프, AMI 위치, 전력사용량등의정보와같이 XML 포맷으로저장되어있다. 이중에수요전력데이터는 15분단위로계산되어별도의테이블에저장된다. 3.1 전력데이터특성 그림 6은 2014년 1월한달간의전력사용데이터를보여준다. 공장과빌딩의근무일인월요일부터금요일까지는전력사용량이피크를이루고휴무일인토요일과일요일에는전력사용량이급격히줄어드는반복적인패턴을보여주고있다. 따라서, 수요전력예측모델작성시에는근무일과휴무일을분리하여두개의모델을작성하는것이정확한예 그림 5 하둡에코시스템 Fig. 5 Hadoop echo system 그림 6 월간전력사용데이터 Fig. 6 Energy usage data for one month 하둡기반빅데이터시스템을이용한스마트그리드전력데이터분석 87

전기학회논문지 64P 권 2 호 2015 년 6 월 그림 7 월별전력사용 Fig. 7 Monthly power usage 그림 8 계절별평균전력사용량 ( 봄 : 3~5, 여름 : 6~8, 가을 : 9~11, 겨울 : 12~2) Fig. 8 Average power usage by season 그림 9 시간대별평균전력사용량 Fig. 9 Average power usage by time 측에유리하다. 수요전력예측모델에관한세부사항은다음장에자세히기술한다. 월별전력사용량은그림 7에서보여주듯이겨울철인 12월과 1월, 여름철인 7월과 8월에는다른시기와비교하여다소높은전력사용량을보인다. 이는외부온도에의한냉난방운용의결과이다. 동일한맥락으로그림 8에서계절별사용량을보면, 여름과겨울철에는냉난방을위해서봄과가을보다높은전력사용량을보인다. 따라서, 보다정확한수요전력예측을위하여계절및외부온도데이터를고려하여야한다 [10, 11]. 시간대별로는그림 9에서보여주듯이출근시간인 9시부터전력사용량이서서히증가하면서 12시경에전력사용량이피크를이루고오후에들어서면서전력사용량은서서히감소하여퇴근시간인 6시이후에전력사용량이급격히감소하는반복적인패턴을보인다. 그림 10은산업별전력사용량을보여주고있다. 산업유 그림 10 산업별전력사용량 Fig. 10 Power usage by industry 통단지지역들은서로비슷한전력사용량을보여주고있으나생산시설인산업용로봇이즐비한테크노공장단지에서는산업유통단지보다상대적으로많은에너지를사용하고있다. 그림 11은산업별일단위전력사용특징을보여주는그래프로, 산업유통단지인상단세개그래프는주말에전력사용량이현저히줄어드는특징을보여주는반면에산업용로봇이많은테크노파크인네번째그래프는주말에도비슷한전력사용량을보여준다. 이러한산업별특이패턴은에너지효율화를위한계획수립에유용하게사용될것이다. 3.2 관계형데이터베이스와하둡의성능비교 AMI별전력데이터는 5분마다 XML 형태로저장되고 15 분마다수요전력데이터를 XML 데이터로부터추출하여 2와같은테이블스키마로저장된다. 2에보이는것처럼수요전력데이터는타임스탬프, 위치정보, 전력관련데이터가함께저장된다. AMI위치는게이트웨이명과 URL로식별되고, 해당시간의수요전력과요금이함께저장된다. 데이터가누적되면서대용량으로기존의관계형데이터베이스에서 SQL(Structured Query Language) 를이용하여분석하기에는어려움이있다. 3은관계형데이터베이스로저장한데이터를 SQL로처리하는경우와 HBASE로적재한후하둡의하이브 (Hive) 를이용한맵리듀스병렬처리로연산하는경우의기본적인연산수행시성능비교를보여준다. 3에서보여주는것처럼관계형데이터베이스시스템에서 SQL을사용하는경우대부분의연산이하둡을사용했을경우보다 3~5배이상소요되기때문에사용자에게온라인으로서비스하기에는적절하지않다. 하지만하둡의맵리듀스기능을이용한하이브의경우에는확장성이우수하여데이터의크기가증가하여도맵퍼와리듀서를최적화하여안정적인속도로서비스하는것이가능함을알수있다. 관계형데이터베이스의경우에는연산속도가 HBASE보다느린원인을그림 12에서보여주고있다. 관계형데이터베이스의경우에는행 (row) 을중심으로데이터가저장되기때문에특정한열 (Column) 에대한연산을수행하려면디스크에서메모리로여러블록을읽어들여야한다. 예로, 그림 12의경우에주어진쿼리문을수행하기위하여 3개블록을메모리로읽어들여야한다. 반면 HBASE와같은열기반저장인경우에는동일한연산수행시디스크입출력이줄어든다. 그림 12의경우동일한쿼리문을수행하기위하여 88

Trans. KIEE. Vol. 64P, No. 2, JUN, 2015 2개의 블록 만 메모리로 읽어 들이면 된다. 이와 같은 이유 로 열에 대한 연산 수행 시 기존의 관계형 데이터베이스보 다는 열기반의 저장 방법이 유리하다. HBASE의 경우 이러 한 열기반으로 데이터를 저장하여 속도를 증대시키고 있다. 또한, HBASE의 경우 동일한 데이터를 세 곳의 별도의 위 치에 저장하여 병렬로 연산이 가능하고 데이터 오류시에도 복구가 가능하도록 구성한다. 이러한 특징으로 하둡의 맵리 듀스를 이용하면 시스템 성능을 최적화 할 수 있는 다수의 맵퍼와 리듀서가 자동으로 생성되어 병렬로 연산 처리하여 수행속도가 훨씬 빠르게 된다. 그림 12 행기반 대비 열기반 저장 공간 Fig. 12 Row based vs. Column based storage scheme 3 연산별 관계형 데이터베이스과 하둡 맵리듀스 성 능 비교 Table 3 Performance comparison between RDBMS and Hadoop 연산 RDBMS (SQL) Hadoop (Hive) Count (record) 60 sec Count (unit) 79 sec Count (site) 64 sec Group (by unit) 77 sec 22 sec Group (by site) 69 sec Group (by time) 65 sec 23 sec Group (by hour) 93 sec 23 sec Group (by month) 72 sec 25 sec Group (by season) 21 sec 18 sec 3.3 맵리듀스를 이용한 데이터 분석 응용 그림 11 산업별 월간 전력 사용량 Fig. 11 One month power usage by industry 2 수요전력 데이터 테이블 Table 2 Demand table Field Content Type mid 아이디 Serial Timestamp ttime 시간 sgname 게이트웨이명 Text url 장치 URL Text demand 수요전력 rdemand 무효전력 pf 역률 charge 요금 whacc 누적전력사용량 하둡기반 빅데이터 시스템을 이용한 스마트그리드 전력데이터 분석 전력관리 시스템에서 기준사용량 (CBL) 계산은 전력수요 관리 및 요금계산, 수요반응 등 부가서비스 제공을 위한 중 요한 핵심 연산중에 하나이다. 기준 사용량 계산 방법에 관 한 많은 연구가 이루어져 있고 그 계산 방법이 복잡하지만, 본 논문에서는 기준사용량 계산을 단순화하여 동일 시간대 의 10일간 평균 전력 사용 값으로 정의하였다. 즉, 동일한 타임태그를 갖는 레코드의 10일간 전력사용량 데이터를 평 균한 값을 기준사용량으로 정의한다. 이러한 CBL 계산은 컬럼 기반의 대적인 연산으로 앞장에서 언급했듯이 관계 형 데이터베이스로 계산하는 것은 비효율적이다. 실제로 기 준사용량을 계산하기 위한 관계형 데이터베이스와 하둡의 하이브 간에 연산 속도를 비교하면 4에서 보이는 것처럼 관계형 데이터베이스로 저장된 데이터를 이용하여 기준사용 량을 계산하는 연산은 하둡의 하이브를 사용한 경우보다 3 배 정도 느리다. 에너지의 원활한 수요 공급을 위하여 수요전력에 관한 정 89

전기학회논문지 64P 권 2 호 2015 년 6 월 4 기준사용량계산연산 Table 4 CBL computation cost 기준사용량연산 RDBMS (SQL) Hadoop (Hive) 유닛 ( 단일 AMI) 60 sec 단지 ( 동일 sgname) 79 sec 전체 64 sec 확한예측이필요하다. 이를위하여하둡의에코시스템중마헛 (mahout) 에포함된선형회귀분석을이용하였다. 근무일과휴무일에전력사용패턴이현저하게다르므로하나의회귀모델을사용하여수요전력을예측하기보다는, 근무일 (weekday) 과휴무일 (weekend) 을분리하여두가지다른선형회귀모델로예측하였다. 그림 13에 2014년 1월의근무일회귀모델에의한예측값과실제값과휴무일모델에의한값 들을보여주고있다. 근무일 (weekday) 인경우에는예측패턴이실제전력사용값과비교적정확하게매치되고있다. 하지만, 상대적으로휴무일 (weekend) 인경우에는피크전력예측에서근무일보다오차가크게발생한다. 이러한현상은휴무일 (weekend) 인경우회귀분석값이트레이닝데이터에지나치게의존하는현상이발생하고다양한휴무일의특성으로 (i.e., 주말또는주초에휴일이발생하여주말이길어지는경우, 주중에휴일이발생하는경우등 ) 장기간의다양한데이터가필요하나현재의데이터규모로는휴무일에수요전력을정확하게예측하기에는부족하다. 좀더정교한회귀분석모델을사용하거나오랜기간의데이터를수집하면이러한현상은해소될것으로예측된다. 스마트그리드확산사업으로수집된전력사용데이터를활용하여전력데이터의특성을분석하였다. 분석에따르면전력사용데이터는대용량으로관계형데이터베이스를이용하여분석하는것보다하둡을이용한빅데이터시스템으로구축한후병렬처리를지원하는맵리듀스를이용한분석방안이 3~5배정도빠르다. 스마트그리드확산사업으로데이터의용량이기하학적으로증가할것을고려하면관계형데이터베이스를이용한데이터분석이어려울것으로예측된다. 현재의시스템은그래픽사용자인터페이스가제공되지않아서일반사용자가전력데이터를분석하거나예측하기위하여명령어기반의도구를사용하여야한다. 향후, 웹기반의사용자인터페이스를제공하여일반사용자가손쉽게전력사용량을예측할수있는서비스를제공할계획이다. 또한, 최근에인메모리연산을이용하여연산성능을향상시키기위한시스템이개발되어하둡빅데이터시스템환경에서사용되고있다. 향후, 이와같은인메모리기능을활용하여분석성능을향상시킬계획이다. 마지막으로오프라인으로분석하는기능이외에온라인상에서스트리밍으로저장되는전력사용데이터를처리및분석하기위한시스템으로확장할계획이다. 감사의글본연구는 2013년도산업통산자원부의재원으로한국에너지기술평가원 (KETEP) 의지원을받아수행한연구과제입니다. (No. 20132010101800) References 그림 13 한달간 (2014년 1월 ) 수요전력예측 : 근무일 ( 상단 ) 휴무일 ( 하단 ); 실측값 ( 붉은색 ), 예측값 ( 파란색 ), 에러 ( 녹색 ) Fig. 13 Demand predict for a month (2014. 1): weekday(top) and weekend(bottom); real value(red), predicted value(blue), error(green) 4. 결론본논문에서는하둡기반의빅데이터시스템을이용한전력사용데이터를저장및분석하는방안을제시하였으며, [1] Smartgrid website, http://www.smartgrid.or.kr, Korea smartgrid association, 2013. [2] Demand Reductions from the Application of Advanced Metering Infrastructure, Pricing Programs, and Customer-Based Systems Initial Results, SmartGrid.gov, December, 2012. [3] Demand side management using ICT and technologies, Ministry of Trade, Industry and Energy, August, 2013. [4] Big data understanding and applications, B. On, KETEP, December, 2012. [5] Ultra Large-Scale Power System Control Architecture, SmartGrid.gov, October 2012. [6] Hadoop The Definitive Guide, 3rd Ed. W. Tom, OReilly Media, July 2009. [7] Hbase: The Definitive Guide, G. Lars, OReilly, August 2011. [8] Programming Hive, C. Edward, OReilly Media, November 2012. [9] MapReduce: Simplified Data Processing on Large Clusters, J. Dean and S. Ghemawat, Communications of the ACM, Vol. 51, No. 1, pp. 107-113, 2008. [10] A Big Data Management System for Energy 90

Trans. KIEE. Vol. 64P, No. 2, JUN, 2015 Consumption Prediction Models, W. Lee, B. On, I. Lee and J. Choi, Proceedings of International Conference on Digital Information Management (ICDIM), BangKok, Thailand, pp. 156-161, October, 2014. [11] Simple one-pass algorithm for penalized linear regression with cross-validation on MapReduce, e-print arxiv:1307.0048 (2013) [12] Development of Sensor Based Energy Management System, D. Um, J. Choi and I. Lee, Journal of the Korean Institute of Illuminating and Electrical Installation Engineers, Vol. 28, No. 10, pp. 69-74, 2014. [13] A Study on Demand-Side Resource Management Based on Big Data System, J. Yoon, I. Lee and J. Choi, The Transactions of the Korean Institute of Electrical Engineers, Vol. 63, No. 8. pp. 1116:1120, 2014. 온병원 ( 溫炳原 ) 2007년미국 The Pennsylvania State U. 컴퓨터공학과졸업 ( 박사 ). 2008 년 ~2009년캐나다 U. of British Columbia 박사후연구원. 2010년 ~2011 년 U. of Illinois at Urbana-Champaign ADSC연구소선임연구원. 2011년 ~2014 년차세대융합기술연구원공공데이터연구센터센터장. 2014년 ~ 현재군산대학교통계컴퓨터과학과조교수. E-mail : bwon@kunsan.ac.kr. 최중인 ( 崔重仁 ) 1987년 MIT 제어계측졸업 ( 박사 ). 1987 년 ~2014년가천대학교에너지IT학과교수. 2013년 ~ 현재차세대융합기술연구원스마트그리드연구센터센터장. E-mail : jichoi@snu.ac.kr 저자소개 조영탁 ( 曺永卓 ) 2014~ 현재아주대학교정보컴퓨터공학과학사과정재학중. E-mail : nintyning@gmail.com 이원진 ( 李原振 ) 2014년경기대학교컴퓨터과학과졸업. 2013~2014년차세대융합기술연구원공공데이터연구센터연구보조원. E-mail : ckask12@kyonggi.ac.kr 이인규 ( 李仁奎 ) 2007년 미국 The Pennsylvania State U. 컴퓨터공학과 졸업 ( 박사 ). 2007 년 ~2013년 미국 Troy U. 경영대학 조 교수. 2013년 ~2014년 차세대융합기술연 구원 스마트그리드연구센터 책임연구원. 2015년 ~ 현재 미국 Troy U. 경영대학 부교수. E-mail : inlee@snu.ac.kr Copyright c The Korean Institute of Electrical Engineers 91 This is an Open-Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/ licenses/by-nc/3.0/) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited.