빅데이터관리와분석을위한 플랫폼융합활용사례 BI Forum
분석시스템구축 Review(1/2) 1
분석시스템구축 Review(2/2) 분석속도가느리다면? 정보요구사항이변하거나 추가된다면? 데이터량이너무많다면? 2
과거의빅데이터저장 데이터량이너무많다 그러나 RDBMS 에서관리하는것은 막대한비용소요 지금까지의처리방안 1. 데이터간에우선순위부여 신용카드데이터 > 상품데이터 > 웹로그데이터 수집하지않거나 ( 버리거나 ) 상세수준으로저장하지않는다 2. 데이터시점에우선순위부여 최근 3 년치만 RDBMS 에나머지는테이프에 3. 데이터접근수준차등화 집계데이터만전사공유, 세부데이터는각부서별로보관 3
최근의빅데이터저장 RDBMS 를벗어나서비용부담없고확장성있는방식을찾자! 데이터저장방향 그냥모든데이터를 ( 있는그대로 ) 저장하자 원래형태그대로상세수준그대로저장 문서, 동영상과같은비정형데이터도그대로저장 가장현실적인대안은? Hadoop Hadoop은무료이고필요한머신과 SW는저렴 검증된성능 - 하둡의최대이용자인야후는 5만개의노드로구성된하둡네트워크를배치하여사용중 4
Hadoop Review - Hadoop Framework HDFS: 하둡분산형파일시스템 HCatalog: 하둡데이터용테이블및스토리지관리서비스 Pig: 맵리듀스용프로그래밍및데이터플로우인터페이스 Hive: SQL과유사한언어인 HiveQL을이용해하둡데이터쿼리를생성하는솔루션 (DW) 출처 : Brian Proffitt, ITWorld 5
Hadoop Framework - HDFS RDBMS 를벗어나서비용부담없고확장성있는방식을찾자! HDFS? 하둡네크워크에연결된아무기기에나데이터를밀어넣는분산형파일시스템 (Brian Proffitt) 다수의노드로이루어진하둡시스템에데이터가자동적으로중복되게만듦. 따라서하나의노드에서고장이발생하거나느려지더라도여전히그데이터에접근할수있다 Cloudera 의제시스펙 중간수준의프로세서, 4~32 GB의메모리 각노드에대한 1 GbE 네트워크연결및 10 GbE의탑-오브-랙 (Topof-Rack) 스위치 하둡이네트워크를포화상태로만들지못하도록하는전용스위칭인프라 장비당 4~12개의드라이브및비 RAID 방식 6
Hadoop Framework 다양성의인식 하둡은오픈소스 구성요소는모두가변적이며 core 라도다른 SW 로대체가능하다 120여종의 NoSQL 제품 Column Family DB: Hbase, Cassandra Document DB: MongoDB, CouchDB Key/Value DB: Scalaris, Membase Graph DB: Neo4J, Dynomite 아마존의 EC2(Elastic Compute Cloud) 는 S3 채용 DataStax의 brisk는하둡배포판에서 Cassandra FS로대체 7
Hadoop 재검토 시스템도입책임자로서질문 하둡기술자를확보할수있는가? 하둡요소기술은다양하고계속변화하는데우리 IT 담당자들이 계속따라갈수있을까? ( 중저가라고는하지만 ) 서버를도대체몇대나구매해야하는가? 기존 RDBMS의기능과성능을대체가능한가? 정말저렴한가? ( 서버면적, 전기료, 인건비, ) 8
최근의동향 Hadoop 도입동향 IDC, 대형포털, 클라우드서비스제공기업에서는 Hadoop을적용 일반기업에서는도입사례적으며, 특히금융권에서는찾아보기어려움 Hadoop을전면적으로도입하기보다는보완적으로도입 업계동향 5~30 테라수준 & 빠른속도의 Appliance 확장성높은 RDBMS ( 티베로의 TMC, 100 테라이상 ) 9
빅데이터저장사례 사례 1 국내 Global 가전업체 전세계 Smart TV의프로그램 ( 앱, 비디오 ) 이용데이터수집 ( 서버로그, 서비스로그 ) 전세계기기별데이터의통합 사례 2 국내 Global 게임서비스업체 국내서버외에유럽, 미주서버에서게임서비스 게임이용통합분석을위한데이터취합 상기사례는현재프로젝트진행중인내용이며, 진행에따라내용이변경될수있음 10
국내 Global 가전업체사례 (1/2) Global Public Cloud Global Public Cloud 로그생성및저장 Mart OLAP Cube OLAP Mart Reporting 내부시스템 매출, 서비스 ODS DW 메타정보 11
국내 Global 가전업체사례 (2/2) Why Global Public Cloud? 데이터증가에대한유연한대처 데이터이중백업 ( 다른대륙에위치한 IDC 에백업 ) 보안위험성낮음 ( 특히 DDoS) 플랫폼변경에유연 (Hadoop 적용, 고성능업그레이드등 ) 12
국내 Global 게임서비스업체사례 (1/3) 지역별게임서비스데이터 ( 국내, 유럽, 미주 ) Global Public Cloud In-Memory Global Public Cloud SaaS BI DB DM Cube OLAP Log Cloud Storage EIS DBMS DW /DM Cube Social Analytics HDFS HIVE DW SNS Mart 13
국내 Global 게임서비스업체사례 (2/3) Why Global Public Cloud? Cloud 없이는국내서버로의데이터취합부터어려움 저렴한비용 Why Cloud BI? 유연한라이선스 저렴한비용 특정제품 (Tool) 에종속적이지않음 14
국내 Global 게임서비스업체사례 (3/3) 서버구매방식과비교하여 Cloud 는얼마나저렴한가? 직접비용 국내데이터규모, 5 년기준 실서버구매 (DW 용서버와 Storage, DBMS/OS 포함 ) 와비교 Public Cloud 비용은서버구매대비 40% 이하 기타비용 실서버구매시추가 SW( 보안, 백업등 ) 구매필요 서버설치관련비용 ( 임대면적, 네트웍공사, 전기료 ) 인건비 ( 서버관리자 ), 데이터저장량이예상보다늘어날경우, Cloud에서는아주적은비용으로바로대처가능 15
기존 BI 환경과 Hadoop 의융합 (1/2) 기존 RDB 플랫폼을유지하면서 Hadoop 을도입하고자할경우 기존 RDBMS 에서하둡으로데이터를옮기려면? 클라우데라의 Sqoop(SQL-to-Hadoop) 툴이대표적 JDBC 인터페이스를통해 RDBMS의데이터를불러올수있게함 Sqoop을이용해 RDBMS 데이터를곧바로 Hive DW로불러올수도있음 쿼리분석을하려면? Hive 하이브쿼리언어 (Hive QL) 를이용해쿼리수행하고분석 주의사항 : 하둡은배치처리시스템이기때문에하이브쿼리시상당한지연이발생할수있음 16
기존 BI 환경과 Hadoop 의융합 (2/2) Hadoop 데이터저장 (HDFS) ODS (Hbase/MySQL) DW(DM) (Hive) Source Sqoop HQL Map/Reduce DW(DM) ( 기존 RDBMS) SQL BI Tool 17
Hadoop DW 기반기존 BI 활용사례 Cloud Local System( 기존 BI System) HADOOP Name node JAVA Web Service ROLAP Report Data node HIVE HIVE SERVER ODBC 또는 JDBC Hive Table 의 Meta 정보 Meta DB (MySQL) Hive는외래키가없어서기존 BI Tool 에서직접연결시분석안됨 테이블정보입력, 가상의기본키와외래키지정필요 18
과거의빅데이터분석 분석속도가느리다 사용자분석속도 & 데이터적재속도모두빠른처리요구 but 속도를개선하기보다는분석범위를조정하여처리 지금까지의처리방안 집계수준조정 일단위에서주단위로, 주단위에서월단위로집계수준상향 분석주제를세분화 상세분석은특정영역에한정 리포트의배치생성 리포트를조회하는시점에서데이터를분석하는것이아니라미 리리포트를생성해놓음 분석이아니라조회용도로 BI 활용 (OLAP 을 Report 로사용 ) 19
최근의빅데이터분석속도향상방법 구분 Appliance In-Memory 특징 장비 +DBMS+OS+Storage 일체화 ( 전부또는일부 ) 서버또는클라이언트의메모리에데이터를업로드한후분석 비용매우높음높음 분석 DW 구성 매우빠른쿼리조회 (10 년간제품별평균매출금액조회 ) DW + Mart + (Cube) 구성구성요소는모두물리적으로구축 매우빠른분석 ( 최근가입한백만고객에대해채널별캠페인유형별성과분석 ) DW(Mart) 만물리적으로메모리에업로드 Mart(Cube) 는논리적으로구성 * 규모가작은경우는 Raw 데이터를메모리에업로드하고분석모델을모두논리적으로구성 20
인메모리플랫폼상의 BI(1/2) Server BI In-Memory(Server) OLAP Storage DM 압축 Cube (Model) 데이터시각화 DBMS DW /DM Cube Client In-Memory(Client) HDFS HIVE DW 압축 DM Cube (Model) 21
인메모리플랫폼상의 BI(2/2) 인메모리경향 서버인메모리, 클라이언트인메모리구분은 DBMS 와 BI Tool 에 좌우되는경향 대부분의시각화 Tool 은인메모리를전제로함 인메모리적용고려사항 여러차원으로상세분석하는경우필요 정책적인결정 인메모리분석대상영역결정 빠른분석, 상세분석이필요한데 이터영역만한정할것인지 메모리업로드정책결정 메모리상주또는필요시업로드여부 22
과거의요구사항변경대처 분석요건의변경 & 추가 반영하기에는너무큰작업. 적정 선에서타협 지금까지의처리방안 분석모델변경이미미한경우 IT 담당자 ( 유지보수담당자 ) 가작업 작업량은적어도데이터의재적재에많은시간이걸릴수있음 사용자화면 ( 리포트 ) 상의오류와이의수정작업이상당할수있음 분석모델변경이필요 & 추가사항이있는경우 요구사항정리 > 모델링 > 데이터추출 / 적재전체작업수행 리포트위주의분석시스템인경우리포트재개발까지도감안 2 차개발, 고도화등의사업화 23
빅데이터분석변경대처 변경이잦은영역을인메모리로분석 인메모리 해당영역의 Raw 데이터를메모리에업로드 자주변경되는 ( 논리적 ) 데이터모델만수정적용 재적재 ( 업로드 ) 없이바로수정분석 가상의데이터통합구조를이용하여필요시쿼리를생성하여 데이터허브 결과제공 사용자 : 쿼리디자인 관리 : 데이터소스와추출에대한메타정보관리 허브 : 사용자쿼리조건을실행가능한 SQL로변환 / 실행 메모리, 디스크최적화, 병렬서버등의기술기반 24
데이터허브와인메모리융합사례 쿼리디자인 (Client) 결과 데이터소스 데이터허브 쿼리생성 / 실행 File File 추출 가공 전송 DM Model 메타관리 In-Memory 25
BI 포럼의빅데이터플랫폼접근방향 26
BI 포럼 2010년부터활동하고있는전문중소 SW 포럼으로지식경제부, 정보통신산업진흥원, 한국소프트웨어산업협회에서후원 27