Big Data, Operational Intelligence 에서시작하자
유럽입자물리연구소 충돌실험으로해마다 22 Petabytes 생성 실험실에서는초당 1 petabyte 생성 5 시그마 (99.999%) 의정확도가진패턴찾기게임
목차 1. Big Data 그실용적핵심의미는무엇인가? 2. 실용적접근방법은? 3. Operation Data 를통한 Big Data 구현사례들 4. Pattern 찾기와 Data Scientist 5. 결론
Big Data 에대한일반적인반응 / 오해들 별상관없다 우리조직에는그런큰데이터는없다 우리조직의데이터는알아서잘처리하고있다 = 적용할분야가없다 DB 나 DW 를더구매하라는얘기아니냐? 엄청난예산이필요할것이다 전문가가없다 내가당장할일이아니다! 우리나라에는그런솔루션이없다. 외국산만존재한다 Oracle, IBM, SAS 에게물어보고그때가서하겠다 DW 로사후분석하는팀에가서물어보라 CRM, ERP, Cloud 처럼한때요란하다가사라질것이다 흥미는있으나당장내가하는업무에서필요성을못느낀다
Big Data 시대 의실용적핵심의미는? 패턴찾기쉬워졌다 기존의방식으로는패턴찾기가불가능하거나여러가지이유로어려움이있었는데가능해졌다
Big Data 의성격과기존의 RDBMS DB 에서벗어나야 Big Data 가보입니다. VOLUME Terabytes Records Transactions Tables, Files VELOCITY Batch Near Time Real Time Streams VARIETY Structured Unstructured Semistructured All the above Traditional RDBMS REALTIME LARGE VOLUME UNSTRUCTURED Balance of Data Architecture! Bridge Technology!
목차 1. Big Data 그실용적핵심의미는무엇인가? 2. 실용적접근방법은? 3. Operation Data 를통한 Big Data 구현사례들 4. Pattern 찾기와 Data Scientist 5. 결론
Big Data 솔루션의실용적접근방향 Machine data log 를직접분석한다 DB 를사용하지않는다. - 실시간모니터링 / 분석가능 비정형데이터를통한거의모든운영 / 비즈니스분석가능 -Excel 수작업 - grep 정형데이터비정형데이터정형데이터비정형데이터 수시간 ~ 수일 수초 ~ 수분
빅데이터솔루션주요기능 실시간관리 (Real-time Management) Real-time Collecting 실시간데이터수집데이터발생과동시에데이터수집 Real-time Indexing 실시간인덱싱데이터수집과동시에인덱싱 Real-time Searching 실시간검색수초이내에검색완료 ( 데이터크기와무관 ) Real-time Monitoring & Alert 실시간대시보드 사용자관점으로커스텀 UI 개발 Real-time Reporting 실시간레포팅다양한출력방식제공
Big Data 솔루션의활용우선순위 Operational Intelligence 1 단계. 내부생산성향상 SM/NM/ESM/AM
Big Data 기술 - 중요도와시장성숙기 Benefit Cloud Computing In-Memory DBMS Content Analytics Internet of things IT Service Root Cause Analysis Tool Text Analytics Semantic web NoSQL & MapReduce Social Media Monitors (source : Gartner, July 2012 Hyper-cycle of Big data ) Years to mainstream adoption
현재접근방식에관한우려의목소리들 포춘 500 대기업대부분이 2015 년까지빅데이터분석에나서겠지만, 85% 이상의기업이빅데이터를활용한경쟁력강화에실패할것 - 가트너 - 현재국내에서빅데이터를활용한사례는미미하다. 그러나마치소셜분석이빅데이터분석인양얘기하고있는게현실이다. ITDaily 분석기사중 - 데이터분석기술과시스템자체보다는수집된데이터를적절히활용해가치를창출할내부역량이중요하며, 데이터를활용할인재확보, 조직문화등이성패를가를것 -LG 경제연구소 -
목차 1. Big Data 그실용적핵심의미는무엇인가? 2. 실용적접근방법은? 3. Operation Data 를통한 Big Data 구현사례들 4. Pattern 찾기와 Data Scientist 5. 결론
DB 의처리속도한계에따른사례 -I I 아이들안심등하교메시지서비스 (L 이동통신사 ) 기존 RDBMS 10 분이상 5 초이내 등하교시간대트래픽급증 Bigdata 솔루션
ESM(Enterprise Security Management) 의치명적인약점보완 ESM 의치명적약점 =Excel/ 에디터로수작업 ESM 룰생성 관제 경보 / 대응 로그수집 手작업로그분석 침해기록 手작업로그분석 수만수십만로그를육안으로검색 숙련전문가 1MB 에 1 시간 대부분고객은기다리다포맷 새로운침입분석에극히원시적대응 ESM 무용론 (?) 의근거 실시간검색가능 실시간인덱싱 83,000 EPS (event size 300 byte 기준 ) 100GB 최초인덱싱 30 분이내
반도체생산라인불량제어 (S 전자 ) - 과거 DB 로는처리할수없는경우 27 일無중단공정 불량판정...... Excel 수작업 48 시간이상 600 여대의서버 6 천여대의생산설비 6 만여개의센서 수천본의 Application --------------- 로그사이즈 --------------- -1.8 TB / 1일 -약50TB /27일 ---------- Application Bug 수정 장애분석팀 최소 3-4 일, 최대 27 일간불량반도체는계속생산!
반도체생산라인불량제어 (S 전자 ) - 현재 실시간 Error Log 탐지 27 일無중단공정 불량판정...... 실시간에러패턴감지 / 통보 / 상관관계분석 10 분이내수정및조치 장애분석팀 5 초이내에러패턴감지, 10 분이내분석완료
DDOS 공격차단사례 DDOS 로부터 NW 보호 L3 CPU 에임계치설정 수초 - 수분안에상위 n 개의 IP 검색 자동차단및알람 좀비 PC 고객방문서비스 DDOS 로부터 NW 마비되는것방지 L2 단으로확대예정
비정상 Transaction 의처리 Big Data 솔루션이전 비정상트랙젝션 DB Call Center 비정상트랜잭션문의 ----------------- ----------------- ----------------- ------------- ------------- ---------- ---------- 수시간후확인통보 에스컬레이션 지원엔지니어
비정상 Transaction 의처리 Big Data 솔루션이후 Call Center 에서자동처리 DB Call Center 비정상트랜잭션문의
여러가지현장고민과상상력의예 기존의유사실험데이터를이용하여시간과비용절약을하고싶은데기존자료가너무방대한양이라찾을방법이없어서 감사관이요청하여일년치 Web log 를분석을통해우리나라에서가장많이전국의지적도를검색한 IP 몇십개를찾는일을쉽게생각했는데수 TB 를분석하다가감사기간 15 일이지나버렸다. 내년에또요청이있으면어쩌나? 수천대의서버로그를실시간수집분석하는방법은없을까? 어플리케이션로그가하루에 1.8TB 가발생하니 DB 로는엄두를못내고누군가가그안에있는 Error 로그를실시간알려준다면좋으련만 반도체제조라인관리자 화학업체 R&D 연구원 정부대민서비스 Web Log 관련공무원 서버 Hosting 업체운영관리자 장애접수시기록한다양한비정형 VOC 를분석하면좋으련만 DB 의 like 검색은한계가있고 Excel 로분석하려니. 콜센터장애분석담당자 우리회사방화벽제품에도실시간 Source IP 의접속상태를보여주는관제기능을추가하고싶은데.. 방화벽제조업체 R&D 연구원 보안로그, 결국은눈으로확인해야하는데, 이불편을해결할방법은없는것인가? 보안관제서비스운영자 전세계흩어져있는석유시추및채굴장비가장애를발생시키는데, 실시간센서로그를종합분석하여장애를미리예측할수있다면작업중단에의한손실을획기적으로줄일수있을터인데. 원유채굴업체담당자
서비스프로세스전체를실시간관리 OI 의대표적예 장애징후실시간발견, 장애구간실시간파악으로장애예방과신속한조치가가능 특정서비스의가용성획기적인증대가능 통합관리 (Management Integration) Real-time Searching Real-time Monitoring & Alert Real-time Reporting Real-time Indexing Real-time Collecting Presentation Tier Web Tier Application Tier Middleware Tier Platform Tier
기존감시분석시스템과의연동 공정관리보안감사장애관리성능관리자산관리 MES SMS NMS ESM APM.... JDBC
목차 1. Big Data 그실용적핵심의미는무엇인가? 2. 실용적접근방법은? 3. Operation Data 를통한 Big Data 구현사례들 4. Pattern 찾기와 Data Scientist 5. 결론
Event 와 Pattern 의선순환 Big Data 솔루션은패턴찾기게임이다. 기존의 DB나 SW가처리못하거나, 느리거나, 비싸서손대지못한데이터를처리한다. Event 와 Pattern 의선순환이곧생상성향상, 기업경쟁력이고, 새로운가치를창출한다. 여러분의상상력이원동력이고, 여러분이 Data Scientist 의강력한후보자이다! 새로운패턴추출 PATTERN 생산성증대 경쟁력강화 EVENT BIG DATA 신가치창출 실시간 Event 찾기 지식의축적
Data Scientist? = 바로여러분이유력한후보자! 지금부터반드시필요한인력 성숙된환경 Big Data N/W Bandwidth + Computing Power Analyzing Tool Predictive Insights ( 豫知力 ) Business Value Data Scientist
목차 1. Big Data 그실용적핵심의미는무엇인가? 2. 실용적접근방법은? 3. Operation Data 를통한 Big Data 구현사례들 4. Pattern 찾기와 Data Scientist 5. 결론
Big Data 솔루션의활용우선순위 Operational Intelligence 1 단계. 내부생산성향상 SM/NM/ESM/AM BIG DATA 이해와활용사례
감사합니다. Q&A 김진수, 마케팅담당부사장 james.kim@datastorm.co.kr