비아이큐브_백서.indd - PDF Free Download

빅데이터분석의새로운패러다임을제시합니다 Powered by

2 빅데이터분석의새로운패러다임을제시합니다. Bigdata Cluster Part Cubedoop Cluster TM BICube는빅데이터머신러닝플랫폼을보유한회사로써빅데이터머신러닝플랫폼내에파일을저장하고 MapRedue를실행해야하는요소가필수였다. 이에 BICube는플랫폼내에서안정성과성능, 그리고효율성을위해서 Apache Hadoop 을이용해 Cubedoop Cluster 라는빅데이터클러스터플랫폼을만들었으며, 자체빅데이터클러스터를개발운영하면서축적한노하우를바탕으로 Cubedoop Cluster 를상품화했다. Cluster Appliance Cubedoop Cluster 는 Rack 단위로확장해갈수있는 S/W & H/W 일체형의 Cluster Appliance 이다. 일단 Cluster 전문가에의해고객의문제해결에적합한클러스터사이즈가결정되면, 성능최적화 H/W Spec을따라구성된 Cluster 위에최적화 Parameter를갖는 Cubedoop이얹어진 Cubedoop Cluster 이고객에게제공된다. Cluster S/W 특징 Cubedoop 최적화파라메터가이드를통해각클러스터타입에맞는 Cubedoop Cluster가세팅이되며, 일정주기별로 Cubedoop 설정파라메터에대한평가가클러스터사용자에게레포팅되어분산작업시간을최소화시켜준다. 또한다른 Hadoop 배포판과마찬가지로노드들을효율적으로관리할수있는모니터링 Tool이별도로제공이되며, 분산 Job 처리시에각노드로분산되는로깅을일괄적으로편하게확인할수있는등 Job 처리편의성을높였다. Cluster H/W 특징 클러스터를구성하는노드들의하드웨어관리를편하고효율적으로하기위해서메인보드와하드디스크그리고파워서플라이를분리시켜그룹화했으며, 각노드들의상태 (Status) 와전력상태등을전담모니터링하는서버를각 Rack 마다하나씩추가했다. 그결과고장난노드교체비용을최소화했으며, 복잡한클러스터운영을많은부분단순화시켰다.

빅데이터분석의새로운패러다임을제시합니다. 3 Cluster 종류 ( 노드수 ) Type A : 16 * 8 = 128 nodes Type B : 16 * 16 = 256 nodes Type C : 16 * 24 = 384 nodes Type D : 24 * 24 = 576 nodes Cluster 종류 표준형 : 실행잡이 CPU 계산혹은파일 I/O 작업어느한쪽으로편중되지않고분산처리작업의유형이다향한경우선택 CPU 편중형 : 데이터마이닝혹은파생데이터를이용한계산이많은경우선택 ( 예 : 자연어처리, HPPC) I/O 편중형 : 파일입 / 출력이많은작업의비중이높은경우선택 ( 예 : 전형적인 MapReduce job, Sorting) Appliance + 지원서비스 거대규모의빅데이터클러스터를안정적으로운영하기위해서는클러스터전문가의기술이절대적으로필요하다. 일반적으로클러스터운영의노하우는오랜기간에걸쳐쌓이기때문에빅데이터클러스터전문가를보유하기가쉽지않은고객사는빅데이터클러스터도입을망설일수밖에없다. 당사는고객사에대한빅데이터클러스터전문가의지속적인지원계획을통해, 빅데이터클러스터어플라이언스를도입한고객이안정적인클러스터운영을보장받을수있도록최대한노력할것이다. CubePi Clusgter TM CubePi Cluster는분산처리의성능을벤치마킹하기위해 BICube가디자인한 Raspberry Pi 2 Cluster 에서시작되어상품화되었다. Raspberry Pi 2 각각의성능은 PC와비교가안될정도로미약하지만다수의 Raspberry Pi 2가클러스터링됐을때분산처리의성능은엔터프라이즈용도로도손색이없을정도로훌륭하다. BICube는 CubePi Cluster 의잠재적고객니즈를예상해제품화했다. (HPCC (HighPerformance Computing Cluster), or DAS (Data Analytics Supercomputer)

4 빅데이터분석의새로운패러다임을제시합니다. BICube TM : 빅데이터머신러닝플랫폼 Part BICube 는빅데이터비즈니스모델을고객의니즈에맞게 One-stop 으로구현하기위한빅데이터머신러닝플랫폼이다. 빅데이터솔루션의한계 대부분의빅데이터관련솔루션들은단일기능을구현하는데촛점이맞춰져있기때문에원하는비즈니스모델을구현하기위해서는아키텍터가다양한솔루션을직접선택해서조합해야한다. 이러한상황은툴간의호환성문제와솔루션추가구매시발생하는비용문제그리고새롭게추가된솔루션의안정적인운영과기술지원등다양한이슈를야기하게되고결국고객이원하는빅데이터비즈니스모델을구현하는데어려움을겪을가능성이높아지게된다. BICube TM : 단일플랫폼 BICube 는각각의기능별레이어가합해진단일빅데이터플랫폼이다. Layer 1 - 데이터추출, 변환및로딩 Layer 2 - 데이터저장 Layer 3 - 머신러닝엔진 Layer 4 - 애플리케이션레이어 ( 비즈니스모델이구현되는레이어 ) 이렇게 Vertical 한구조를갖는빅데이터플랫폼은세계에서도유일한플랫폼이며비즈니스모델구현이단일플랫폼에서이뤄진다.

빅데이터분석의새로운패러다임을제시합니다. 5 다양한데이터커넥터다양한데이터커넥터 빅데이터분석플랫폼에서데이터의연결은가장기본이며중요한부분이다. BICube 의기본데이터저장소인 HDFS로데이터를가져오기위한다양한데이터커넥터가제공되며이를이용하여다양한소스의데이터를 BICube 로가져올수있다. 리얼타임스트리밍 BICube 는실시간분석을위해스트리밍을위한오픈소스를다수채택하고있으며, 성능향상을위해자체적으로개발된스트리밍처리모듈도보유하고있다. 데이터변환모듈 정형데이터를전처리하는다양한데이터변환모듈이내장되어있어플랫폼안에서기본적인데이터변환을간편하게수행할수있다. - 데이터탐색기, table 관련연산, row/column 연산, summary 연산, 릴레이션연결등. Cubedoop BICube 는기본저장소로 Hadoop을사용한다. Apache에서제공되는 Hadoop을그대로엔터프라이즈용으로사용하면운영상번거로운점들이많이있다. Hadoop의원활한모니터링과관리를위해 Cubedoop 이라는 BICube에특화된 Hadoop 배포판을만들었으며 BICube 의저장소로사용된다. 왜머신러닝인가? 업계에서빅데이터붐이시작된지 4~5년이다되어가지만아직이렇다할빅데이터관련성공사례가전무하다시피하다. 빅데이터관련성공사례가없는가장큰이유는비즈니스접근이잘못됐기때문이다. 많은사람들이빅데이터비즈니스를과거그대로의데이터분석모델에분석할데이터만많아진상태로인지했다. 이러한답보상태에서벗어나게해줄가장중요한 Key가바로머신러닝이다. 분석대상이되는엄청난데이터위에머신러닝의기술이올라가면이전에생각하지못했던새로운가치들이창출될수

6 빅데이터분석의새로운패러다임을제시합니다. 있다. 실제로여러회사들이머신러닝을이용해서새로운비즈니스를만들고있으며활용사례도보고되고있다. 비즈니스로직의구현 BICube 의애플리케이션레이어는프레임워크의가장상위레이어로써비즈니스로직이구현되는레이어다. 총 8개의그룹으로나눌수있으며각그룹의역할은아래와같다. Manipulation: 각종리모트시스템제어관련컴포넌트 (java, Spark, Scalar, Python, R, Hadoop, Graph) Mashup: 데이터커넥터와크롤러, 오픈API 컴포넌트 Preprocess: 자연어처리, 각종파서, 인코더컴포넌트 Classify: 각종분류알고리즘이구현된컴포넌트 Cluster: 각종군집알고리즘이구현된컴포넌트 Associate: 연관분석관련알고리즘이구현된컴포넌트 Bioinfomatic: 바이오분석을위한컴포넌트 Visual: 각종시각화컴포넌트 각컴포넌트들을이용하여고객이원하는비즈니스모델을구현할수있다.

빅데이터분석의새로운패러다임을제시합니다. 7 FDS part 왜머신러닝인가? 리카온 -에프 (Lycaon-F) 는이상금융거래탐지를위해 ( 주 ) 비아이큐브에서제작한 Neural Stream- FDS(Fraud Detection System) 어플라이언스이다. NeuralStream 구조채택 Neural Steam은복잡한대량의데이터를빠르고정확하게처리하기위해고안된 BICube만의독자적인스트림처리방식이다. 뇌신경이동작하는방식에아이디어를얻어만들어졌으며기능단위의뉴런들을원하는순서와구조로구성할수있다. [Neural Stream에서뉴런 ] 입력을받아들여연산 / 저장후결과를내보내는가장작은단위의계산유닛 NeuralStream 특징 빠른스트림처리뉴런 - 초당최대 200만메세지처리 뉴런을서로이어서원하는동작을구현 프로그래밍언어방식의코딩아님 프로그래밍이힘든기능을구현가능 일부 CQL(continuous query language) 방식처리 분산처리가능 뉴런의기능그룹을코텍스로묶어서원하는만큼복제가능 가독성높음 뉴런의구성을 GUI 작업공간에서한눈으로조망할수있음

8 빅데이터분석의새로운패러다임을제시합니다. 사용자프로파일생성 모든사용자의거래프로파일, 고객속성프로파일, 기기정보프로파일을실시간분석하면서검사한다 FP 를낮추기위한기법 Danger Zone Danger Zone 이라는용어는AIS( 인공면역시스템 ) 의 Danger Theory에서사용되는용어이다. Danger Theory 는면역시스템이위험을감지했을때항원이나외부침입자를 kill 하는하는매커니즘으로써이상거래가의심되는트랜젝션을 Danger Zone으로넘겨서재검사함으로써탐지정확도를높인다. Danger Zone AIS( 인공면역시스템 ) 으로구성 Artificial Immune System(AIS) 인간의면역체계의메커니즘을그대로재현한인공면역시스템을오탐 / 과탐을낮추는데사용

빅데이터분석의새로운패러다임을제시합니다. 9 False Positive & False Negative 구분오류종류결과 False Positive False Negative 정상 사기 ( 과탐 ) 사기 정상 ( 오탐 ) 정상거래차단고객항의빈발 사기거래발생은행피해 기존 FDS 와의차별성 기존 FDS NeuralStream FDS Batch 처리 실시간 Stream 처리 Low Latency 온라인러닝 머신러닝 분산처리 Scal Out 유연한기능확장

주소 : 서울시서초구반포대로12길 33 305호 구매및상담문의 : 070-7568-1166 E_mail: godwithks@bicube.co.kr 홈페이지 : www.bicube.co.kr