HPE AI STRATEGY, PORTFOLIO & SOLUTIONS 민병기부장 / PonitNext A&PS HPE Cloudera, Inc. All rights reserved.
폭증하는데이터에대한기업의고민 기업의고민 폭증하는데이터 화된데이터 에따른분석요구증대 데이터관리비용폭증 데이터처리성능의한계 데이터처리이슈 기업내시스템로그센서설비데이터의용량이수수십용량으로기하급수적인증가 각라인별로생산되는다양한데이터에대해로그파일센서데이터등각각개별적인보관및관리 스마트팩토리구현을위해도입이가속화되고있으며데이터에대한분석요구가증대됨 다양하고방대한양의데이터를처리하기위한기존의인프라의확장및유지보수관리비용의폭증 기존데이터처리방식으로는폭증하는것에대해선형적인성능한계발생 해결방안 데이터처리혁신 표준화된전사데이터관리통합된데이터활용다양한데이터통합처리데이터관리비용절감기존인프라성능한계극복딥러닝분석가속화데이터기반기업실현
인공지능이주요산업의 를주도 고객의서비스경험을강화제품과서비스의개선비즈니스프로세스최적화 금융 제조 헬스케어 통신 부정거래방지 위험관리 투자예측 고객 신용도분석 예지정비 수요예측 음성인식 지능형 의료상담의료진업무보조 질병진단 신약개발용임상시험 의료영상분석 고객맞춤형추천 네트워크운영최적화 지능형 고객
인공지능에대한기대치와현실의격차는아직존재 비즈니스을위한최적의적용분야는 인공지능시스템훈련을위해서필요한데이터에대한정의와수집방법 인공지능전문인력의부재 인공지능시대에대비하기위한조직문화변경에대한최적의방법은 인공지능도입에따른인간과기업윤리에대한영향은
인공지능도입을위한단계 인공지능적용분야에대한선택프로젝트진행적용분야고도화 현재도전과제와 기대치에대한이해 공통된비전을가진 구성 최상의기존사례와필요한기술연구 데이터에대한수집및적용가능여부검증작업 선택된분야에대한 테스트진행 어플리케이션에인공지능기능통합 도입성과분석 인공지능시스템에대한지속훈련 적용분야확대
준비단계 이해단계 생성단계 검증단계
워크로드에대한적용가이드 벤치마크테스트도구제공 벤치마크및아키텍처툴에대한오픈소스화 개의 프레임워크 기반의 개워크로드에대해서 종의 하드웨어구성에대한 정보제공 워크로드에대한성능예측치를제공하여최적의시스템사이징근거자료제공 벤치마크도구를에공개예정 성능분석도구 에표준아키텍처정보공개
분석을위한기업의 원천데이터획득 데이터캐쉬및로컬저장 이벤트스트리밍 실시간데이터구조화 모델 데이터레이크 분석을위한데이터가공 데이터마트생성 분석및딥러닝 데이터분석모델생성및학습 모델테스트 데이터제공
분석을위한기업의
분석을위한기업의
1. Provision Data 5. Delivery Information 4. Integrate Business Processes 3. Analyze Data 2. Store, Distribute & Process Data 6. Expose Information 1. Provision Data: 데이터원천으로부터수집하여다양한방법및형식으로전송수행 2. Store, Distribute & Process Data: 데이터를저장하고, 분석하기위해전처리작업수행, 필요시, DW 데이터와통합되기도하고, 다른시스템이나사용자를위해배분 3. Analyze Data: 정형보고서생성이나통계또는마이닝을통한통계분석, 머신데이터는실시간스트리밍분석, 비정형데이터는분류또는군집작업수행, 잠재한 Insight 를도출하기위한다양한데이터작업 4. Integrate Business Processes: 분석결과를업무프로세스와통합, 실시간처리엔진 (SOA, ESB) 을통해업무규칙을적용하여적절한액션을수행 7. Manage Enterprise Information 5. Delivery Information: 분석결과를시각화도구, 시스템, 대쉬보드, 검색엔진등으로전달 6. Expose Information: 다양한인터페이스로최종사용자에게정보전달 8. Deliver Infrastructure 7. Manage Enterprise Information: 빅데이터관리체계, 데이터의품질, 모니터링 8. Deliver Infrastructure: 빅데이터분석솔루션의인프라구성, 보안확보, 규제및법규대응처리
Provision Data 내부정형 (Transaction) 내부반정형 ( 로그 ) 내부비정형 ( 음성 / 파일 ) 외부정형 ( 공공 /Biz.) 외부비정형 (Crawlering) Delivery Information 시각화대쉬보드리포트검색포털 Integrate Business Processes 비즈니스프로세스 알람 & 메시지 Store, Distribute & Process Data 워크플로우 실시간이벤트프로세싱 Analyze Data 텍스트분석데이터탐색패턴분석 음성분석 센서 / 로그분석 Rich Media 분석 통계분석 머신러닝 ( 딥러닝 ) Expose Information 어플리케이션내부접속외부접속. 기타 파일기반스키마기반 Structured Unstructured Extract/Load/ Transform 기타 Manage Enterprise Information Governance 메타데이터 데이터 Life Cycle 관리 모니터링 데이터보호 / 보안 Deliver Infrastructure 서버스토리지네트워크보안 기타
분석환경요구에빠르게대응할수있는시스템 빅데이터분석활성화를지원하는시스템 사용자의분석역량의발전을지원하는시스템 시스템의효율적인운영을지원하는시스템 분석환경요청 / 승인 / 분석데이터요청 / 승인등절차지원기능제공 다양한분석환경접속 Gateway 제공, 메타조회및검색으로편리한분석환경제공 검색기반의개인화서비스, Q&A, 도움말등의지식공유기능제공 SAND BOX 관리기능, docker 관리와모니터링기능으로효율적인시스템운영지원가능 시스템관리자데이터관리자개발자데이터사용자고급분석가업무관리자 빅데이터포탈 검색 / 개인화서비스 게시판 / Q&A 관리 / 도움말관리 메타데이터관리메타데이터검색 분석데이터관리 (ETL / 흐름관리 ) Sand Box / 딥러닝요청관리 Sand Box / 딥러닝현황모니터링 메뉴관리 인증관리 / 권한관리 시스템연동관리 Ambari HUE Atlas / Ranger Zeppelin SANDBOX Grafana Docker Deep Learning AI 환경 R 분석 전사 DA 시스템 Data Lake 클러스터 딥러닝클러스터
빅데이터분석포털 사용자그룹 일반사용자 플랫폼운영자 포털접속 [SSO] 대시보드사용자운영자분석 Workspace 분석 Application 영업지원시스템고객행동분석고객금융니즈분석상품추천 VoC 시각화 분석 Community 화면 LINK [SSO] 연계화면 Sandbox 요청관리 Sandbox 작업현황 지식센터 분석방법 전문분석가 분석모델 데이터메타 분석자료실 Q&A 분석 RStudio 데이터분석 보고서공유 빅데이터현황 시스템 Batch 통계 분석서버 분석 Statistics 작업처리통계 사용자 Batch 통계 Workload 통계 코드샘플 Admin 사용자분석기준정보공지사항 권한관리 공통코드 메타정보 / 통계조회 HDFS Hadoop Cluster Hive ( 운영영역 ) 관리 / 질의 수집이행통합이행마트 Tool R Server 분석스케쥴링 Hive ( 샌드박스영역 ) 시각화 분석실행 TA 분석 Server 마트 (Team1) 마트 (Team2) 마트 (Team3)
구축사례
구축사례 빅데이터플랫폼구축범위및내용 빅데이터플랫폼구축 Hadoop 기반의빅데이터수집 / 저장관리 - 수집에이전트운영관리기능 ( 추가, 변경, 스케쥴등 ) - 수집및파일전송모니터링, Stream 데이터의실시간처리기능 데이터전처리 ( 필터링, 변환, 정제등 ) Hadoop 에저장된데이터에대한분석후처리지원 NoSQL 인 Hbase 에다양한비정형데이터저장관리 Hadoop 분산파일시스템저장관리 통계적분석, 데이터마이닝등데이터분석기능제공 정보계등 RDBMS 와연계하여데이터를교환할수있는기능제공
데이터저장 Container 관리 최근빅데이터플랫폼구축트렌드 3 시각화분석환경구축 4 빅데이터포탈 구축사례 시각화대쉬보드 VA Tool 분석화면 시계열화면 권한관리 모니터링 메타검색 분석연계 분석환경관리 분석 Workspace Batch (Hive) FILESYSTEM HDFS Streaming (Spark, Kafka, Storm) Resource Management (YARN) Operations (Cloudera Manager, Director) ETL 1 빅데이터저장소 (Data Lake) 구축 Processing / Analytics / Serving RELATIONAL Kudu SQL (Impala) Unified Services Storage Data Collection STRUCTURED Sqoop Search (Solr) Security (Sentry, RecordService) Data Management (Cloudera Navigator, Encrypt) NoSQL HBase Spark-ML (R, DeepLearning) OTHERS Object Store UNSTRUCTURED Kafka, Flume 과제 1 분석과제 1 과제 4 2 마케팅 딥러닝클러스터구축 GPU GPU GPU 과제 2 AI 분석 과제 5 딥러닝 Container Application CUDA CUDA CUDA / / / TensorFlow libraries libraries libraries nvidia nvidia nvidia base base base libraries libraries libraries 과제3 리스크 ML모형 과제 N... 빅데이터관리체계플랫폼운영체계메타데이터관리 NAS Storage
작업승인요청확인및결과등록 플랫폼모니터링 메타데이터관리 / ETL 작업결과확인 Cloudera Manager 접속환경 구축사례 작업공간할당요청 시각화분석및보고서활용 데이터검색 시스템관리자데이터관리자데이터사용자 인증관리 권한관리 빅데이터포탈 메뉴관리접근관리승인관리 관리 Container Deep Learning Cluster GPU GPU GPU Container Container Container Application Application Application CUDA / TensorFlow libraries CUDA / TensorFlow libraries CUDA / TensorFlow libraries nvidia base libraries nvidia base libraries nvidia base libraries Hadoop Cluster Name Node Resource Manager Data Node 분석및운영솔루션 메타데이터관리솔루션 ETL 작업관리솔루션 Node Manager 저데장이터 HDFS Kudu Impala Hive Solr 시각화솔루션 NAS Storage 적재 이행이행수집통합마트
구축사례 Deep learning pipeline Jupyterhub/ notebook Distributed Tensorflow Tensorboard TFDBG Tensorflow Model Serving Registry Web UI LDAP RBAC Audit Plugins Metric Logging GPU scheduling Kubernetes Cluster & Orchestration Cluster Docker Engines Infrastructure HPE Servers HPE Storage 3PAR StoreServ StoreVirtual HPE Network HPE Kubernetes PointNext
구축사례 Deep Learning 플랫폼구축범위및내용 Deep learning 플랫폼구축 GPU 를이용한컨테이너기반 deep learning 환경구축 데이터분석전문가그룹 (Data Science Team) - Mesosphere DC/OS 를이용한 Container as a Service 환경구축 - 컨테이너기반 Deep learning framework 구축 (TensorFlow, PYTORCH, Jupyter 등 ) CPU 서버를이용한컨테이너기반 Hadoop 데이터분석환경구축 이미지분석 데이터프로세싱 로그데이터분석 - 기반 Hadoop 데이터분석을위한 R, Spark, Zeppelin 등의환경구축 서비스신청및자원관리를위한서비스포탈구축 - 사용자관리, 서비스관리, 서비스신청관리등을위한클라우드포탈구축 - 자원신청 ~ 할당에대한프로세스자동화 - 자원운영현황에대한모니터링및대시보드개발 Deep learning 분석을위한 GPU 서버클러스터와 Hadoop 분석을위한 CPU 서버클러스터에대한통합관리