오픈소스를활용한클라우드 / 빅데이터서비스구현 주식회사오픈소스컨설팅
Profile 최지웅 오픈소스컨설팅컨설팅코치 삼성계열사오픈소스전략가이드수립및아키텍처링 대전통합전산센터클라우드아키텍처전략컨설팅 대용량시스템아키텍처구축 / 튜닝 아마존기반시스템구축, 오픈소스미들웨어 (Apache/Tomcat/JBoss), Big Data 백엔드시스템 (Linux, Middleware, EAI, SOA, Cloud Computing, etc) 솔루션 Red Hat Korea(for 5 years) Global Professional Service Consultant 기업고객오픈소스도입컨설팅 BEA Systems Korea(for 5 years) Principal Sales Engineer WebLogic/AquaLogic/EAI/SOA Sun Microsystems(for 3 years) Java EE Instructor/Coach 2
우리생활에없어서는안되는것? 3
우리디지털생활에없어서는안되는것? 4
휴대폰으로무엇을하세요? 5
스마트기기의시스템에서는무슨일이? 방금 1 분동안 하루동안 2 억개의이메일이발송 10 만개의트윗메시지 일 10 억건발송즉, 초당 11,574 건메시지 일 12억페이지뷰일 1.3억건검색 3 테라바이트로그데이터 http://zephoria.com/social-media/top-15-valuable-facebook-statistics/ 6 일 3 억개의이미지업로드일 5 억개의콘텐츠공유 293,000 개의상태업데이트 20G 이상의로그데이터 일 26 억건검색 ( 글로벌 )
모바일로인한모든 IT 트렌드가변화 모바일이엔터프라이즈및모든기기를지배하고있음 Unit Volumes (Millions) 1200 Growth in Internet Connected Devices 600 0 WW Media Tablets WW Notebooks WW PCs WW Smartphones 2010 2011 2012E 2013E 2014E 2015E Source: Wells Fargo Securities, January 23, 2012 Fostering the People: The Shift to Engagement Apps Focus areas for mobile computing Source: 2011 IBM Tech Trends Report https://www.ibm.com/developerworks/mydeveloperworks/blogs/techtrend s/entry/home?lang=en 7
트래픽주도요소 스트리밍데이터 기기성능향상 트래픽 == 트랜잭션 모바일기기증가 모바일속도향상 8
IT 환경의변화 사용환경 HW/SW Network Enterprise IT Web IT Expert only 내부전용 (Silo) 구축형, Manual IOPS 예측가능 소용량 Data Appliance HW License SW App 에서 Network 이슈없음 Service 용 ( 외부판매 ) 표준화 / 통합화 System Network 중요 대용량 Data 교환망 / 전송망중심 전용 Network CDN SDN Cloud IT Everyone Open API 종량제, 자동화 IOPS 예측불가 고집적화 확장성 Platform화 Data Traffic 210X Commodity HW Open Source SW IP망 (Shared Network) 1990 2000 2010 9
Internet Of Things 예전유비쿼터스개념의진화 2011 년 150 억개의사물과웹이연결, 향후 2 천억개의기기가웹으로연결예상 10
시스템용량을매년 78% 씩증가시켜야하나? 2016년전세계월별모바일데이터트래픽 10.8 엑사바이트 ( 년 180 엑사바이트 ) : 연간 78% 성장률 2016 년국내모바일트래픽 10 배가량증가 : 월별 0.46 엑사바이트생성 연간 130 엑사바이트는 DVD 330 억장, MP3 파일 4300 조개, 문자메시지 81 경 3000 조 1024 Gigabytes = 1 Terabyte 1024 Terabytes = 1 Petabyte 1024 Petabytes = 1 Exabyte http://www.cisco.com/web/kr/about/news/2012/1-4/news_0215.html 11
기존의방식으로는대안이없다! 현재의 IT 추세를시스템이받쳐주지못하는상황이발생 고비용 고가의유닉스기반의하드웨어, 스토리지, 네트워크장비 최소 2 년 ~6 년간의벤더종속성발생 확장성및시스템유연성 시스템품의부터도입, 설치, 테스트, 운영까지최소 2~3 개월 엔터프라이즈평균 CPU 사용률 20% 미만, 스토리지 60% 미만 데이터처리의한계 문제인식 기존 DW 를통해처리할수있는데이터용량을초과 정형화된데이터만존재하지않음 대안모색 12
가상화전환 IT 시스템평균자원사용률 20% 서버사용률개선, 서버즉시확장등의 IT 자원의효율화 서버통합을통한 TCO 절감, 유연성및확장성의제고라는다양한효용성제공 OS, Network, Storage 등의다양한가상화종류 x86 서버아키텍처 Multi-App 환경 App App App App 시스템SW OS 장애 / 간섭, 확장선택 /Hang OS 사용률 단일 H/W, OS, 애플리케이션 고성능 H/W 단일 OS, 다중애플리케이션 App OS 가상화환경 App OS Virtualization 파티셔닝, 캡슐화, 격리 즉시성제공 새로운서버생성에 10 분을넘기지않음 App OS 13
모든자원을클라우드화 인터넷기술을기반으로외부사용자 ( 기업, 개인 ) 에게 IT 로구현된 'as a service' 로제공되는컴퓨팅환경 Storage Server Everything as a Service Through Internet Database [ 산업혁명 산업화 ] 특수계층이아닌모든사람에게보다저렴하고양질의상품을공급 [IT 혁명 클라우드컴퓨팅 ] 언제어디서나, 보다저렴하고향상된 IT 서비스를모든사람들에게제공 사용자가원하는만큼의자원을할당하여사용 14
클라우드를폭발시킨아마존 세계최대의퍼블릭클라우드컴퓨팅서비스전세계 50여만대의인프라자원운용서비스 2012년도기준 1.7조원매출모든기반서비스는오픈소스를채택현재 130개이상의클라우드서비스제공대부분의신생기업이아마존클라우드에서시작 9 Including: Amazon FPS Red Hat Enterprise on EC2 24 Including: Amazon SimpleDB Amazon Cloudfront Amazon EBS EC2 Availability Zones EC2 Elastic IP Addresses 48 Including: Amazon RDS Amazon VPC Amazon EMR EC2 Auto Scaling EC2 Reserved Instances EC2 Elastic Load Balance AWS Import/Export AWS Mngmt Console Win Srv 2008 on EC2 IBM Apps on EC2 61 Including: Amazon SNS Amazon CloudFront Amazon Route 53 S3 Bucket Policies RDS Multi-AZ Support RDS Reserved Databases AWS Import/Export AWS IAM Beta AWS Singapore Region Cluster Instances for EC2 Micro Instances for EC2 Amazon Linux AMI Oracle Apps on EC2 SUSE Linux on EC2 VM Import for EC2 82 Including: AWS Sao Paulo Region AWS Oregon Region Elastic Beanstalk Amazon SES AWS CloudFormation Amazon RDS for Oracle AWS Direct Connect AWS GovCloud (US) Amazon ElastiCache VPC Virtual Networking VPC Dedicated Instances SMS Text Notification CloudFront Live Streaming AWS Tokyo Region SAP RDS on EC2 SAP BO on EC2 Win Srv 2008 R2 on EC2 Win Srv 2003 VM Import Amazon S3 SSE 2007 2008 2009 15 2010 2011
클라우드컴퓨팅에사용된 S/W - FOSS 16
국내도입 - 정부통합전산센터 `12 년도사업 `12 년도사업 - 업무중심의클라우드서비스를제공 비전 추진목표 추진전략 추진과제 부처업무의클라우드전환 세계 1 위전자정부서비스를선도하는세계최고수준의클라우드컴퓨팅실현 공개소프트웨어적용 IT 운영예산절감 60% 전환 50% 도입 40% 절감 서비스고도화 (Service Enhancement) G- 클라우드인프라통합구축 표준클라우드인프라도입 미터링기반자원할당 공개소프트웨어활성화 자원효율화 (Resource Efficiency) G- 클라우드플랫폼서비스제공 원격지 AP 개발플랫폼 스마트오피스플랫폼 정부소통망플랫폼 모바일앱플랫폼 웹하드플랫폼 N- 스크린플랫폼 공공 SNS 플랫폼 Big Data 플랫폼 관리체계혁신화 (Management Transformation) G- 클라우드서비스제공 공통행정업무서비스 공통기반업무서비스 민간솔루션검증연계서비스 기술표준화 (Tech Standardization) G- 클라우드업무전환및보안 각부처업무단계적전환 HW 통합사업연계를통한공개 SW 도입 클라우드보안강화 17
`11 년도 1 차사업결과 결과 효율성안정성 IT 변화대응 2009 년부터 47 개중앙부처의 IT 자원수요를모아高성능서버로통합해공동활용 2011 년도까지개별서버 1,334 대를통합하여총 1,023 억원의비용을절감 범정부정보자원중기통합계획 ( 09.1.20, 국무회의보고 ) `09~`12 년간개별서버 1,970 대를高성능서버 255 대로통합 제 1 단계통합효과 : 개별구축시 5,263 억원 통합 3,730 억원 (30% 절감 ) 교육비원클릭시스템, 원자력안전위원회및독도홈페이지등 40 여개업무시스템에클라우드를적용하여효율성과안정성을확인 새로운 IT 변화 ( 모바일, 스마트오피스등 ) 의필요성에공감한기관들의수요를모아, 함께사용하는플랫폼을구축하면중복개발, 시행착오및예산낭비를해소 ULSAN 발표자료 18
클라우드를통한유연성증가 = 트랜잭션 / 데이터처리능력향상 2 Scale-out 형태의강력한수평적확장능력 자동스케일링 VM 2 HAProxy DNS HAProxy VM VM VM 1 1 1 http:// 스케일링된인스턴스 19 현재시스템모니터링정보전달 4 1 2 Scale-out: 1 대씩증가 Scale-in: 1 대씩감소 클라이언트에이전트를통해현재가상머신인스턴스의 CPU, Memory 사용량에대한정보를관리서버로전달 3 관리서버 Trigger AutoScaling 조건 ( 아래수치는변경가능 ) Scale-out: if CPU > 80% 5 분 Scale-in: if CPU< 10% 5 분 확장처리항목 요청수 CPU, Memory 기타모니터링대상항목 클라우드자원풀 트리거설정을통해임계치를만났을경우, 자동스케일링스크립트를활용하여템플릿으로인스턴스를확장, 로드밸런서로등록 NOTE. 가상머신을새롭게생성해야하므로클라우드관리프로세스와밀접한연관을가짐
SNS + 클라우드 = 쏟아지는데이터 비관계형데이터저장소로, 보통기존전통적인방식의관계형데이터베이스와 (RDBMS) 는다르게설계된확장형데이터베이스 대용량데이터저장및분석 Contribution RDBMS 수평적확장의한계 20
가뭄의단비 구글의공헌 억단위의사용자 Database Scale-up 의한계 ( 예 : 페이스북, 트위터초기 MySQL) Scale-out 형태의저장및데이터처리방식고려필요 NoSQL <2007 년 Google> 데이터센터당약 40,000 대서버 총서버대수 1,000,000 대 일단위평균 400PB 데이터처리 한작업당 180GB 입력데이터 < 빅데이터기술논문공개 > Google Filesystem(2004 년 ) 분산파일시스템 MapReduce(2005 년 ) Hadoop 프로젝트 BigTable(2006 년 ) NoSQL 프로젝트 Chubby, Sawzall 등 Hive, ZooKeeper 프로젝트 오픈소스빅데이터프로젝트의시초 21
기업 / 기관 기존의버려지는데이터 ( 로그등 ) 를활용 빅데이터플랫폼으로 Apache Hadoop 이 de-facto 표준이되어가고있는상황 서비스 플랫폼 인프라 서비스스택 B2B, B2C Echo System Hadoop File System 지도 동기화 Smart Phone 1 데이터마이닝 2 클러스터관리 Tablet PC 개인스토리지 SNS 기업서비스 1 워크플로우관리 2 데이터분석 파일 서비스플랫폼 인프라플랫폼 22 PC/Laptop 인터넷 OLAP Reader 빅데이터분석 3 데이터처리 4 OLAP 추이분석변경분석 3 빅데이터로드 4 NoSQL 쿼리 정형 / 비정형데이터
대용량비정형데이터처리 일반적인 BI(Business Intelligence) 처리프로세스와유사함 OpenAPI 데이터수집 (Aggregation) Collecting Store Process/Analysis Visualization Collecting Store Analysis Reporting Data Collector Crawling Web, Social Network System log, RDBMS 등 NoSQL DBMS 수집데이터저장 DBMS Hadoop 등을이용한대용량데이터저장 데이터활용 (Utilization) Data Query Data Clustering Classification Recommendation Hive, mahout, R 등을통한분산 / 병렬데이터실시간분석 ( Big Data Solution 의기능및처리흐름과관리구조 ) Chart/Grid Data Export/API Monitoring Chart, API 등을통한다양한 View 생성및제공 빅데이터요소기술이투입됨 Managing Data Scientist Reporting Management System 23
빅데이터수집 데이터수집을시작으로빅데이터를시작 빅데이터데이터 ( 로그 ) 수집시스템요건 확장성 : 수집대상서버대수무한확장 ( 수천 ~ 수만대 ) 안정성 : 데이터가유실되지않고안전하게저장 실시성 : 수집된데이터를실시간으로반영 유연성 : 다양한포맷의데이터를지원해야함 24
빅데이터스토리지 스토리지가격이상당히고가이므로저비용스토리지를통한확장성을둔소프트웨어출현 빅데이터분산스토리지요건 저비용 : 범용 x86 서버와 SATA 디스크사용 고확장 : 수 PB~ 수백 PB 이상데이터저장 고가용 : 데이터 3 중복제를통한데이터안정성보장 고성능 : 대규모 IO 처리, Throughput 의선형확장성 25
빅데이터저장 데이터확장성을위한분산, 신뢰성을위한데이터복제등을통한저장기법사용 빅데이터분산데이터저장 비관계형데이터베이스를지칭하는데이터저장소 Not Only SQL 이라는표현을사용, Key-Value 형식으로데이터를범용서버에분산해서저장 분산병렬처리에적합한확장성과고성능 I/O 제공 데이터스키마와속성들을동적으로정의 기존관계형 DB 의 ACID 속성미지원, Join 어려움 26
빅데이터적재 기존의엔터프라이즈데이터소스분석을위한데이터 Import/Export 를위한기법 빅데이터연계 ETL 과같은속성을지닌 EII 형태의아파치프로젝트 RDBMS 와 HDFS 간의데이터교환방법제공 27
빅데이터처리속도향상 대용량처리대상데이터에대한속도향상 CPU Core 수를 높임 병렬처리 Data 전송은 병렬로일하지 않는다. Disk 는병렬로 일하지않는다. 컨트롤러 CPU, Disk 가 병렬로일한다. 1 대추가, 약 1.8 배씩성능 증가 추가증설 28
빅데이터분석 Input Data Split 0 read Split 1 Split 2 Worker Worker Worker User Program fork fork fork assign map local write Master remote read, sort assign reduce Worker Worker write Output File 0 Output File 1 29
빅데이터분석 단순분석이아닌통계처리수준의마이닝을위한정보분석방법을도입 빅데이터분석 R: 통계소프트웨어개발과자료분석에널리사용되고있으며, 패키지개발이용이하여통계학자들사이에서통계소프트웨어개발 Mahout: MR 을이용한배치기반의클러스터링기반데이터분석알고리즘, Hadoop 뿐아닌다양한소스를활용, ( 알고리즘 : 행렬곱, 벡터연산, 클러스터링, 협업필터링등 ) R Project 30
결정체 오픈소스하둡에코시스템 빅데이터처리를위한하둡에코시스템블록다이어그램 워크플로우관리 Oozie 데이터접근 Hive( 선언적, SQL 유사 ) Pig( 절차적 ) HBase(Column DB) 데이터마이닝 Mahout 데이터처리 MapReduce (Job Execution) 데이터저장소 HDFS Java Virtual Machine Operating System(Linux, Windows) 하드웨어 YARN(Scheduler) 분산코디네이터 ZooKeeper 데이터수집 Chukwa Flume : Hadoop 코어 31
빅데이터사례 서울시심야버스 교통카드기착지, 종착지분석 + 심야택시 500 만건 서울시내 30 억건의휴대전화통화데이터분석 서울시누드프로젝트의일환 서울전역을 1 km반경의 1250 개의셀단위로유동인구 교통수요량을색상별로표시 기존의버스노선과시간 요일별유동인구및교통수요패턴을분석하고노선부근유동인구가중치를계산하는등재분석을거쳐최적의노선과배차간격을도출, 2013 년 9 월개통 박원순시장홈페이지 : http://wonsoon.com/4074 32
빅데이터사례 금융 금융사기, 자금세탁방비 테라데이타와 SAS는데이터웨어하우징기술과분석기술을결합하여 자금세탁방지, `신용위험관리 ` 등위험관리와금융사기예방을위한솔루션공급 (ZDNet Korea, `11) 카드부정이용파악 비자카드회원이용패턴조사 비자카드는최근에는카드회원별이용패턴을분석하는작업에빅데이터기술을적용해수천억건에해당하는모든회원의모델작성을기존한달에서 13 분안에가능하도록구현 33
빅데이터사례 기타 아마존상의 ` 하둡 ` 사용의가장잘알려진대표적인예는뉴욕타임즈의 100 년간의 1,100 만여건의파일을변환하는기존 1 개월여소요작업을아마존의 EC2, S3 서비스와 ` 하둡 ` 으로단하루만에 1,450 불로해결함. 세계최대의퍼블릭클라우드컴퓨팅서비스 전세계 50 여만대의인프라자원운용서비스 2012 년도기준 1.7 조원매출 일일로그사이즈 70TB 전처리및압축 Daum 서비스내발생하는모든트래픽수집, 분석및리포팅 - 페이지뷰, 클릭경로, 사용자분석등 광고로그및통계처리등을기반으로광고집행타켓팅분석 - 2.40GHz 8core/24GB 50 여대클러스터구성 - 10 분당, 시간당, 일단위의데이터산출 34
상호연관성 소셜 Mobile 클라우드 빅데이터 35
마치며 생각의틀을바꾸고깨기 행렬형쐐기벌레는앞의벌레를따라일자로줄어지어간다. 파브르가동그랗게만들어봤더니 6일동안이나뱅뱅돌다가죽었다. 기존의틀을유지하려다가죽은것이다. 창의성은새로운것을만들어내는것이아니다. 우리가보여주기전까지소비자들은그들이무엇을원하는지알지못한다 - 스티브잡스 - " 애플스티브잡스와마이크로소프트빌게이츠는결코새로운뭔가를발명한것이없다. 그들은아이디어를모두훔쳤다. 밖으로나가끊임없이뭔가를찾고 (search) 최선의것이발견되면가져와서조합 (combine) 했을뿐이다. 그것이그들이한창조다. - 윌리엄더간, 콜럼비아대교수 - 창의성 = 트렌드읽기능력 + 오픈소스 36
OPEN SHARE CONTRIBUTE ADOPT REUSE 37