슬라이드 1

Similar documents
사내 개발 프로세스 개선(안)

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

슬라이드 1

Cloud Friendly System Architecture

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관


빅데이터_DAY key

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

[Brochure] KOR_TunA

PowerPoint 프레젠테이션

gcp

비식별화 기술 활용 안내서-최종수정.indd

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

PlatformDay2009-Hadoop_OSBI-YoungwooKim

Basic Template

김기남_ATDC2016_160620_[키노트].key

RUCK2015_Gruter_public

출원국 권 리 구 분 상 태 권리번호 KR 특허 등록

공개 SW 기술지원센터

PowerPoint 프레젠테이션

Slide 1


Hitachi Content Platform 클라우드 & 소프트웨어정의클라우드오브젝트플랫폼 Hitachi Content Platform Hitachi Data Ingestor Hitachi Content Platform Anywhere REVISION NO

aws

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

NoSQL

초보자를 위한 분산 캐시 활용 전략

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

PowerPoint Presentation

Microsoft PowerPoint - chap01-C언어개요.pptx

슬라이드 1

PowerPoint 프레젠테이션

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

PowerPoint Presentation

PowerPoint Template

PowerPoint 프레젠테이션

SANsymphony-V

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

오라클의 클라우드, 가상화 기술과 그 가치

슬라이드 1

PowerPoint Presentation

게시판과 같은 구조화되지 않은 텍스트를 대상으로 주제 분류 와 예상 답변을 제시하는 방식으로 그 뼈대는 일반적인 텍스트 기반 정보 검색(IR) 기법을 기반으로 하고 있다. 이는 정보 검색에 대한 가장 일반적인 분야로서 텍스트 분석, 자연어 처리, 기계 학습과 같은 분야

슬라이드 1

<4D F736F F F696E74202D20332DC1F6B9DDC1A4BAB8BDC3BDBAC5DB>

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

Microsoft PowerPoint - 10Àå.ppt

위세아이텍_iOLAP_

<4D F736F F F696E74202D E20C0CEC5CDB3DD20C0C0BFEB20B9D720BCADBAF1BDBA20B1E2BCFA E >

PowerPoint Presentation

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

자동화된 소프트웨어 정의 데이터센터

PowerPoint Presentation

PowerPoint 프레젠테이션

DBMS & SQL Server Installation Database Laboratory

PowerPoint 프레젠테이션

서현수

Samsung SDS Enterprise Cloud Networking CDN Load Balancer WAN

< FC8A8C6E4C0CCC1F620B0B3B9DF20BAB8BEC8B0A1C0CCB5E5C3D6C1BE28C0FAC0DBB1C7BBE8C1A6292E687770>

Semantic Search and Data Interoperability for GeoWeb

PowerPoint 프레젠테이션

슬라이드 1

빅데이터분산컴퓨팅-5-수정

슬라이드 1

160322_ADOP 상품 소개서_1.0

2 PX-8000과 RM-8000/LM-8000등의 관련 제품은 시스템의 간편한 설치와 쉬운 운영에 대한 고급 기술을 제공합니다. 또한 뛰어난 확장성으로 사용자가 요구하는 시스템을 손쉽게 구현할 수 있습니다. 메인컨트롤러인 PX-8000의 BGM입력소스를 8개의 로컬지

정도전 출생의 진실과 허구.hwp

레드햇과 오픈스택 Feb, 2014 Kim Yong Ki Solution Architect Red Hat Korea RED HAT ENTERPRISE LINUX OPENSTACK PLATFORM 2014

IT.,...,, IoT( ),,.,. 99%,,, IoT 90%. 95%..., (PIPA). 디지털트랜스포메이션은데이터보안에대한새로운접근방식필요 멀티클라우드사용으로인해추가적인리스크발생 높은수준의도입률로복잡성가중 95% 는민감데이터에디지털트랜스포메이션기술을사용하고있음

Ç¥Áö

ZConverter Standard Proposal

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

슬라이드 1

2

항목

Slide 1

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

졸업작품중간보고서 - 구글 MapReduce 를이용한클라우드컴퓨팅 조중연 서종덕 지도교수님진현욱교수님 ( 인 )

1701_ADOP-소개서_3.3.key

PowerPoint 프레젠테이션

Intro to AWS Cloud-중앙대

Module 1 Windows Server 2012 배포와관리

Master presentation template three line maximum — First Lastname Job Title

Microsoft Word - IT기획시리즈.doc

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

비디오 / 그래픽 아답터 네트워크 만약에 ArcGolbe를 사용하는 경우, 추가적인 디스크 공간 필요. ArcGlobe는 캐시파일을 생성하여 사용 24 비트 그래픽 가속기 Oepn GL 2.0 이상을 지원하는 비디오카드 최소 64 MB 이고 256 MB 이상을 메모리

Azure Stack – What’s Next in Microsoft Cloud

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

PowerPoint 프레젠테이션

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

Index

PowerPoint 프레젠테이션

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

VMware vsphere

1 전통 소프트웨어 가. 국내 데이터베이스 서비스 시장, 매출 규모에 따른 양극화 현상 심화 국내 데이터베이스 시장은 지속적으로 성장세를 보이고 있으나 비중이 가장 높은 데이터베이스 서 비스 시장에서 매출 규모에 따른 빈익빈 부익부 현상이 심화되는 추세 - 국내 DB사

리눅스설치가이드 3. 3Rabbitz Book 을리눅스에서설치하기위한절차는다음과같습니다. 설치에대한예시는우분투서버 기준으로진행됩니다. 1. Java Development Kit (JDK) 또는 Java Runtime Environment (JRE) 를설치합니다. 2.

solution map_....

Transcription:

Daum 내부 빅데이터기술활용사례 윤석찬 다음커뮤니케이션 channy@daumcorp.com

빅데이터란? @mdennis, datastax

데이터분석산업의변화

빅데이터열풍 (2012) web2.0 (2006) Cloud(2009) 웹서비스비교빅데이터 1990년대 시기 2010년대 X86급 서버장비 중형급 상용유닉스 잠식시장 DW Redhat 대표회사 Cloudera 리눅스토발즈대표영웅더그커팅 Linux 소프트웨어 Hadoop 인터넷포털웹스타트업 혁신주체 소셜네트워크모바일 저렴한웹서버구축변화요인저렴한데이터분석 빅데이터와웹서비스비교도 Channy s Blog

Bigdata Stack?

Hadoop Kernel

Cloudera: Next Redhat?

Cloudera: Next Redhat?

Pattern Repeated:

Pattern Repeated: Over 20,000 servers running Hadoop (2010) Largest Hadoop cluster is 4000 servers, 16PB raw storage

Pattern Repeated: 2000 servers, 24 PB raw storage, 100TB raw log/day (2010)

Pattern Repeated:

도대체국내에빅데이터가 있기나한가요? 우리는도대체왜해야하나요?

빅데이터는상대적이다! @mdennis, datastax

Daum 의 Hadoop 이용사례 로그분석사례 전사로그를통한통계분석 광고및클릭로그분석을통한타켓팅 카페로그분석을통한사용자카페추천 검색품질랭킹분석및개선 게임서버로그분석등 데이터분석사례 다음 Top 토픽분석및추천서비스 UCC 문서의스팸유저필터링 사물검색이미지역색인 자연어처리텍스트분석 모바일광고데이터별매체분석등 클라우드기반 Hadoop 테스트베드구축사례 여기서다루지않는것 : NoSQL 이용사례 연구개발사례 VisualRank: 이미지유사성매칭분석 SemSearch: 대용량시맨틱웹검색엔진개발

로그분석사례

Daum s Number 월검색쿼리수 1,017,410,000 월검색 UV 19,473,803 월 Top 페이지 PV 2,074,688,580 월 Top 페이지 UV 23,121,882 월 Daum.net PV 13,745,663,643 KoreanClick 통계 (2012.3) 실제내부통계는더크다!

(1) 전사로그분석 Legacy before 2008 access.log 전사서버로그수집 24 시간이후 분석결과제공

(1) 전사로그분석 before 2010 수집 분석 서비스

(1) 전사로그분석 After Hadoop 수집 분석 서비스

(1) 전사로그분석 Tiara 시스템 일로그사이즈 70TB 전처리및압축 Daum 서비스내발생하는모든트래픽을수집하여분석및리포팅 주요분석데이터 : Pageview, Clickstream, User Analysis 데이터처리스택 Hadoop: 데이터전처리 Hive (UDF, M/R): SQL 기반데이터분석 Pentaho Kettle (ETL): 데이터저장 Greenplum: 병렬데이터베이스 기존방식에비해데이터처리속도향상및데이터적재기간증가

(1) 전사로그분석 적용결과 더빠른분석 (10 분단위실시간로그확인가능 ) Hadoop 도입전 Hadoop 도입후 고객분석 더쉬운분석 (Hive) 일로그분석 selelct serviceid, count(distinct uuid) from web_log where dt='20120101' group by serviceid

더안정된시스템 분산처리로인한 작업안정성증가 고려사항 추가증설시 Hadoop 세팅및애플리케이션배포이슈 CPU/Memory intensive job을해결하기위한클러스터구성및관리 네트웍부하로인한 10g 구성비용증가 스케줄링에따른 Job tracker를통한작업분산의어려움 Hadoop 기반클라우드컴퓨팅스택의확산필요

(2) 광고로그분석시스템 광고로그및통계처리, 매체토픽분류및과거로그데이터를기반으로광고집행타켓팅분석 광고데이터분석용 Hadoop 클러스터구성 2.40GHz( 듀얼 4 코어 )/ 메모리 24GB: 서버 50 여대클러스터구성 input: 과거집행 ( 노출, 클릭 ) 로그데이터 ( 필요에따라일, 주, 월단위로그사용 ) output 광고에대한사용자별노출내역통계처리 10 분에서, 시간당, 일단위로다양한데이터산출

데이터분석사례

(1) 다음 Top 토픽분석 Top 화면에제공할주요콘텐츠의토픽분석 Hadoop 기반의머신러닝도구인 mahout 이용

(2) UCC 문서스팸필터링 문서내부단어및사용자프로필을기반한스팸필터링 Document Set Document Feature Extraction Map (User ID, Doc Features) Reduce (User ID, Doc Features List) Filtering with User Profile Map (User ID, User Profiles) Reduce (User ID, User Profiles) + + Spam Users Spam User DB Job Tracker + 2 nd Name Node Data Node Data Node Document DB Name Node Data Node Data Node 처리성능 : 일평균 600만개문서 최소 10~5000여개의문서를스팸등록한 50만개아이디찾음

(3) 사물검색데이터색인 대용량의이미지데이터를최소한의시간으로분석하여역색인과검색에필요한데이터를추출 사물검색대상이미지의특징을분석할수있는시스템구축 책 / 음악앨범 / 영화포스터등약 150 만개 각이미지에서특징점추출 (260GB) 빠르고안정적인데이터분석, 역색인데이터생성 기존방식보다 1/10 정도시간단축

연구개발사례

(1) 이미지검색매칭분석 이미지특징의매칭을독립적인 Map/Reduce job 로병렬화하여이미지추출 작업방식 유사도그래프를구성 모든이미지에대해특징매칭을통한유사도기반 hyperlink graph를구함 Visual hyperlink graph에대해 Map/Reduce 병렬처리를통한분석으로이미지랭킹부여 메타데이터가아닌이미지자체의특징에따라검색결과개선가능

(2) 대용량시맨틱웹검색엔진 클라우드기반 Hadoop 기반데이터처리플랫폼연구과제활용 구분 2009 2010 2011 문서수집 RDF Crawler 프로토타입구현 - 고성능 RDF Crawler 구현 대상문서 KBS 음악 DB+MusicBrainz ( 내부텍스트 DB+LinkedData) Daum 영화 / 음악 / 인물 DB ( 내부 RDB) 의학 LinkedData (PubMed 등 28 개레포지터리 ) 처리수량 (RDF Triples) 1 억건 5 억건 96 억건 전처리방법 Map/Reduce (Triples 변환 ) Map/Reduce (Triples 변환, SPARQL AnswerSet) Map/Reduce (Triples 변환, 자동링크생성, Solr Index 생성 ) 검색인덱스 RDF Repository (Jena) 유사 RDF Repo. (SPARQL SubQuery 전처리 ) Solr RDF Index 서비스 음악 RDF 서비스데모 Daum 의미검색 http://labs.daum.net/semantic Daum 의학전문검색 http://labs.daum.net/medical

관계질의기반검색 UI 개발 - 특정분야별추천키워드제공 - 문서저장소에서 RDF 뷰어제공 - 건강 DB와연계 대용량 RDF 생성 - 고성능 RDF 크롤러구현 - Hadoop Map/Reduce 기반데이터전처리 - 96억트리플기반검색인덱스 건강 DB Document Repository N3 Repository Se3 Keywords Se3 Indexer Map/Reduce Se3 Statistics Map/Reduce Internet Se3 Search Index CrawlDB Search Service Shard Master Shard Slave Daum Cloud icube

p.s. 분산파일시스템 : Tenth Tenth 는한메일, 카페첨부파일등대용량파일을저렴하게저장하기위한분산파일시스템으로 2004 년부터개발 저장파일개수 500 억개, 5 페타바이트 (2010) 2006 년라이코스메일, 카페도입 2007 년한메일기가용량도입 2009 년동영상업로드팜도입 2010 년다음클라우드도입 Tenth 비교 HDFS 2004 개발시작 2006 C++ 구현언어 Java 첨부파일을저장하기위해하나의스토리지처럼이용가능 이용목적 분산시스템에서파일저장용도로활용 다중 (MySQL 이용 ) 네임노드싱글 1~4MB (fixed chunks) 파일형태 64MB (fixed blocks) 미지원디렉토리구조지원함

사내클라우드플랫폼 : 개발자에게서버한대씩! icube Internet 실서비스구축테스트 의학검색베타서비스구축 윈도우메신저서버 종료예정서비스 사내프라이빗클라우드구축 테스트및실서비스구축테스트용도 CloudStack 커스트마이징 CloudStack Manager Storage Server DB Server Daum LDAP 사내테스트베드 개발자용랩 사내 Hadoop Sandbox Instance Nodes Server Sandbox 플랫폼으로활용 사내 IaaS 테스트베드 사내 PaaS 테스트베드 (CF) 사내 Hadoop 테스트베드 외부 OSS 커뮤니티지원 테스트베드자원활용 총 500 여개의가상머신할당가능 총 200 여개이용중 (CPU 및메모리할당율각각 52% 및 76% 지원 ) 사내프라이빗클라우드테스트베드구축 - 테스트서버 4 대 - 마스터 2 대 / 노드 7 대 / 스토리지 2 대

< Daum 사내클라우드테스트베드자원 > < Daum 사내클라우드모니터링시스템 >

Lessons for Big Data 기술내재화가중요 (No Vendors!) 개발자들이직접 Hadoop 을활용할수있는환경필요 오픈소스의적극활용및개발잉여력제공 데이터분석및처리의역할파괴 (No Data Scientist!) 개발자들이직접실시간분석을위한 Hive 활용 문서, 이미지등다양한형태의데이터처리를위한토대마련 Small Data 를활용강화 (No Big Mistakes!) Small Data라도실시간으로저렴하게데이터를처리하고, 처리된데이터를더빠르고쉽게분석하도록하여, 이를비즈니스의사결정에바로이용하는것 이것이바로 BigData 기술을바른활용임!

Daum 의빅데이터기술전략 사내기술코디네이션 각개발자가 Hadoop을다양하게활용할아이디어개발및실험실행 Hadoop을테스트해볼수있는클라우드플랫폼제공 실서비스투입시기존운영팀으로부터노하우전수 사내세미나및교육프로그램운영 Hadoop Expert를중심으로필요시노하우제공 개발자데이터접근성향상 데이터분석가가아닌개발자가직접데이터에접근 데이터가있는곳에서바로분석 기획자와비즈니스에서바로의사결정가능 때로콘트롤타워가진입장벽과아이디어고갈을가져온다! 기술에따라어떤접근을할지선택이중요

경청해주셔서 감사합니다! Q&A @channyun