사내 개발 프로세스 개선(안)

Similar documents
슬라이드 1

NoSQL

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

Cloud Friendly System Architecture

빅데이터_DAY key

Ubiqutious Pubilc Access Reference Model

슬라이드 1

RUCK2015_Gruter_public

[Brochure] KOR_TunA

2

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

DBMS & SQL Server Installation Database Laboratory

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

초보자를 위한 분산 캐시 활용 전략

PlatformDay2009-Hadoop_OSBI-YoungwooKim

Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항

Æí¶÷4-¼Ö·ç¼Çc03ÖÁ¾š

PowerPoint 프레젠테이션

슬라이드 1

비식별화 기술 활용 안내서-최종수정.indd

위세아이텍_iOLAP_

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

슬라이드 1

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

PowerPoint Presentation

REDIS 이해와 활용

PowerPoint 프레젠테이션

5 주차 -mongodb 설치잠깐! CAP 이론 NoSQL이나온이유와 MongoDB NoSQL의데이터저장구조에따른세가지분류 RDBMS와 NoSQL특성비교 RDBMS와 NoSQL의사용시기 MongoDB 소개및특징 MongoDB와 RDBMS와의공통 MongoDB CRUD

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

2017 1

RED HAT JBoss Data Grid (JDG)? KANGWUK HEO Middleware Solu6on Architect Service Team, Red Hat Korea 1

< FC8A8C6E4C0CCC1F620B0B3B9DF20BAB8BEC8B0A1C0CCB5E5C3D6C1BE28C0FAC0DBB1C7BBE8C1A6292E687770>

슬라이드 1

PowerPoint Presentation

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

<4D F736F F D20BBE7BABB202D20C3D6BDC54954B5BFC7E2>

리뉴얼 xtremI 최종 softcopy

gcp

MongoDB Trends and Introduction 우정웅연구원 Dec. 02, 2014

vm-웨어-01장

빅데이터분산컴퓨팅-5-수정

정도전 출생의 진실과 허구.hwp

PowerPoint 프레젠테이션

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

160322_ADOP 상품 소개서_1.0

Microsoft PowerPoint - 10Àå.ppt

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DC1A4BAB4B1C7>

항목

1701_ADOP-소개서_3.3.key

소프트웨어 정의 스토리지

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DC3D6B1D4C7E5>

공개 SW 기술지원센터

HANBIRO 기업을이롭게하는기술, 한비로

Agenda

Master presentation template three line maximum — First Lastname Job Title

PowerPoint Presentation

SAMSUNG SDS Cloud Database EPAS PostgreSQL Microsoft SQL Server MariaDB MySQL ScyllaDB MongoDB

PowerPoint 프레젠테이션

네이버블로그 :: 포스트내용 Print VMw are 에서 Linux 설치하기 (Centos 6.3, 리눅스 ) Linux 2013/02/23 22:52 /carrena/ VMware 에서 l

PowerPoint 프레젠테이션

歯MW-1000AP_Manual_Kor_HJS.PDF

IBMDW성공사례원고

PowerPoint 프레젠테이션

Virtualization Days 2013

aws

4임금연구겨울-지상토론

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Windows Storage Services Adoption And Futures

Basic Template

Microsoft PowerPoint - 4주차.pptx

슬라이드 1

비디오 / 그래픽 아답터 네트워크 만약에 ArcGolbe를 사용하는 경우, 추가적인 디스크 공간 필요. ArcGlobe는 캐시파일을 생성하여 사용 24 비트 그래픽 가속기 Oepn GL 2.0 이상을 지원하는 비디오카드 최소 64 MB 이고 256 MB 이상을 메모리

Semantic Search and Data Interoperability for GeoWeb

: Hadoop 출간 은 출판 분 2013 년 10 월 3 윤 퍼플 주 울 종 종 1 1번 윤 2013 본 전부 반 부를 재 권 동를 셔 면 OpenWithNet 총 상 술 워크 (2006 년) : Hadoop 세만 NoSQL 웹 분

문서의 제목 나눔고딕B, 54pt

고객 지향적인 IT 투자와 운영이 요구되는 시대! 2014년 현재 유통, 서비스 업계의 정보화 화두는 BYOD 수용과 고객의 마음을 읽는 분석 입니다. Market Overview _ Cross Industry 의 정보화 동향 유통과 서비스 업계의 IT 환경은 발 빠르

歯sql_tuning2

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

PowerPoint 프레젠테이션

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

Bind Peeking 한계에따른 Adaptive Cursor Sharing 등장 엑셈컨설팅본부 /DB 컨설팅팀김철환 Bind Peeking 의한계 SQL 이최초실행되면 3 단계의과정을거치게되는데 Parsing 단계를거쳐 Execute 하고 Fetch 의과정을통해데이터

슬라이드 1

PowerPoint Template

1 전통 소프트웨어 가. ERP 시장 ERP 업계, 클라우드 기반 서비스로 새로운 활력 모색 - SAP-LGCNS : SAP HANA 클라우드(SAP HEC)를 통해 국내 사례 확보 및 아태 지역 진 출 추진 - 영림원 : 아시아 클라우드 ERP 시장 공략 추진 - 더

PowerPoint Template

7월16일자.hwp

빅데이터시대 Self-BI 전략 이혁재이사 비아이씨엔에스

Microsoft PowerPoint - R-R1-유충현_ ppt [호환 모드]

디지털데일리_스페셜리포트 1부.indd

자동화된 소프트웨어 정의 데이터센터

Microsoft Word - ijungbo1_13_02

Print

Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud

슬라이드 1

WhaTap Labs Templete

Transcription:

Daum 빅데이터기술활용사례 Channy Yun Daum Communications Corp. channy@daumcorp.com

per User 2004 2006 2012

250,000 200,000 150,000 100,000 50,000 0 0 3 6 9 12 15 18 21 24

x2 Dual Backup Zipped

Search Query 1,017,410,000 Unique Visitor(UV) 19,473,803 Top Page View(PV) 2,074,688,580 Top Page UV 23,121,882 Daum.net PV 13,745,663,643 Per Month. KoreanClick (2012.3)

What s Big data? @mdennis, datastax

NoSQL - Realtime

New Buzz 웹 2.0 비교빅데이터 1990년대 시기 2010년대 X86급 서버장비 중형급 상용유닉스 잠식시장 DW Redhat 대표회사 Cloudera 리눅스토발즈대표영웅더그커팅 Linux 소프트웨어 Hadoop 인터넷포털웹스타트업 혁신주체 소셜네트워크모바일 저렴한웹서버구축변화요인저렴한데이터분석 http://channy.creation.net/blog/882 Channy s Blog

데이터분석산업의변화

Bigdata Stack?

Hadoop Kernel

Hadoop Platform : Today

Pattern Repeated:

BigData Stack 비관계형 (Non-releational) 관계형 (Relational) 실시간 Storm Dremel 분석도구 Hadoop Horton Cloudera MapR BiqQuery 시각화 D3 Pentaho Teradata IBM InfoSphere Aster HP Vertica EMC SAP Hana Oracle Greenplum SAP Oracle IBMDB2 SQLServer 운영도구 NoSQL NewSQL 키 / 값 Redis Membrain BerkeleyDB 문서기반 CouchDB MongoDB Data as a Service AppEngine Amazon RDS SimpleDB SQL Azure Drizzle MySQL Cluster NimbusDB CouchBase Cassandra 빅테이블 HyperTable Hbase 그래프 FlockDB Neo4j ScaleBase VoltDB Inforchimps. 2012

도대체국내에빅데이터가 있기나한가요? 우리는도대체왜해야하나요?

빅데이터는상대적이다!

@mdennis, datastax

Daum 의빅데이터이용사례 로그분석사례 전사로그를통한통계분석 검색품질랭킹분석및개선 광고및클릭로그분석을통한타켓팅 카페로그분석을통한사용자카페추천 게임서버로그분석등 데이터분석사례 다음 Top 토픽분석및추천서비스 UCC 문서의스팸유저필터링 사물검색이미지역색인 자연어처리텍스트분석 모바일광고데이터별매체분석등 서비스적용 (MongoDB/ 카산드라 ) My 아고라 검색광고노출시스템 최근방문카페저장 사내캐시서버 (Redis) 사내 Git 저장소 (Redis) 데이터처리 (Hbase) 검색엔진색인문서저장 서버모니터링데이터저장 로그인로그저장 카페방문로그저장 연구개발사례 VisualRank: 이미지유사성매칭분석 SemSearch: 대용량시맨틱웹검색엔진개발

활용사례

(1) 전사로그분석 access.log 전사서버로그수집 24 시간이후분석결과제공

before 2009 수집 분석 서비스

After Hadoop 수집 분석 서비스

Tiara 시스템 Daum 서비스내발생하는모든트래픽을수집하여분석및리포팅 주요분석데이터 : Pageview, Clickstream, User Analysis 데이터처리스택 Hadoop: 데이터전처리 Hive: SQL 기반데이터분석 Pentaho Kettle (ETL): 데이터저장 Greenplum: 병렬데이터베이스 기존방식에비해데이터처리속도향상및데이터적재기간증가

UnZipped Total Logsize

Hadoop 도입전 Hadoop 도입후 고객분석 일로그분석 10 분단위분석가능작년 6 월 1 일부터로그적재중주분석은 10 분, 월분석은 20 분내외소요

selelct serviceid, count(distinct uuid) from web_log where dt='20120101' and hr='10' and mi= 10' group by serviceid, mi

(2) 검색품질및랭킹개선 분석용 Hadoop 클러스터구성 2.40GHz( 듀얼 4 코어 )/ 메모리 16GB: 서버 100 여대클러스터구성 키워드 - 섹션, 키워드 - 문서 - 세션, 세션 - 키워드, 세션 - 문서등의데이터수집을통해랭킹반영 ( 반기크기 -40TB) 주요분석작업 만족스러운검색경험을랭킹에반영함 검색스팸인덱스 : 검색에서사용자가스팸에대한클릭율분석 나쁜블로거필터링 : Kohonen s SOM 으로분석 (R 이용 ) 많이본글분석 Hadoop 에서분석엔진까지 2 시간이내

(3) 다음 Top 토픽분석 Top 화면에제공할콘텐츠의토픽분석 Hadoop 기반의머신러닝도구인 mahout 이용

Hadoop 의장단점 장점 : 빠르고저렴하게데이터분석가능 데이터를바라보는관점의차이 ( 저렴한처리비용 ) 샘플링이필요없음 ( 대용량처리가능 ) 운영비용이적음 ( 인프라운영이관리가능 ) 분석도구나프로그래밍언어에독립적임 다양한지원도구 ( 오픈소스지원 ) 단점 : 프로그래밍방식의변화및내재화비용 설정및운영상의내재화작업이필요 개념의변화가필요 (Map/Reduce 방식으로사고전환 ) Hadoop 은계속개선중인프로젝트임 ( 벤더배포판사용필요 ) 아직구현되지않은부분이많음 ( 과거버전에대한호환성이낮은편 ) 장애에대한대비필요 ( 메모리및네트웍관련 )

활용사례

(1) 마이아고라 마이아고라는? 토론, 청원, 즐보드등아고라의모든글을모아서제공 총데이터 6 천만건 (2012.1) 문제점 짧은시간에너무많은데이터가추가되고있음 해결방법 데이터입력시간이훨씬짧은 NoSQL 솔루션도입 Select Insert Update Delete MySQL 355sec 250sec 317sec 310sec MongoDB 294sec 60sec 153sec 123sec <1 백만건 MySQL 과 MongoDB 데이터처리실험결과 >

MongoDB 의장점 문서기반의콘텐츠데이터저장에유리 개발자친화적인 (RDB) 기반 SQL을그대로사용할수있음 MySQL과비슷한데이터백업및복구구조 Replication: 안전성과높은가용성 Auto-sharding : 분산확장 (scale-out) 기능 주요튜닝사항 장애시쉽지않은데이터복구 데이터가없어지더라도크게상관 (?) 없는데이터에활용 활용함수에따라성능에차이가날수있음 count() vs. cursor.size() update() vs. update($set)

(2) 검색광고최적화 다음통합검색쿼리 : 6 천만 / 일 외부매체포함유입쿼리 1.4억 광고용 Read Query: 20억 / 일 광고용 Total Query: 25억 / 일 Ad@m 등계속쿼리가증가 데이터증가에따른한계점 Oracle 에서불가능하다! MySQL 에서메모리엔진기반으로운영 검색어 - 광고목록 은단순한시스템 카산드라선정이유 검색엔진의데이터구조와유사 기타 NoSQL 의일반적장점을그대로채용가능

카산드라의장점 메모리가우선이며 Read/Write 뿐 ( 업데이트가없음 ) 단순한 Read Query에대해빠르게응답가능 주요튜닝지점 단순한구조로스키마설계를잘해야함 빠른 I/O 성능을갖는디스크변경및 RAID 설정변경 TCP 네트워크조절필요 JVM 설정튜닝도필요 Hbase 의사용현황 Hadoop 을사용하는경우, 대부분로그저장소로사용중 2012 년상반기부터는안정성이강화되고있음

NoSQL 판단가이드 C(Consistency) : 모든노드가같은시간에같은데이터를보여줘야한다. A(Availability) : 몇몇노드다운이다른정상노드들이작동하는데악영향을끼치지말아야한다. P(Partition Tolerance) : 몇몇메시지손실에도시스템은정상동작을해야한다. http://blog.nahurst.com/visual-guide-to-nosql-systems, 2010

Daum 의빅데이터기술전략 사내기술코디네이션 각개발자가 Hadoop을다양하게활용할아이디어개발및실험실행 Hadoop을테스트해볼수있는클라우드플랫폼제공 실서비스투입시기존운영팀으로부터노하우전수 사내세미나및교육프로그램운영 Hadoop Expert를중심으로필요시노하우제공 개발자데이터접근성향상 데이터분석가가아닌개발자가직접데이터에접근 데이터가있는곳에서바로분석 기획자와비즈니스에서바로의사결정가능 때로콘트롤타워가진입장벽과아이디어고갈을가져온다! 기술에따라어떤접근을할지선택이중요

개발자에게서버한대씩!

Lessons for Big Data 기술내재화가중요 (No Vendors!) 개발자들이직접 Hadoop을활용할수있는환경필요 오픈소스의적극활용및개발잉여력제공 데이터분석및처리의역할파괴 (No Data Scientist!) 개발자들이직접실시간분석을위한 Hive 활용 문서, 이미지등다양한형태의데이터처리를위한토대마련 Small Data 를활용강화 (No Big Mistakes!) Small Data라도실시간으로저렴하게데이터를처리하고, 처리된데이터를더빠르고쉽게분석하도록하여, 이를비즈니스의사결정에바로이용하는것 이것이바로 BigData 기술을바른활용임!

경청해주셔서 감사합니다! Q&A @channyun