워밍업 누구를 위한 책인가 방대한 빅데이터 관련 업무에 필요한 역량을 갖추고자 하나 어떤 기술이 있고 이 중 어떤 것을 익 혀야 할지 갈피를 잡지 못하는 학생들과, 그들을 지도하는 교육 종사자를 위한 책이다. 새로 등장 하는 수많은 빅데이터 기술에 대한 탐색과 이해의
|
|
- 애경 빈
- 8 years ago
- Views:
Transcription
1
2 워밍업 누구를 위한 책인가 방대한 빅데이터 관련 업무에 필요한 역량을 갖추고자 하나 어떤 기술이 있고 이 중 어떤 것을 익 혀야 할지 갈피를 잡지 못하는 학생들과, 그들을 지도하는 교육 종사자를 위한 책이다. 새로 등장 하는 수많은 빅데이터 기술에 대한 탐색과 이해의 기회를 제공해 줄 것이다. 또한 현직에 종사하 는 실무자가 새로운 기술에 휩쓸리지 않고 적절한 기술을 취사선택하거나, 기업의 의사결정권자 가 빅데이터 기술을 도입하기 위해 기술 전반에 대한 그림을 그리는 데도 도움이 될 것이다. 이 책의 뼈대만 빨리 보기 1 빅데이터 개요 (1장) 빅데이터의 개념을 명확히 정리한 후 빅데이터를 처리하는 과정에 대한 전체 그림을 그려준다. 2 빅데이터 컴퓨팅 기술 (2~7장) 빅데이터 컴퓨팅 기술을 빅데이터를 처리하는 과정에 따라 수집 및 통합 기술 저장 및 관리 기술 처리 기술 분석 기술 표현 기술 의 순으로 단계적으로 소개한다. 구체적인 예를 언급할 때는 가장 많이 사용되는 하둡을 기반으로 설명하고, 이 과정별 기술을 통합적으로 지원하는 기술인 빅데이터 플랫폼 기술도 소개한다. 3 빅데이터 기술 개발 현황과 실제 구현 예 (8~9장) 빅데이터 기술 개발의 현황과 활용 예를 소개한다. 그리고 이런 예가 뜬구름 잡기가 되지 않도록 하기 위해 하둡을 이용하여 간단 한 추천 시스템을 직접 구현하는 과정을 단계별로 차근차근 설명한다. 강의 보조 자료와 예제 소스 한빛 홈페이지( 교수회원 으로 가입하신 분은 인증 후 교수용 강의 보조 자료를 제공받으실 수 있습니다. 한빛 홈페이지 우측 상단의 <교수회원전용> 아이콘을 클릭해 주세요. 일반회원은 아래 주소에서 이 책의 실습에 필요한 예제 소스와 기타 관련 자료들 을 내려받을 수 있습니다. 9장 실습 참고 사이트 리눅스, 아파치 웹 서버, PHP, MySQL 설치 매뉴얼 예제 소스와 데이터 목록 및 설명 버추얼박스 가상 머신 디스크 이미지 4
3 1부 빅데이터 개요 1장 빅데이터 개념과 처리 과정
4 1 장 빅데이터 개념과 처리 과정 1 빅데이터 등장 배경 2 빅데이터 개념과 속성 3 빅데이터 처리 과정과 기술 4 빅데이터 활용 분야와 기대 효과 5 빅데이터 시대 준비 6 연습문제 7 참고문헌
5 1 빅데이터 등장 배경 최근 빅데이터 Big Data 라는 용어가 자주 언급된다. 하지만 막상 빅데이터가 무엇인지 물으면 선뜻 대답하지 못하거나 언론에서 소셜 미디어를 집중적으로 보도하고 있어서인지 빅데이터를 소셜 미디어 데이터로 오인하기도 한다. 이는 빅데이터 개념 정리가 명확하지 않아 발생한 현상이다. 빅데이터는 새로운 개념이 아니다. 1990년 이후 인터넷이 확산되면서 정형화된 형태의 데이터와 비정형화된 형태의 데이터가 무수히 발생하면서 정보 홍수 Information Overload 개념이 등장했고, 이것 이 오늘날 빅데이터 개념으로 이어진 것이다. 빅데이터의 개념을 좀 더 명확히 이해하려면 그 출 현 배경부터 하나씩 살펴봐야 한다. 개인화 서비스와 SNS Social Network Services; 소셜 네트워크 서비스 의 확산으로 기본 인터넷 서비스 환경이 재구 성되었다. 검색과 포털 위주였던 인터넷 서비스가 통신, 게임, 음악, 검색, 쇼핑 등의 영역에서 개 인화 서비스와 소셜 네트워크 서비스를 제공하는 환경으로 바뀌었다. 정보 통신 기술 Information & Communication Technology; ICT 시장조사 기관인 IDC International Data Corporation 디지털 유니버스 Digital Universe 가 조사한 보고서에 따르면 전 세계 디지털 데이터양이 제타바이트(약 1조 기가바이트) 단위로 2년 마다 2배씩 증가해서 2020년에는 약 40제타바이트가 될 것이라고 한다. 40제타바이트는 전 세 계 해변에 있는 모래알의 양인 7억 50만 조의 57배에 해당하는 숫자이다. 특히 스마트폰의 보급 으로 데이터가 매우 빠르게 축적되어 제타바이트 시대를 스마트 시대라고도 한다. 디지털 데이터 단위 1테라바이트(TeraByte; TB)=1024GB 1엑사바이트(ExaByte; EB)=1024PB 1요타바이트(YottaByte; YB)=1024ZB 1페타바이트(PetaByte; PB)=1024TB 1제타바이트(ZetaByte; ZB)=1024EB 14 1부_ 빅데이터 개요
6 데이터양이 엄청나게 증가하여 기존의 데이터 저장 관리 분석 기법으로는 데이터를 처리하는 데 한계가 있어 정보 기술의 패러다임도 [표 1-1]과 같이 바뀌었다. 그리고 이는 빅데이터 용어 를 등장시켰는데, 패러다임이 지능화와 개인화된 시대를 빅데이터 시대라고 한다. 표 1-1 정보 기술의 패러다임 변화 [01] PC 시대 인터넷 시대 모바일 시대 스마트 시대 패러다임 변화 디지털화, 전산화 온라인화, 정보화 소셜화, 모바일화 지능화, 개인화, 사물 정보화 정보 기술 이슈 PC, PC통신, 초고속 인터넷, 모바일 인터넷, 빅데이터, 차세대 PC, 데이터베이스 www, 웹 서버 스마트폰 사물 네트워크Machine to Machine;M2M 핵심 분야(서비스) PC, OS 포털, 검색 엔진, Web 2.0 대표 기업 MS, IBM 구글, 네이버, 유튜브 스마트폰, 웹 서비스, SNS 애플, 페이스북, 트위터 미래 전망, 상황 인식, 개인화 서비스 구글, 삼성, 애플, 페이스북, 트위터 정보 기술 비전 1인 1PC 클릭 e-korea 손 안의 PC, 소통 IT everywhere, 신가치창출 빅데이터 개념이 등장하면서 데이터에 관심이 높아졌다. 그리고 정보 통신 기술이 발전하면서 데 이터도 규모, 유형, 특성에 따라 변화하고 있는데, [그림 1-1]은 이런 데이터의 변화 방향을 나타 낸 것이다. 특히 시스코 Cisco 는 2012년 글로벌 모바일 데이터 트래픽 전망 업데이트Global Mobile Data Traffic Forecast Update 에서 2016년에는 세계 모바일 데이터 트래픽이 2011년 대비 18배 증가하여 10 엑사바이트를 초과할 것이라고 전망했다. 1장_ 빅데이터 개념과 처리 과정 15
7 PC www 1 1PC 2.0 SNS EB EB ZB ZB ZB RFID 그림 1-1 정보 통신 기술 발전에 따른 데이터의 변화 방향 [01] 이제 빅데이터를 개인화 서비스 측면에서 생각해 보자. 고객의 성향이나 수입 규모, 소비 형태 등 을 바탕으로 하는 개인화 서비스는 과거에도 있었다. 신상품이 들어오면 고객의 취향에 맞춰 해 당 상품 정보를 팸플릿 Pamphlet; 소책자 이나 휴대폰 문자 메시지로 고객에게 제공하는 것이 초기 형태 의 빅데이터 서비스이다. 이후 빅데이터로 스마트 기기 사용자가 본 영화, 들은 음악, 찍은 사진, 촬영한 동영상, 쇼핑한 물건, 저녁을 먹은 레스토랑 등 모든 활동이 노출되었다. 이런 수많은 비 정형 데이터를 분석하여 개개인의 생각과 행동을 분석하고, 경향과 패턴을 파악할 수 있게 되었 으며, 패턴 분석으로 대중의 변화를 예측하고 개인에게 최적화된 맞춤형 서비스까지 가능해졌다. 16 1부_ 빅데이터 개요
8 빅데이터는 계속해서 차세대 이슈로 떠오르고 있는데, 그 이유는 다음 세 가지로 요약할 수 있다. ➊ 정보 통신 기술의 주도권이 데이터로 이동 모바일, 클라우드, 소셜 네트워크 서비스 등의 등장으로 정보 통신 기술의 주도권이 인프라와 기술 등에서 데이터로 이전되고 있다. 이에 데이터의 폭발적인 증가에 대응하고 데이터를 분 석하는 방법이 정보 통신 기술의 가장 중요한 이슈로 부각되어 빅데이터를 정보 통신 기술 시 장과 기술 발전의 핵심 주제로 인식한다. 데이터의 저장 관리 분석의 전체 과정을 빅데이터에 적용하려면 정보화 시대와 비교해 스 마트 시대에는 [표 1-2]와 같이 달라져야 한다. 표 1-2 정보화 시대와 스마트 시대의 데이터 처리 변화 [01] 구분 정보화 시대(1세대) 스마트 시대(2세대) 저장 관계형(정형) 데이터베이스, 데이터웨어하우스 비관계형(비정형) 데이터베이스, 가상화, 클라우드 서비스 관리 지식 관리 시스템 Knowledge Management System; KMS, 플랫폼, 웹 2.0 Web 2.0 소셜 네트워크, 집단지성 분석 경영 정보, 고객 정보, 자산 정보 분석(ERP, CRM, 데이터 마이닝 등) 빅데이터 분석 (소셜 분석, 고급 분석, 시각화) ➋ 공간, 시간, 관계, 세상 등을 담은 빅데이터 스마트 기기의 확산으로 사용자가 자발적으로 참여하고 정보를 생성하는 소셜 데이터 혁명이 발생했다. 소셜 데이터 혁명은 정보의 생성자, 규모, 파급 효과 등에서 1990년대 기업이 고객 의 정보를 축적했던 정보 혁명과는 구분한다. 페이스북, 트위터 등 소셜 네트워크 서비스 이 용 확산과 소통 방식의 변화는 데이터 변혁을 가져오는 가장 중요한 요인이 되었다. 소셜 네 트워크 서비스로 제공되는 정보는 지식 정보와 함께 정서적인 공감에 바탕을 둔 감성적 정보 가 큰 비중을 차지하고, 소셜 네트워크 서비스에서는 개인의 취향이 더욱 직접적으로 반영되 며, 진실성과 진정성, 관련성이 증가되어 데이터로서 가치가 매우 높다. 1장_ 빅데이터 개념과 처리 과정 17
9 ➌ 빅데이터는 미래 경쟁력과 가치 창출의 원천이다 빅데이터에는 잠재적 가치와 위험이 공존하는데, 사회 경제적으로 성패를 좌우하는 핵심 원 천이 될 것으로 평가된다. 이에 세계 각국의 정부와 기업은 빅데이터가 향후 기업의 성패를 가늠할 새로운 경제적 가치의 원천이 될 것이라 기대한다. 빅데이터에서 유용한 정보를 찾 고 잠재된 정보를 활용할 수 있는 기업이 경쟁에서 시장을 선도할 것으로 예상되어 맥킨지 Mckinsey, 이코노미스트 Economist, 가트너 Gartner 등은 빅데이터를 활용한 시장 변동 예측, 신산업 발굴 등 경제적 가치창출 사례 및 효과를 제시한다. 이와 같이 데이터가 폭발적으로 증가하면서 빅데이터가 등장했지만, 방대한 양의 데이터 중에서 의미 있는 데이터는 소수에 불과하다. 따라서 의미 있는 데이터를 찾아내려면 빅데이터를 효과적 으로 처리할 수 있는 기술이 필요한데, 이것이 책에서 다루는 주요 내용이다. 빅데이터를 효과적 으로 처리하려면 우선 빅데이터의 특징부터 알아야 한다. 먼저 이 장에서는 빅데이터의 특징을 알아본다. 이후 다음 장에서 빅데이터를 처리하는 기술, 빅 데이터와 더불어 시너지 효과를 낼 수 있는 관련 기술을 알아본다. 18 1부_ 빅데이터 개요
10 2 빅데이터 개념과 속성 아직 구체적이고 정확하게 빅데이터를 정의하지는 않았지만, 전통적 개념은 구글이나 마이크로 소프트 등 대기업이나 NASA의 연구 프로젝트에서 분석하는 방대한 양의 데이터를 말한다. 그래 서 빅데이터를 Very Large DB, Extremely Large DB, Extreme Data, Total Data 등 다양 한 용어로 부른다. 가트너의 애널리스트 더그 레이니 Doug Laney 는 연구 보고서에서 현재 가장 널리 사용하는 빅데이터 의 속성을 3V, 즉 규모 Volume, 다양성 Variety, 속도 Velocity 등 세 가지로 정의했다. 2012년 가트너는 기존 정의를 다음과 같이 개정했다. 빅데이터는 큰 용량, 빠른 속도, 다양성이 높은 정보 자산이 다. 이것으로 의사 결정 및 통찰 발견, 프로세스 최적화를 향상시키려면 새로운 형태의 처리 방식 이 필요하다. IBM은 여기에 정확성 Veracity 요소를 더해 4V로 정의했고, 최근에는 가치 Value 를 포 함하여 5V로 정의하기도 한다. 속도 3V 4V 5V 규모 빅데이터의 3V 다양성 정확성 가치 그림 1-2 빅데이터의 속성 [02] 1장_ 빅데이터 개념과 처리 과정 19
11 ➊ 규모 규모는 미디어나 위치 정보, 동영상 등과 같이 다루어야 할 데이터의 크기를 말하는 것이다. 물리적인 크기뿐만 아니라 현재의 기술로 처리 가능한 양인지, 불가능한 양인지에 따라 빅데 이터를 판단하며, 기술의 발달에 따라 킬로바이트, 메가바이트, 기가바이트, 최근에는 테라바 이트를 훌쩍 넘어 요타바이트까지를 빅데이터로 통칭한다. ➋ 다양성 다양성은 다양한 종류의 데이터를 수용하는 속성을 말한다. 빅데이터는 형식이 정해져 있는 정 형 데이터뿐만 아니라, 감시 카메라에서 생성되는 동영상, 개인이 디지털 카메라로 생성하여 웹 사이트에 올리는 사진, 소셜 네트워크 서비스로 전달되는 메시지, 물건에 부착되거나 주변 에 설치된 센서에서 발생하는 RFID 태그나 센서 값 등 다양한 비정형 데이터도 생성한다. ➌ 속 도 속도는 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성을 말한다. 데이터를 자동으 로 생성하는 센서, 스마트폰 등 데이터 생성 및 유통 채널의 다변화로 데이터 생성 속도가 빨 라진다. 이는 처리 속도의 가속화를 요구한다. ➍ 정확성 정확성은 데이터에 부여할 수 있는 신뢰 수준을 말한다. 높은 데이터 품질을 유지하는 것은 빅데이터의 중요한 요구 사항이자 어려운 과제이다. 하지만 최상의 데이터 정제 Data Cleansing 기 법을 사용해도 날씨나 경제, 고객의 미래 구매 결정 같은 일부 데이터의 본질적인 불확실성은 제거할 수 없다. 소셜 네트워크 같은 인간 환경에서 생산되는 데이터는 신뢰하기가 어렵고, 미래는 예측하기 어려우며, 사람과 자연, 보이지 않는 시장의 힘 등이 빅데이터의 다양한 불 확실성 형태로 나타난다. ➎ 가치 가치는 빅데이터를 저장하려고 IT 인프라 구조 시스템을 구현하는 비용을 말한다. 빅데이터 의 규모는 엄청나며 대부분은 비정형적인 텍스트와 이미지 등으로 구성되어 있다. 이 데이터 들은 시간이 지남에 따라 빠르게 전파하면서 변하므로 그 전체를 파악하고 일정한 패턴을 발 견하기가 쉽지 않아 가치의 중요성이 강조된다. 20 1부_ 빅데이터 개요
12 맥킨지 보고서에 따라 데이터베이스의 규모에 초점을 맞춘 정의는 다음과 같다. 일반적인 DBMS DataBase Management System 로 저장 관리 분석할 수 있는 범위를 초과하는 대규모 데이터이 다. 또한 노무라연구소는 가트너의 3V 특성을 협의의 빅데이터로 분류하고, [그림 1-3]과 같이 인재 조직, 데이터 처리 축적 분석 기술, 데이터(비정형 정형 데이터)까지 포함하는 광의 의 빅데이터 특성을 정의한다. 그림 1-3 광의의 빅데이터 정의 [03] 빅데이터의 속성에서도 살펴보았듯이 과거에는 형식이 정해져 있는 텍스트 위주의 데이터가 많 았던 반면, 이제는 그림, 동영상, 음성 위주의 비정형 데이터가 급속히 증가한다. 과거 빅데이터 는 천문 항공 우주 정보, 인간게놈 정보 등 특수 분야에 한정됐으나 정보 통신 기술의 발달로 전 분야로 확산되었다. [그림 1-4]는 빅데이터를 규모와 다양성 관점에서 기존 데이터와 비교해 서 분류한 것이다. 1장_ 빅데이터 개념과 처리 과정 21
13 BI Business Intelligence 그림 1-4 규모와 다양성에 따른 빅데이터의 위치 [04] 데이터를 정형화 정도에 따라 정형 Structured, 반정형 Semi-Structured, 비정형 Unstructured 으로 분류하면 [표 1-3]과 같다. 그리고 [그림 1-5]는 정형과 비정형 데이터 유형의 변화이다. 표 1-3 빅데이터 종류 [05] 종류 정형 반정형 비정형 설명 고정된 필드에 저장된 데이터 예 관계형 데이터베이스, 스프레드시트 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터 예 XML, HTML 텍스트 고정된 필드에 저장되어 있지 않은 데이터 예 텍스트 분석이 가능한 텍스트 문서, 이미지 동영상 음성 데이터 정형 데이터 정형 데이터는 일정한 규칙에 따라 체계적으로 정리한 데이터이다. 2012년 7월 통계청이 매 년 발표하는 공식적인 통계 데이터는 총 860종으로 지정 통계 93종, 일반 통계 767종이다. 이런 데이터는 정형화된 그 자체로도 의미 해석이 가능하며, 바로 활용이 가능한 데이터를 포 함한다. 22 1부_ 빅데이터 개요
14 반정형 데이터 반정형 데이터는 한글이나 MS 워드 등으로 작성한 데이터이다. 페이스북, 트위터, 카카오톡 등 소셜 네트워크 서비스 사용자가 생성하는 데이터들이 이에 해당한다. 비정형 데이터 비정형 데이터의 증가 속도는 누구도 예측할 수 없을 정도이다. 비교적 선형적으로 증가하던 정형 데이터조차 연간 40~60%에 이르는 증가세를 보이기 때문이다. 스마트 기기로 생성하 는 소셜 데이터 외에도 이메일, 동영상 등 비정형 데이터가 향후 10년 동안 생성하는 양은 전 체 데이터의 90%에 달할 것으로 전망된다. 페타바이트 350, , , , , ,000 50, ,430 16,737 25,127 39,237 59,600 92, , ,716 1,952 2,782 4,065 6,179 9,140 13,824 21,532 32,188 1,652 2,552 4,025 6,575 10,411 16,796 27,817 44,091 그림 1-5 정형과 비정형 데이터 유형의 변화 [06] 그러면 빅데이터는 처리 방식에서 전통적 데이터와 어떻게 다를까? 먼저 [표 1-4]에서 빅데이터 의 특징을 전통 데이터와 비교해서 살펴본 후 이에 따른 빅데이터 처리의 특징을 [표 1-5]에서 알아보자. 1장_ 빅데이터 개념과 처리 과정 23
15 표 1-4 전통적 데이터와 빅데이터의 특징 비교 [07] 구분 전통적 데이터 빅데이터 데이터 원천 전통적 정보 서비스 일상화된 정보 서비스 목적 업무와 효율성 사회적 소통, 자기표현, 사회 기반 서비스 생성 주체 정부 및 기업 등 조직 개인 및 시스템 데이터 유형 데이터 특징 정형 데이터 조직 내부 데이터(고객 정보, 거래 정보 등) 주로 비공개 데이터 데이터 증가량 관리 가능 신뢰성 높은 핵심 데이터 비정형 데이터(비디오 스트림, 이미지, 오디오, 소 셜 네트워크 등 사용자 데이터, 센서 데이터, 응 용 프로그램 데이터 등) 조직 외부 데이터 일부 공개 데이터 기하급수로 양적 증가 쓰레기 Garbage 데이터 비중 높음 문맥 정보 등 다양한 데이터 데이터 보유 정부, 기업 등 대부분 조직 인터넷 서비스 기업(구글, 아마존 등) 포털(네이버, 다음 등) 이동 통신 회사(SKT, KTF 등) 디바이스 생산 회사(애플, 삼성전자 등) 데이터 플랫폼 정형 데이터를 생산 저장 분석 처리할 수 있는 전통적 플랫폼 예 분산 DBMS, 다중처리기, 중앙 집중 처리 비정형 대량 데이터를 생산 저장 분석 처리할 수 있는 새로운 플랫폼 예 대용량 비정형 데이터 분산 병렬 처리 표 1-5 빅데이터의 처리 특징 [02] 구분 의사 결정 속도 처리 복잡도Processing Complexity 다양한 데이터 규모 데이터 구조 분석 유연성Analysis Flexibility 처리 분석 처리량 Throughput 처리 특징 빠른 의사 결정이 상대적으로 덜 요구되어 장기적 전략적 접근 필요 데이터 소스, 복잡한 로직 처리, 대용량 데이터 처리로 처리 복잡도가 높아 분산 처리 기술 필요 처리할 데이터 규모가 방대. 즉, 고객 정보 수집 및 분석을 장기간에 걸쳐 수행해야 하므 로 처리해야 할 데이터양이 방대 비정형 데이터의 비중이 높음. 즉, 소셜 미디어 데이터, 로그 파일, 스트림 데이터, 콜센터 로그 등 비정형 데이터 파일의 비중이 높음 유연성이 높음. 즉, 잘 정의된 데이터 모델, 상관관계, 절차 등이 없어 기존 데 이터 처리 방법에 비해 처리 및 분석 유연성이 높음 동시 처리량이 낮음. 즉, 대용량 및 복잡한 처리가 가능하여 동시에 처리할 수 있는 데이 터양이 적어 실시간 처리가 보장되어야 하는 데이터 분석에는 부적합 24 1부_ 빅데이터 개요
16 [그림 1-6]은 앞서 살펴본 빅데이터의 속성을 이런 처리 과점에서 다시 정리한 것이다. 그림 1-6 빅데이터의 속성과 처리 특징 [08] 빅데이터는 하드웨어부터 소프트웨어까지, 컴퓨터 공학에서 인간 공학, 심지어 뇌 과학과 언어학 까지 총망라한 기술이 모두 적용된 분야이다. 따라서 통계학, 경제학, 정보 기술, 수학 등 포괄적 인 학문 이해가 필요하며, 학문적인 지식 외에 통합적 사고, 직관력 등도 요구된다. 1장_ 빅데이터 개념과 처리 과정 25
17 3 빅데이터 처리 과정과 기술 앞서 언급했듯이 빅데이터는 기존의 데이터와 속성이 달라 데이터 수집 저장 처리 분석 표 현하는 데 새로운 방법들이 필요하다. [그림 1-7]은 빅데이터를 처리하는 과정을 크게 데이터의 생성 수집 저장 처리 분석 표현의 과정으로 분류한 것이다. 그림 1-7 빅데이터 처리 과정 [09] 각 과정별로 다양한 기술이 등장했는데, 각 과정별 기술 영역을 정리하면 [표 1-6]과 같다. 이 절 에서는 각 영역별 기술을 비롯하여 빅데이터 처리와 관련된 추가 기술까지 간단히 소개한 후 2부 에서 본격적으로 살펴볼 것이다. 26 1부_ 빅데이터 개요
18 표 1-6 빅데이터 처리 과정별 기술 영역 [10] 과정 영역 개요 생성 내부 데이터 데이터베이스 Database, 파일 관리 시스템File Management System 외부 데이터 인터넷으로 연결된 파일, 멀티미디어, 스트림 수집 크롤링 Crawling 검색 엔진의 로봇을 사용한 데이터 수집 ETLExtraction, Transformation, Loading 소스 데이터의 추출 전송 변환 적재 저장 NoSQL 데이터베이스 비정형 데이터 관리 스토리지 Storage 서버 Server 빅데이터 저장 초경량 서버 처리 맵리듀스 MapReduce 데이터 추출 프로세싱 Processing 다중 업무 처리 분석 NLP Neuro Linguistic Programming 자연어 처리 기계 학습Machine Learning 기계 직렬화 Serialization 학습으로 데이터의 패턴 발견 데이터 간의 순서화 표현 가시화 Visualization 데이터를 도표나 그래픽적으로 표현 획득 Acquisition 데이터의 획득 및 재해석 3.1 빅데이터 소스 생성과 수집 기술 데이터는 소스 위치에 따라 내부 데이터와 외부 데이터로 구분한다. 따라서 데이터 수집도 소스 위치에 따라 다음과 같이 내부 데이터 수집과 외부 데이터 수집으로 구분할 수 있다. 내부 데이터 수집 : 주로 자체적으로 보유한 내부 파일 시스템이나 데이터베이스 관리 시스템, 센서 등에 접근 하여 정형 데이터를 수집한다. 외부 데이터 수집 : 인터넷으로 연결된 외부에서 비정형 데이터를 수집한다. 데이터 수집은 주로 툴, 프로그래밍으로 자동으로 진행된다. 보통은 [표 1-7]과 같은 로그 수집 기, 크롤링 Crawling, 센싱, RSS 리더/오픈 API, ETL 등 수집 방법을 사용한다. 1장_ 빅데이터 개념과 처리 과정 27
19 표 1-7 빅데이터 자동 수집 방법 [07] 방법 로그 수집기 크롤링 센싱 RSS 리더/오픈 API ETL Extraction, Transformation, and Loading 설명 내부에 있는 웹 서버의 로그를 수집. 즉, 웹 로그, 트랜잭션 로그, 클릭 로그, DB의 로그 데이 터 등 수집 주로 웹 로봇으로 거미줄처럼 얽혀 있는 인터넷 링크를 따라다니며 방문한 웹 사이트의 웹 페이지라든가 소셜 데이터 등 인터넷에 공개되어 있는 데이터 수집 각종 센서로 데이터 수집 데이터의 생산 공유 참여 환경인 웹 2.0을 구현하는 기술로 필요한 데이터를 프로그래밍으 로 수집 데이터의 추출, 변환, 적재의 약자로, 다양한 소스 데이터를 취합해 데이터를 추출하고 하나의 공통된 형식으로 변환하여 데이터웨어하우스에 적재하는 과정 지원 3.2 빅데이터 저장 기술 데이터에서 의미 있는 정보를 추출하려면 효율적으로 저장 관리하는 기술이 필요하다. 데이터 저 장 관리는 추후 사용할 수 있도록 데이터를 안전하고 효율적으로 저장하는 것으로, 빅데이터는 대용량, 비정형, 실시간성 속성을 수용할 수 있는 저장 방식이 필요하다. 특히 대량의 데이터를 파일 형태로 저장할 수 있는 기술과 비정형 데이터를 정형화된 데이터 형태로 저장하는 기술이 중요하다. 분산 파일 시스템 Distributed File System; DFS, NoSQL, 병렬 DBMS, 네트워크 구성 저장 시스 템 등 대표적인 기술은 [표 1-8]과 같다. 표 1-8 대용량 데이터를 저장하는 다양한 접근 방식 [07] 접근 방식 설명 제품 분산 파일 시스템 NoSQL 컴퓨터 네트워크로 공유하는 여러 호스트 컴퓨터 파일에 접근할 수 있는 파일 시스템 데이터 모델을 단순화해서 관계형 데이터 모델과 SQL을 사용하지 않는 모든 DBMS 또는 데이터 저장 장치 GFS Google File System, HDFS Hadoop Distributed File System, 아마존 S3 파일 시스템 Cloudata, HBase, Cassandra 28 1부_ 빅데이터 개요
20 병렬 DBMS 네트워크 구성 저장 시스템 다수의 마이크로프로세서를 사용하여 여러 디스크의 질의, 갱신, 입출력 등 데이터베이스 처리를 동시에 수행하는 데이터베이스 시스템 서로 다른 종류의 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리 VoltDB, SAP HANA, Vertica, Greenplum, Netezza SAN Storage Area Network, NAS Network Attached Storage 3.3 빅데이터 처리 기술 빅데이터는 방대한 양의 데이터와 데이터 생성 속도, 데이터 종류의 다양성을 통합적으로 고려할 수 있는 기술이 필요하다. 대표적인 빅데이터 처리 기술로 맵리듀스가 있다. 초기에는 장단점 논 란을 불러일으켰지만, 현재는 오픈 소스 Open Source 인 하둡 Hadoop 의 성공으로 분산 병렬 데이터 처리 기술의 표준이 되었다. 빅데이터 처리 기술로는 정형 비정형 빅데이터 분석에 가장 선호되는 솔루션인 하둡, R 언어와 개발 환경으로 기본적인 통계 기법부터 모델링, 최신 데이터 마이닝 기법까지 구현 및 개선이 가 능한 R, 전통적인 관계형 데이터베이스 RDBMS와는 다르게 설계된 비관계형 데이터베이스인 NoSQL No SQL; Not-only SQL 등이 있다. 특히 맵리듀스 기술은 일반 범용 서버로 구성된 군집화 시스템을 기반으로 <키, 값> 입력 데이터 분할 처리 및 처리 결과 통합 기술, Job 스케줄링 기술, 작업 분배 기술, 장애에 대처하는 태스크 재수행 기술 등이 통합된 분산 컴퓨팅 기술이다. 맵리듀스 기술이 확산되면서 새로운 하드웨어 시스템에 최적화된 데이터 처리 기술, 반복 연속 처리 지원, 유연한 데이터 흐름을 표현하는 프로그래밍 모델을 개선하는 연구가 진행되고 있다. 또한 데이터 활용 방식의 변화로 현재 발생하는 상황을 파악하고, 발생 원인을 실시간으로 분석 하는 중요성이 커지면서 대규모 스트림 데이터 처리 기술 연구도 수행한다. 빅데이터 처리 기술 은 [표 1-9]와 같다. 1장_ 빅데이터 개념과 처리 과정 29
21 표 1-9 빅데이터 처리 기술 용어 빅데이터 일괄 처리 기술 빅데이터 실시간 처리 기술 빅데이터 처리 프로그래밍 지원 기술 설명 빅데이터를 여러 서버로 분산하여 각 서버에서 나누어 처리하고, 이를 다시 모아서 결과 를 정리하는 분산 병렬 기술 방식 구글 맵리듀스(구글에서 분산 컴퓨팅을 지원할 목적으로 제작 발표한 소프트웨어 프레 임워크, 함수형 프로그래밍에서 일반적으로 사용되는 맵 Map 과 리듀스 Reduce 함수를 기반 으로 주로 구성), 하둡 맵리듀스, 마이크로소프트 드라이애드 Dryad 등이 있음 스트림 처리 기술로 강화된 스트림 컴퓨팅을 지원하는 IBM의 InfoSphere Streams 인포스 피어 스트림즈, 분산 환경에서 스트리밍 데이터를 분석할 수 있게 해주는 트위터의 스톰 Storm 분산 데이터를 처리하는 프로그래밍 언어인 구글의 소잴 Sawzall 과 병렬 처리를 하는 고성능 데이터-플로우 언어와 실행 프레임워크인 하둡 Pig 인프라 기술을 포함한 빅데이터와 연계된 기술들은 [표 1-10]과 같다. 표 1-10 인프라 기술을 포함한 빅데이터와 연계된 기술들 [11] 용어 Cassandra 카산드라 Hadoop 하둡 HBase H베이스 MapReduce 맵리듀스 NoSQL 설명 분산 시스템에서 대용량 데이터를 처리할 수 있도록 설계된 오픈 소스 데이터베이스 관리 시스템 원래 페이스북에서 개발했으며 지금은 아파치 소프트웨어 재단에서 한 프로젝트로 관리 분산 시스템에서 대용량 데이터 처리 분석을 지원하는 오픈 소스 소프트웨어 프레임워크 구글이 개발한 맵리듀스를 오픈 소스로 구현한 결과물 야후에서 최초로 개발했으며, 지금은 아파치 소프트웨어 재단에서 한 프로젝트로 관리 주요 구성요소로는 하둡 분산 파일 시스템인 HDFS, 분산 컬럼 기반 데이터베이스인 HBase, 분산 컴퓨팅 지원 프레임워크인 맵리듀스 포함 구글의 빅테이블 을 참고로 개발된 오픈 소스 분산 비관계형 데이터베이스 파워셋에서 개발했으며, 현재는 아파치 소프트웨어 재단에서 한 프로젝트로 관리 분산 시스템에서 대용량 데이터 세트를 처리하려고 구글이 제안한 소프트웨어 프레임워크 하둡에서도 구현 Not-only SQL 또는 No SQL을 의미 전통적인 관계형 데이터베이스와 다르게 설계된 비관계형 데이터베이스 대표적인 NoSQL 솔루션으로는 Cassandra, HBase, MongoDB 등이 있음 30 1부_ 빅데이터 개요
22 3.4 빅데이터 분석 기술 빅데이터 분석에 사용하는 기술은 대부분 통계학과 전산학, 특히 기계 학습과 데이터 마이닝 분 야에서 이미 사용한 것들이다. 이 분석 기술들의 알고리즘을 대규모 데이터 처리에 맞게 개선하 여 빅데이터 처리에 적용시키고 있는 것이다. 빅데이터 분석에 사용할 수 있는 대표적인 분석 기술은 [표 1-11]과 같다. 표 1-11 빅데이터 분석 기술 용어 텍스트 마이닝Text Mining 자연어 웹 마이닝Web Mining 인터넷에서 오피니언 마이닝Opinion Mining; 평판 분석 리얼리티 마이닝Reality Mining 소셜 네트워크 수학의 분석Social Network Analysis 분류 Classification 군집화 Clustering 기계 학습Machine Learning 설명 처리 Natural Language Processing 기술을 사용해 인간의 언어로 쓰인 비정형 텍스트에서 유용한 정보를 추출하거나 다른 데이터와의 연계성을 파악하며, 분류나 군집화 등 빅데이터 에 숨겨진 의미 있는 정보를 발견하는 것 수집한 정보를 데이터 마이닝 기법으로 분석하는 것 다양한 온라인 뉴스와 소셜 미디어 코멘트, 사용자가 만든 콘텐츠에서 표현된 의견을 추 출 분류 이해하고 자산화하는 컴퓨팅 기술 텍스트 속의 감성과 감동, 여러 가지 감정 상태를 식별하려고 감성 분석 사용 마케팅에서는 버즈 Buzz; 입소문 분석이라고도 함 휴대폰 등 기기를 사용하여 인간관계와 행동 양태 등을 추론하는 것 통화량, 통화 위치, 통화 상태, 대상, 내용 등을 분석하여 사용자의 인간관계, 행동 특성 등 정보를 찾아냄 그래프 이론 Graph Theory을 바탕으로 소셜 네트워크 서비스에서 소셜 네트워크 연결 구조와 연결 강도를 분석하여 사용자의 명성 및 영향력을 측정하는 것 미리 알려진 클래스들로 구분되는 훈련 데이터군 Group 을 학습시켜 새로 추가되는 데이터 가 속할 만한 데이터군을 찾는 지도 학습 Supervised Learning 방법 가장 대표적인 방법으로 KNN K-Nearest Neighbor 이 있음 특성이 비슷한 데이터를 합쳐 군 Group 으로 분류하는 학습 방법 분류와 달리 훈련 데이터군을 이용하지 않기 때문에 비지도 학습 Unsupervised Learning 방법 트위터에서 주로 사진/카메라를 논의하는 사용자군과 게임에 관심 있는 사용자군 등 관심 사나 취미에 따라 분류 인공지능 분야에서 인간의 학습을 모델링한 것 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하여 수신한 이메일의 스팸 여부 를 판단할 수 있도록 훈련 결정 트리 Decision Tree 등 기호적 학습, 신경망이나 유전자 알고리즘 등 비기호적 학습, 베 이지안 Bayesian 이나 은닉 마코프 Hidden Markov 등 확률적 학습 등 다양한 기법이 있음 1장_ 빅데이터 개념과 처리 과정 31
23 표 1-11 빅데이터 분석 기술(계속) 용어 감성 분석Sentiment Analysis 문장의 설명 의미를 파악하여 글의 내용에 긍정/부정, 좋음/나쁨을 분류하거나 만족/불만족 강도 를 지수화. 그런 다음 이 지수를 이용하여 고객의 감성 트렌드를 시계열적으로 분석하고 고 객 감성 변화에 기업의 신속한 대응 및 부정적인 의견의 확산을 방지하는 데 활용 3.5 빅데이터 표현 기술 데이터 분석 결과를 효과적으로 전달하려고 어렵고 복잡한 정보를 한눈에 쉽게 이해할 수 있도록 간단한 도표나 3D 이미지 등으로 표현하는 정보 표현 기술이 발전했다. 최근의 빅데이터 표현 기 술 중 2009년 구글에서 개발한 Fusion Tables은 방대한 양의 데이터를 표현해 주는 온라인 서 비스이다. [그림 1-8]은 정보 표현의 간단한 예이다. 일반 행정 도시 계획 및 주택 관리 주택 경비 도시 계획 2, 예비비 4,389 문화 관광 산업 경제 일자리 산업 육성 생활 경제 1,945 1, 도시 안전 5,115 수방치수 시설물 관리 소방 안전 4,261 2,071 1,117 7,395 3,480 행정 운영 경비 2,282 2,959 1조 2,755 1조 7,126 인건비 기본 경비 1조 1, 도로교통 5조 1,646 19조 8,920억 원 순계 기준 대중교통 관리 도시철도 도로 건설 주차장 확충 7,137 5,101 4, 조 7,181 1조 9,942 사회 복지 저소득 여성보육 노인 주거 복지 장애인 보건 의료 교육 1조 5,959 1조 1,653 7,307 6,859 4,897 2,674 2,297 3조 445 공원환경 2조 4,205 자치구 지원 교육청 지원 시세 지원 학교 용지 매입 2조 3, 재무 활동 하수쓰레기 처리 상수도 공원 및 녹지 확충 대기질 개선 6,973 6,008 2,977 1,223 단위 % 점유비 증감률 단위 % 사회 복지 13.3 자치구 지원 4.8 교육청 지원 1.6 재무 활동 -1.3 공원환경 -3.3 도로교통 -2.9 행정 운영 경비 7.2 도시 안전 44.3 산업 경제 0.5 문화 관광 6.7 도시 계획 및 주택 관리 일반 행정 13.4 예비비 그림 1-8 정보 표현의 간단한 예 [12] 32 1부_ 빅데이터 개요
24 연습문제 01 정보 기술의 패러다임을 PC 시대, 인터넷 시대, 모바일 시대, 스마트 시대로 구분하여 패러다임 기술과 핵심 기술 이슈를 설명하시오. 02 빅데이터가 차세대 이슈로 떠오르는 이유를 세 가지만 나열하시오. 03 빅데이터를 정의하시오. 04 정형화 정도에 따른 빅데이터의 종류를 나열하시오. 05 기존 데이터와 빅데이터를 처리하는 차이점을 설명하시오. 06 빅데이터의 속성은 3V로 정의할 수 있는데, 3V를 설명하시오. 07 빅데이터 처리 과정을 설명하시오. 08 빅데이터 분석 과정을 설명하시오. 09 빅데이터 처리 과정별 기술 영역을 설명하시오. 10 빅데이터를 처리하는 구성도를 작성하시오. 11 조직 유형별 빅데이터 플랫폼의 모습을 설명하시오. 12 빅데이터 자동 수집 방법을 설명하시오. 13 빅데이터와 연계된 기술들을 설명하시오. 14 주요 국가별 빅데이터 동향을 설명하시오. 15 주요 기업별 빅데이터 현황을 설명하시오. 16 주요 글로벌 기업의 빅데이터 기술 보유 현황을 설명하시오. 17 주요 공공 분야별 빅데이터 현황을 설명하시오. 18 책에서 다루지 않은 빅데이터 활용 사례를 찾아보시오. 1장_ 빅데이터 개념과 처리 과정 39
25 참고문헌 [ 01 ] 정지선, 신가치창출 엔진, 빅데이터의 새로운 가능성과 대응 전략, 한국정보화진흥원 IT & Future Strategy, , 제18호, pp [ 02 ] P. Russom, Big Data Analytics, 2011, TDWI Research. [ 03 ] 노무라연구소, 빅데이터 시대 도래, 2012, IT 프론티어 3월호. [ 04 ] G. Gruman, Tapping into the Power of Big Data, Technology Forecast(PwC), 2010, issue 3, pp [ 05 ] 김정숙, 빅데이터 활용과 관련기술 고찰, 한국콘텐츠학회, , 10(1) pp [ 06 ] ESG Research Report, July 2010, Digital Archive Market Forecast [ 07 ] 김정미, 빅데이터 시대의 데이터 자원 확보와 품질 관리 방안, 한국정보화진흥원 IT & Future Strategy, , 제5호, pp [ 08 ] 송민정, 빅데이터 이코노미시대, 소셜 데이터 폭발로 가능한 소셜분석과 큐레이션, KT경제경영 연구소. [ 09 ] 정지선, 성공적인 빅데이터 활용을 위한 3대 요소 : 자원, 기술, 한국정보화진흥원, IT & Future Strategy, , 제3호, pp [ 10 ] P. Warden, Big Data Glossary, 2011, O Reilly Media. [ 11 ] IDC, 빅 데이터 분석 : CIO를 위한 미래지향적 아키텍처 기술 그리고 로드맵, [ 12 ] [ 13 ] J. Manyika, M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers, Big Data: The Next Frontier for Innovation, Competition, and Productivity, May 2011, McKinsey Global Institute. [ 14 ] 윤미림, 빅데이터 비즈니스 활용과 과제, 한국정보산업연합회 Issue Report, 2012, pp [ 15 ] 이은민, 모바일 데이터 트래픽 증가와 사업자 전략, 정보통신정책연구원 방송통신정책, , 23(14), pp [ 16 ] 양창준, 미래의 창, 빅데이터, TTA Journal, , Vol.140, pp [ 17 ] 이강용 남궁현 심재철 조기성 류원, 공공분야에서의 빅데이터 활용을 위한 지식자산 (knowledge base) 구축, 한국정보과학회지, , 30(6), pp 부_ 빅데이터 개요
26 [ 18] 이미영 최완, 빅데이터 분석을 위한 빅데이터 처리 기술 동향, 한국정보처리학회지, 2012, 19(3), pp [ 19] 강만오 김상락 박상무, 빅데이터의 분석과 활용, 한국정보과학회지, , 30(6), pp [ 20] 이현재, Big Data를 위한 S/W 아키텍처 설계, 한국정보처리학회 IT21 Global Conference, [ 21] 안창원 황승구, 빅데이터 기술과 주요 이슈, 한국정보과학회지, 2012, 30(6), pp [ 22] 이각범, 빅데이터를 활용한 스마트 정부 구현(안), 국가정보화전략위원회보고서, [ 23] 채승병 안신현 전상현, 빅데이터 : 산업 지각변동의 진원, 삼성경제연구소 CEO Information, 2012, 제851호, pp [ 24] 이성춘 임양수 안민지, ig Data, 미래를 여는 비밀 열쇠, KT경제경영연구소 보고서, [ 25] IBM 비즈니스 가치 연구소, 분석 : 빅데이터의 현실적인 활용, 2012, pp [ 26] What is Big Data?, Villanova University. [ 27] Brian Hopkins, and Boris Evelson, Xpand Your Digital Horizon with Big Data, Forrester Research Inc., [ 28] 박원준, 빅데이터(Big Data) 활용에 대한 기대와 우려, 전파 방송 통신 저널, , 제51 호, pp 장_ 빅데이터 개념과 처리 과정 41
27 9 장 하둡을 이용한 추천 시스템의 구현 1 개요 2 협업 필터링 기법과 머하웃을 이용한 구현 3 연관 규칙 기법과 피그, 하이브를 이용한 구현 4 추천 시스템의 구현 5 참고문헌
28 1 개요 빅데이터를 활용하는 가장 대표적인 예는 개인화 상품 추천 시스템이다. 상품 추천 시스템은 고 객에게 추천할 상품 목록을 미리 만들고, 어떤 고객이 특정 상품을 선택했을 때 구매 가능성이 높은 다른 상품을 쉽게 찾도록 도와주는 기술이다. 상품 추천 시스템을 운영하는 대표적인 인터 넷 업체로는 아마존 Amazon, 이베이 ebay, 넷플릭스 Netflix 등이 있다. 이 외에도 많은 인터넷 업체가 사용자의 구매 이력을 바탕으로 고객에게 개인 취향에 맞는 상품을 추천하는 서비스를 제공하 고 있다. 추천 시스템은 다양한 방법으로 구현할 수 있는데, 이 중 협업 필터링과 연관 규칙이 가장 많이 활용된다. 이 장에서는 머하웃을 이용해 협업 필터링 기법의 추천 시스템을 구현하고, 피그, 하 이브, 샤크 등의 하둡 에코시스템과 웹 프로그래밍 기술을 이용해 연관 규칙을 계산하고, 웹 서비 스로 구현하는 방법을 설명한다. 본격적인 구현에 앞서 이 시스템이 어떤 기능을 지원하고 이 기 능을 구현하기 위해 어떤 기술을 사용하는지를 살펴보자. 추천 시스템의 구현은 하둡을 기반으로 하므로 하둡 기술에 대한 전반적인 이해가 필요하다. 빅데이터 기술의 핵심인 하둡은 크게 하둡 분산 파일 시스템과 맵리듀스로 구분된다. 대용량 데 이터를 저장하고 분석하는 기술인 하둡은 다수의 머신을 네트워크로 연결한 분산 클러스터에 서 작동한다. 하둡에서는 데이터를 파일 단위로 저장하기 때문에 체계적인 관리가 어렵다. 그래 서 기존 데이터베이스에 익숙한 사용자는 데이터를 테이블 형태로 저장하여 관리하고 분석하기 를 원한다. 이러한 요구를 반영하여 페이스북은 Hive 하이브 를 개발하여 오픈 소스로 공개했다. 하 이브는 데이터를 테이블 단위로 저장 및 관리하는 기능을 지원하고, 분석을 위해 HiveQL이라는 SQL 쿼리를 지원한다. 또한 맵리듀스로 프로그램을 개발하기 매우 어려운 점을 보완하기 위해 야후는 피그 Pig 를 개발하여 오픈 소스로 공개했다. 피그는 맵리듀스 프로그래밍을 위한 개발 환경 으로, 분석을 위해서 피그라틴이라는 스크립트 언어를 지원한다 부_ 빅데이터 기술 개발 현황과 실제 구현 예
29 이렇듯 하둡을 기반으로 한 다양한 오픈 소스 프로젝트가 등장했는데 이를 통칭하여 하둡 에코 시스템이라고 한다. 이 장에서 구현할 추천 시스템은 협업 필터링과 연관 규칙 기법을 적용하고 이를 위해 머하웃, 피그, 하이브, 샤크, 스쿱이라는 하둡 에코시스템을 활용한다. 그러므로 먼저 2~3절에서는 추천 시스템의 이론이 되는 협업 필터링 및 연관 규칙의 원리와 이를 하둡 에코시 스템을 이용해 구현하는 방법을 학습한다. 그리고 4절에서는 데이터부터 시작해 추천 시스템의 웹 서비스에 이르는 전 과정을 하둡 에코시스템과 전통적인 웹 서비스 기술을 모두 이용해 직접 구현해 볼 것이다. 1.1 협업 필터링과 연관 규칙을 이용한 추천 시스템과 하둡 에코시스템 이 장에서는 협업 필터링 기법을 위해 머하웃을, 연관 규칙 기법을 위해 피그, 하이브, 샤크를, 그 리고 웹 서비스를 위해 스쿱이라는 하둡 에코시스템을 활용한다 협업 필터링과 머하웃 협업 필터링은 추천 시스템 중 가장 인기가 많은 기법으로, 크게 사용자 기반과 아이템 기반으로 구분된다. 이 기법은 특정 사용자와 유사한 취향이나 아이템을 가진 사용자를 다수의 그룹으로 묶은 후 같은 그룹의 사람들이 선호하는 상품을 추천하는 방법이다. 협업 필터링에서 협업은 일부 사용자가 아닌 많은 사용자의 경험을 최대한 활용한다는 의미이다. 추천 시스템을 구축할 때 사용자의 구매 정보만으로 충분하다고 생각하고, 입력 데이터로 구매 정보의 사용자 아이디, 상품 아이디만 선택하는 것은 좋은 방법이 아니다. 데이터가 좋을수록 그 결과도 좋다. 협업 필터링의 기본 입력 데이터 항목에는 평가 점수가 있다. 대부분의 인터넷 쇼핑 몰은 특정 상품을 구매한 사용자에게 1개에서 5개까지의 별 중에서 하나를 선택하고 상품평을 입 력하는 기능을 제공하는데, 이 별의 개수가 바로 평가 점수이다. 다음으로 필터링은 인터넷 정보 홍수에 대한 해결책을 의미한다. 가장 많이 구매한 상품순으로 추천 목록을 만들고 순위대로 추 천하는 방법은 매우 단순하면서도 효과가 크다. 예를 들어, 영화에서는 현재까지 관람한 관객 수 를 기준으로 상위 1등부터 5등까지의 영화를 추천 목록에 배치할 수 있다. 하지만 SF 영화만 보 는 고객에게는 전체 순위를 기준으로 영화를 추천하는 것은 도움이 되지 않는다. 이럴 때 SF 영 화만 묶어서 추천 목록을 만드는 것이 협업 필터링 기법의 핵심이다. 9장_ 하둡을 이용한 추천 시스템의 구현 275
30 협업 필터링 기법을 적용한 가장 유명한 기술이 바로 머하웃이다. 머하웃은 자바 프로그래밍 언 어로 구현된 추천 시스템 라이브러리이기 때문에 이를 이용해 개발하려면 자바 프로그래밍 언어 와 클래스의 사용법 정도는 알고 있어야 한다 연관 규칙과 피그, 하이브, 샤크 연관 규칙은 구매 이력을 토대로 상품간의 관계를 알아내 추천하는 것으로, 한 장바구니에 담긴 상품 조합의 전체 빈도수를 기준으로 계산하기 때문에 장바구니 분석 기법이라고도 한다. 예를 들어, 장바구니에 우유, 콜라, 커피가 있으면 (우유, 콜라), (우유, 커피), (콜라, 커피)의 상품 조합을 찾을 수 있고, 전체 장바구니의 상품 조합 빈도수를 구하는 것은 어렵지 않다. 만약 우유 와 콜라를 함께 구매한 고객이 253명이고, 우유와 커피를 함께 구매한 고객이 102명이라면 우유 를 구매한 고객이 커피보다 콜라를 구매할 확률이 더 높다고 예상할 수 있다. 연관 규칙은 동시에 구매한 상품 조합의 빈도수를 계산하는 것을 시작으로 지지도, 신뢰도, 향상도를 계산해야 하므 로 이에 대한 계산식과 알고리즘에 대한 이해가 있어야 한다. 3절에서 다양한 하둡 에코시스템으 로 연관 규칙을 계산할 때 그 원리도 함께 다룰 것이다. 그런데 연관 규칙은 알고리즘이 매우 단순하고 반복 구문만 실행하면 되므로 오랫동안 큰 인기를 얻고 있지만, 상품 간의 빈도수 계산을 위해 메모리가 상당히 많이 필요하고 실행 시간도 길어 상 품 수가 적은 경우에만 적용이 가능했다. 하지만 하둡 기반의 분산 병렬 처리 시스템을 이용하면 연관 규칙을 이용해 대용량 데이터를 쉽고 빠르게 처리할 수 있다. 하둡 에코시스템을 이용하면 복잡한 계산을 스크립트나 SQL과 같은 쉬운 언어로 빠르게 처리할 수 있어 간편하다. 이 중 피그 라틴은 데이터의 흐름을 단계별로 정확하게 파악할 수 있는 장점이 있다. 3절에서는 피그라틴으 로 연관 규칙을 계산하는 방법을 배울 것이다. 그리고 여기서는 특별히 SQL 쿼리로 연관 규칙을 계산하는 방법도 함께 다루는데 동일한 기능을 두 개의 언어로 구현하는 이유가 궁금할 것이다. 사실 실무에서는 대부분 SQL 쿼리를 사용한다. 그럼에도 피그라틴으로 구현하는 방법부터 배우는 것은 좀 더 간편한 피그라틴을 이용해 맵리듀 스의 구현 원리를 먼저 이해한 후 SQL 쿼리로 구현하는 방법을 익히는 것이 더 효과적이기 때문 이다. 연관 규칙 계산을 SQL 쿼리로만 배우면 맵리듀스의 내부 구현 원리를 정확히 이해하지 못 하고 일단 SQL 쿼리부터 입력하는 나쁜 습관이 생길 수 있다 부_ 빅데이터 기술 개발 현황과 실제 구현 예
31 SQL 쿼리를 지원하는 하둡 에코시스템의 대표적인 기술로는 하이브가 있다. 3절에서는 하이브 로 먼저 데이터 저장소를 구축하고 SQL 쿼리로 연관 규칙을 계산하는 방법을 배울 것이다. 2013년 말에 하둡 2.0 정식 버전이 나온 후 타조, 임팔라, 프레스토, 샤크 등 SQL On Hadoop 으로 불리는 오픈 소스 프로젝트들이 우후죽순 나타났다. 이 기술들은 하이브의 데이터 저장소를 기반으로, SQL 쿼리 엔진만 자체적으로 구현했다. 하이브보다 좋은 점은 실행 속도가 매우 빠르 고 다양한 웹 인터페이스를 지원한다는 점이다. 4절에서 추천 시스템을 구현하는 전 과정을 다룰 때, 앞에서 배운 하이브가 아닌 샤크를 이용한다 웹 서비스와 스쿱 웹 서비스를 위해서는 웹 서버, 웹 프로그래밍 언어, 관계형 데이터베이스가 필요하며, 하둡에 저 장된 데이터를 관계형 데이터베이스로 전송하는 기능도 필요하다. 이러한 기능을 지원하는 하둡 에코시스템이 바로 스쿱이다. 스쿱은 관계형 데이터베이스의 데이터를 하둡 분산 파일 시스템으 로 가져오는 기능도 지원한다. 4절에서는 하둡에 저장된 결과 데이터를 관계형 데이터베이스인 MySQL로 전송하고, PHP와 같은 쉬운 웹 프로그래밍 언어로 연관 상품을 고객에게 추천하는 방법을 다룰 것이다. 1.2 실습 환경 구축 본격적인 설명에 앞서 먼저 이 장의 예제를 실행하기 위한 실습 환경을 구축해보자. 4절에서 최 종적으로 구현하는 추천 시스템은 [그림 9-2]와 같이 크게 데이터 준비, 전처리, 분석, 데이터 내 보내기, 웹 서비스 순으로 진행된다. 그러다 보니 다양한 하둡 에코시스템과 많은 프로그래밍 언 어가 사용되며 설치할 프로그램도 많다. 또한 2~3절의 원리를 구현하는 데도 필요한 환경이므로 여기서는 이 장 전체를 학습하기 위한 실습 환경을 먼저 구축해보자. 9장_ 하둡을 이용한 추천 시스템의 구현 277
32 udata PHP SQL PHP 그림 9-1 실습 과정과 데이터 및 프로그래밍 언어 하둡 에코시스템을 설치하는 것은 어렵다고 알려져 있고, 이런 준비 과정이 복잡하게 느껴질 수 있지만 단계별로 하나씩 설명하므로 어렵지 않게 따라 할 수 있을 것이다. 특히 하둡은 여러 대의 머신에 하둡을 분산 모드로 실행하는 것이 더 실무에 가깝지만 실습에서는 머신 한 대만으로 충 분하다. 그리고 하둡과 하둡 에코시스템의 설정 파일을 일일이 수정하는 어려움을 줄이고자 이를 미리 설정해 둔 파일도 함께 제공한다. 이 책의 예제 소스를 다운받아 압축을 푼 후 버전 관리를 위한 심볼릭 링크만 설정하면 된다. 단, 리눅스와 JDK 및 웹 서비스 관련 소프트웨어의 설치는 참고할 웹 문서가 많으므로 제외한다. 실습 환경은 [그림 9-2]와 같은 과정으로 구축할 것이다. 그림 9-2 실습 환경 구축 과정 278 3부_ 빅데이터 기술 개발 현황과 실제 구현 예
33 1.2.1 리눅스 환경 설정 하둡과 하둡 에코시스템이 제대로 동작하도록 리눅스의 환경 설정 파일인 /etc/profile에 다음과 같이 설정을 정확히 입력한다. 특히 여기서는 하둡 계정을 cm20으로 선택한다. 하둡 계정을 변 경하고 싶으면 이 설정 파일에서 $BASEHOME의 디렉토리 위치만 변경하면 된다. # 리눅스 환경 설정 파일인 /etc /profile에 하둡 관련 설정을 추가한다. # 주의 : /etc/profile은 수퍼유저인 root 계정으로 작업해야 한다. [root@cm1001 ~]$ vi /etc/profile # 기본 디렉토리 설정 # 예) 사용자 계정이 cm20일 경우 export BASEHOME =/home /cm20 # 하둡과 하둡 에코시스템의 설치 및 설정 디렉토리 export HADOOP_PREFIX =$BASEHOME/hadoop export HADOOP_HOME =$BASEHOME /hadoop export PIG_HOME =$BASEHOME/pig export PIG_CLASSPATH =$BASEHOME/hadoop /conf export HIVE_HOME =$BASEHOME /hive export HIVE_CONF_DIR =$BASEHOME /hive/conf # 하둡과 하둡 에코시스템의 실행 경로 설정 pathmunge $BASEHOME /hadoop /bin pathmunge $BASEHOME /pig /bin pathmunge $BASEHOME /hive /bin pathmunge $BASEHOME /sqoop /bin pathmunge $BASEHOME /shark /bin 하둡 설치와 서비스 시작 하둡은 매우 간단히 설치할 수 있으며, 설치 후에는 하둡 서비스를 시작하여 데몬이 제대로 실 행되는지 확인하면 된다. 이를 위해 jps 명령어를 실행하여 jps를 제외한 총 5개의 데몬을 확인 했다. 9장_ 하둡을 이용한 추천 시스템의 구현 279
34 2 협업 필터링 기법과 머하웃을 이용한 구현 2.1 협업 필터링 기법의 원리 협업 필터링 기법은 사용자 기반, 아이템 기반, 콘텐츠 기반 등으로 구현할 수 있는데 이 중 가장 기본은 사용자 기반이다. 사용자 기반으로 구현할 경우의 추천 원리는 다음과 같다. 특정 사용자와 취향이 비슷한 사람들이 좋아할 만한 아이템 중에서 특정 사용자가 구매하지 않은 아이템 협업 필터링 기법에서는 사용자에게 상품을 추천하기 위해 사용자의 구매 정보, 특정 상품의 평 가 점수, 클릭 로그 등을 사용한다. 따라서 협업 필터링의 입력 데이터는 사용자, 아이템, 선호도 로 구성된다. 이 중 선호도는 인터넷 쇼핑몰에서 자주 접하는 사용자의 상품 평가 점수인 별점으 로 1부터 5까지의 정수이며, 값이 높을수록 상품에 대한 평가가 좋음을 의미한다. 하지만 상품을 구매한 사용자가 평가를 하지 않은 경우에는 1부터 5까지의 정수 중 어떤 값을 기본으로 선택할 지 고민이 될 것이다. 프로그래머는 일반적으로 1을 선택하는데, 이럴 경우 상품에 대한 평이 나 쁘다는 의미가 되어 원하는 것과 정반대의 추천 시스템을 구현하게 된다. 따라서 선호도 값이 없 을 때는 기본 값으로 3을 선택해야 좋은 결과를 얻을 수 있다. 이 장에서 협업 필터링을 구현하기 위해 사용할 입력 데이터인 무비렌스 데이터셋의 중요 파일은 [표 9-1]과 같고 각 파일의 항목은 탭으로 구분되어 있다. 9장_ 하둡을 이용한 추천 시스템의 구현 283
35 표 9-1 무비렌스 데이터셋의 중요 파일 파일명 내용 u.data 설명 레코드는 100,000개, 사용자는 943명, 아이템은 1,682개이다. 사용자당 영화를 최소 20개 추천하며, 데이터는 정렬되어 있지 않다. 스키마 user id item id rating timestamp u.item 설명 아이템 정보를 담고 있다. 스키마 movie id movie title release date video release date IMDb URL unknown Action Adventure Animation Children's Comedy Crime Documentary Drama Fantasy Film-Noir Horror Musical Mystery Romance Sci-Fi Thriller War Western u.user 설명 사용자 정보를 담고 있다. 스키마 user id age gender occupation zip code 무비렌스 데이터셋 파일 중 입력 데이터로 사용할 파일은 u.data이며, 데이터 형식과 값은 [표 9-2]와 같다. 표 9-2 무비렌스 데이터셋 : u.data 사용자(user_id) 아이템(item_id) 점수(rating) 시간(timestamp) 부_ 빅데이터 기술 개발 현황과 실제 구현 예
36 4 추천 시스템의 구현 이 절에서는 지금까지 배운 하둡 에코시스템의 분석 기술을 종합적으로 활용하여 데이터, 전처 리, 저장, 분석, 서비스까지의 전체 분석 과정을 실습한다. 4.1 데이터 준비하기 : u.data 앞에서 협업 필터링을 구현하기 위해 사용한 무비렌스의 u.data를 입력 데이터로 다시 활용한 다. 파일의 항목은 4개이며 탭으로 구분되어 있다. 연관 규칙은 트랜잭션과 아이템 항목만 필요 한데, 이 파일에서 트랜잭션 항목은 바로 사용자 아이디이다. 연관 규칙에 필요한 상수인 트랜잭 션 수는 데이터셋의 사용자 수이다. 이 파일의 전체 레코드 수는 100,000이며 943명의 사용자가 1,682개의 영화에 대해 선호도를 부여한 데이터셋이다. 국내에서 가장 많이 활용되는 웹 서비스의 웹 서버는 아파치, 데이터베이스는 MySQL, 웹 프 로그래밍 언어는 PHP이다. 하둡은 리눅스 운영체제 기반이므로 LAMP, 즉 Linux, Apache, MySQL, PHP의 조합이 가장 이상적이다. 그리고 국내에서는 LAMP를 지원하는 웹 호스팅 서 비스를 쉽게 접할 수 있고, 동일한 머신에서 분석과 웹 서비스가 동시에 가능하므로 LAMP 환경 을 기반으로 추천 시스템을 구현하는 방법을 소개하겠다. 4.2 전처리하기 : PHP 사실 필자는 무비렌스의 데이터셋 중 가장 레코드 수가 많은 무비렌스 10M(천만 개) 데이터셋 으로 실습을 준비하다가 다시 100K 데이터셋으로 돌아갔다. 그 이유는 시간이 너무 오래 걸리고 이 데이터셋 파일을 처리하려면 이 책의 범위를 넘는 수준의 파싱 기술이 필요하기 때문이다. 그 러므로 일단 100K 데이터셋으로 책의 예제를 따라한 후 1M, 10M로 추천 서비스를 직접 구현해 보기 바란다 부_ 빅데이터 기술 개발 현황과 실제 구현 예
출원국 권 리 구 분 상 태 권리번호 KR 특허 등록 10-2012-0092520 10-2012-0092518 10-2007-0071793 10-2012-0092517
기술사업성평가서 경쟁정보분석서비스 제공 기술 2014 8 출원국 권 리 구 분 상 태 권리번호 KR 특허 등록 10-2012-0092520 10-2012-0092518 10-2007-0071793 10-2012-0092517 Ⅰ 기술 구현 메커니즘 - 1 - 경쟁정보분석서비스 항목 - 2 - 핵심 기술 특징 및 주요 도면
More information빅데이터_DAY key
Big Data Near You 2016. 06. 16 Prof. Sehyug Kwon Dept. of Statistics 4V s of Big Data Volume Variety Velocity Veracity Value 대용량 다양한 유형 실시간 정보 (불)확실성 가치 tera(1,0004) - peta -exazetta(10007) bytes in 2020
More informationCover Story 01 20 Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치
Oracle Big Data 오라클 빅 데이터 이야기 Cover Story 01 20 Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치 최근 빅 데이터에 대한 관심이 커지고 있는데, 그 배경이 무엇일까요? 정말 다양한 소스로부터 엄청난 데이터들이 쏟아져
More informationCONTENTS Volume.174 2013 09+10 06 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관
방송 통신 전파 KOREA COMMUNICATIONS AGENCY MAGAZINE 2013 VOL.174 09+10 CONTENTS Volume.174 2013 09+10 06 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내
More information<C3E6B3B2B1B3C0B0313832C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>
11-8140242-000001-08 2013-927 2013 182 2013 182 Contents 02 16 08 10 12 18 53 25 32 63 Summer 2 0 1 3 68 40 51 57 65 72 81 90 97 103 109 94 116 123 130 140 144 148 118 154 158 163 1 2 3 4 5 8 SUMMER
More information<BFACB1B85F323031332D333728BCDBC5C2B9CE295FC3D6C1BEC8AEC1A45FC0CEBCE2BFEB28323031343031323029B8F1C2F7BCF6C1A42E687770>
연구보고서 2013-37 인터넷 건강정보 게이트웨이 시스템 구축 및 운영 -빅데이터 활용방안을 중심으로- 송태민 진달래 이중순 안지영 박대순 책임연구자 송태민 한국보건사회연구원 연구위원 주요저서 빅데이터 분석 방법론 한나래아카데미, 2013(공저) 보건복지연구를 위한 구조방정식 모형 한나래아카데미, 2012(공저) 공동연구진 진달래 한국보건사회연구원 연구원
More information[Brochure] KOR_TunA
LG CNS LG CNS APM (TunA) LG CNS APM (TunA) 어플리케이션의 성능 개선을 위한 직관적이고 심플한 APM 솔루션 APM 이란? Application Performance Management 란? 사용자 관점 그리고 비즈니스 관점에서 실제 서비스되고 있는 어플리케이션의 성능 관리 체계입니다. 이를 위해서는 신속한 장애 지점 파악 /
More information160322_ADOP 상품 소개서_1.0
상품 소개서 March, 2016 INTRODUCTION WHO WE ARE WHAT WE DO ADOP PRODUCTS : PLATON SEO SOULTION ( ) OUT-STREAM - FOR MOBILE ADOP MARKET ( ) 2. ADOP PRODUCTS WHO WE ARE ADOP,. 2. ADOP PRODUCTS WHAT WE DO ADOP,.
More informationWeb Scraper in 30 Minutes 강철
Web Scraper in 30 Minutes 강철 발표자 소개 KAIST 전산학과 2015년부터 G사에서 일합니다. 에서 대한민국 정치의 모든 것을 개발하고 있습니다. 목표 웹 스크래퍼를 프레임웍 없이 처음부터 작성해 본다. 목표 웹 스크래퍼를 프레임웍 없이 처음부터 작성해 본다. 스크래퍼/크롤러의 작동 원리를 이해한다. 목표
More informationMicrosoft 을 열면 깔끔한 사용자 중심의 메뉴 및 레이아웃이 제일 먼저 눈에 띕니다. 또한 은 스마트폰, 테블릿 및 클라우드는 물론 가 설치되어 있지 않은 PC 에서도 사용할 수 있습니다. 따라서 장소와 디바이스에 관계 없이 언제, 어디서나 문서를 확인하고 편집
Modern Modern www.office.com ( ) 892 5 : 1577-9700 : http://www.microsoft.com/korea Microsoft 을 열면 깔끔한 사용자 중심의 메뉴 및 레이아웃이 제일 먼저 눈에 띕니다. 또한 은 스마트폰, 테블릿 및 클라우드는 물론 가 설치되어 있지 않은 PC 에서도 사용할 수 있습니다. 따라서 장소와
More information무제-1
표준화 논단 스마트 시대 ICT 패러다임의 변화 최 계 영 KISDI 미래융합연구실장 1. 머리말 스마트 시대 ICT 패러다임의 변화를 이야기하기에 앞 서, 스마트 시대란 무엇인지를 먼저 정의내릴 필요가 있 다. 스마트 시대라는 용어는 사실 엄밀한 학문적 용어 는 아니며, 스마트폰 등장 이후 모바일에서 이용자가 향 유할 수 있는 서비스가 증가하면서 일반화된
More information소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기
소규모 비즈니스를 위한 YouTube 플레이북 YouTube에서 호소력 있는 동영상으로 고객과 소통하기 소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기
More informationWindows 8에서 BioStar 1 설치하기
/ 콘텐츠 테이블... PC에 BioStar 1 설치 방법... Microsoft SQL Server 2012 Express 설치하기... Running SQL 2012 Express Studio... DBSetup.exe 설정하기... BioStar 서버와 클라이언트 시작하기... 1 1 2 2 6 7 1/11 BioStar 1, Windows 8 BioStar
More informationMicrosoft Word - th1_Big Data 시대의 기술_ _조성우
Theme Article Big Data 시대의기술 중앙연구소 Intelligent Knowledge Service 조성우 1. 시대의화두 Big Data 최근 IT 분야의화두가무엇인지물어본다면, 빅데이터가대답들중하나일것이다. 20년전의 PC의메모리, 하드디스크의용량과최신 PC, 노트북사양을비교해보면과거에비해데이터가폭발적으로늘어났다는것을실감할수있을것이다. 특히스마트단말및소셜미디어등으로대표되는다양한정보채널의등장과이로인한정보의생산,
More informationView Licenses and Services (customer)
빠른 빠른 시작: 시작: 라이선스, 라이선스, 서비스 서비스 및 주문 주문 이력 이력 보기 보기 고객 가이드 Microsoft 비즈니스 센터의 라이선스, 서비스 및 혜택 섹션을 통해 라이선스, 온라인 서비스, 구매 기록 (주문 기록)을 볼 수 있습니다. 시작하려면, 비즈니스 센터에 로그인하여 상단 메뉴에서 재고를 선택한 후 내 재고 관리를 선택하십시오. 목차
More informationSECTION TITLE A PURE PRIMER (AI), // 1
SECTION TITLE A PURE PRIMER (AI), // 1 ,...,.,,. AI Enlitic.. Aipoly Microsoft Seeing AI.,, " ",. 4. 4..,.,?.. AI Drive.ai Lyft. // 1 .,.. 1. 2. 3.,. 50~100,., (AI) 4.,,.,.. // 2 ,,. 1 (HAL VARIAN) //,
More informationAmazon EBS (Elastic Block Storage) Amazon EC2 Local Instance Store (Ephemeral Volumes) Amazon S3 (Simple Storage Service) / Glacier Elastic File Syste (EFS) Storage Gateway AWS Import/Export 1 Instance
More informationGlobal Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항
Global Bigdata 사용 현황 및 향후 활용 전망 빅데이터 미도입 이유 필요성 못느낌, 분석 가치 판단 불가 향후 투자를 집중할 분야는 보안 모니터링 분야 와 자동화 시스템 분야 빅데이터의 핵심 가치 - 트랜드 예측 과 제품 개선 도움 빅데이터 운영 애로 사항 - 재직자 전문성, 복잡성으로 인해 알고리즘 개발 난항 본 조사 내용은 美 Techpro Research
More informationOpen Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤
Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤 (byounggon.kim@opence.org) 빅데이터분석및서비스플랫폼 모바일 Browser 인포메이션카탈로그 Search 인포메이션유형 보안등급 생성주기 형식
More informationMicrosoft PowerPoint - chap01-C언어개요.pptx
#include int main(void) { int num; printf( Please enter an integer: "); scanf("%d", &num); if ( num < 0 ) printf("is negative.\n"); printf("num = %d\n", num); return 0; } 1 학습목표 프로그래밍의 기본 개념을
More informationMicrosoft PowerPoint - chap02-C프로그램시작하기.pptx
#include int main(void) { int num; printf( Please enter an integer "); scanf("%d", &num); if ( num < 0 ) printf("is negative.\n"); printf("num = %d\n", num); return 0; } 1 학습목표 을 작성하면서 C 프로그램의
More information. 1, 3,,., ICT(),,.. 2 3,.. Player (, ) IT,. 3,...,.
,. 2004-2011 ENTIER Consulting Inc. All rights reserved. . 1, 3,,., ICT(),,.. 2 3,.. Player (, ) IT,. 3,...,. 엔티어 가 제공하는 서비스 "엔티어컨설팅"에서는 향후 20~30년간의 메가트랜드를 예측하여 미래비즈니스 사 업군을 추출하고, 전세계 히트사업부터 국내 신성장동력 사업군과
More informationwin8_1±³
1 2 3 4 5 6 IDG Tech Library 7 8 9 ITWorld H ow To 마트글래스 기능은 사용자가 시청하거나 플레이한 하우스터프웍스(HowStuffWorks) 내용을 추적해 주고, 성취표나 추가 비디오 콘텐츠 하우스터프웍스 윈도우 8 앱은 기본적으로 하우 등 보조 정보를 제공한다. 또한 PC를 Xbox 360의 스터프웍스 웹 사이트의 모든
More informationArtificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제
Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, 2018 1 1.1 Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제 6.5에서 찾아볼 수 있다. http://incompleteideas.net/book/bookdraft2017nov5.pdf
More information<C0CCBCF8BFE42DB1B3C1A4BFCFB7E12DB1E8B9CCBCB12DC0DBBCBAC0DAB0CBC1F5BFCFB7E12DB8D3B8AEB8BBB3BBBACEC0DAB0CBC1F52E687770>
사회복지용 지능로봇 기술동향 머 리 말 목 차 제1장 서 론 1 제2장 기술의 특징 3 제3장 사회복지용 지능 로봇산업의 기술 수요 전망 11 제4장 사회복지용 지능 로봇의 기술 동향 32 제5장 결론 및 정책 제언 103 참고문헌 109 표 목차 그림 목차 제1장 서 론 1. 목적 및 필요성 2. 분석내용 및 범위 제2장 기술의 특징 1. 지능형 로봇기술의
More informationLevel 학습 성과 내용 1수준 (이해) 1. 기본적인 Unix 이용법(명령어 또는 tool 활용)을 습득한다. 2. Unix 운영체계 설치을 익힌다. 모듈 학습성과 2수준 (응용) 1. Unix 가상화 및 이중화 개념을 이해한다. 2. 하드디스크의 논리적 구성 능력
CLD 모듈 계획서 Unix Systems 운영관리기법 교과목 코드 모듈명 Unix Systems Administration 코디네이터 김두연 개설 시기 2015. 5 th term 학점/시수 3 수강 대상 1~3학년 분반 POL Type TOL Type SOS Type 유형 소프트웨어 개발 컴퓨팅 플랫폼 관리 개발 역량 분석/설계 프로그래밍
More information김기남_ATDC2016_160620_[키노트].key
metatron Enterprise Big Data SKT Metatron/Big Data Big Data Big Data... metatron Ready to Enterprise Big Data Big Data Big Data Big Data?? Data Raw. CRM SCM MES TCO Data & Store & Processing Computational
More informationSIGIL 완벽입문
누구나 만드는 전자책 SIGIL 을 이용해 전자책을 만들기 EPUB 전자책이 가지는 단점 EPUB이라는 포맷과 제일 많이 비교되는 포맷은 PDF라는 포맷 입니다. EPUB이 나오기 전까지 전 세계에서 가장 많이 사용되던 전자책 포맷이고, 아직도 많이 사 용되기 때문이기도 한며, 또한 PDF는 종이책 출력을 위해서도 사용되기 때문에 종이책 VS
More informationData Industry White Paper
2017 2017 Data Industry White Paper 2017 1 3 1 2 3 Interview 1 ICT 1 Recommendation System * 98 2017 Artificial 3 Neural NetworkArtificial IntelligenceAI 2 AlphaGo 1 33 Search Algorithm Deep Learning IBM
More information슬라이드 1
웹 2.0 분석보고서 Year 2006. Month 05. Day 20 Contents 1 Chapter 웹 2.0 이란무엇인가? 웹 2.0 의시작 / 웹 1.0 에서웹 2.0 으로 / 웹 2.0 의속성 / 웹 2.0 의영향 Chapter Chapter 2 3 웹 2.0 을가능케하는요소 AJAX / Tagging, Folksonomy / RSS / Ontology,
More information04 Çмú_±â¼ú±â»ç
42 s p x f p (x) f (x) VOL. 46 NO. 12 2013. 12 43 p j (x) r j n c f max f min v max, j j c j (x) j f (x) v j (x) f (x) v(x) f d (x) f (x) f (x) v(x) v(x) r f 44 r f X(x) Y (x) (x, y) (x, y) f (x, y) VOL.
More informationOffice 365, FastTrack 4 FastTrack. Tony Striefel FastTrack FastTrack
FastTrack 1 Office 365, FastTrack 4 FastTrack. Tony Striefel FastTrack FastTrack 5 11 2 FASTTRACK 소개 디지털 혁신은 여기서 시작합니다. Microsoft FastTrack은 Microsoft 클라우드를 사용하여 고객이 신속하게 비즈니스 가치를 실현하도록 돕는 고객 성공 서비스입니다.
More informationPathEye 공식 블로그 다운로드 받으세요!! 지속적으로 업그래이드 됩니다. 여러분의 의견을 주시면 개발에 반영하겠 습니다.
PathEye Mobile Ver. 0.71b 2009. 3. 17 By PathEye 공식 블로그 다운로드 받으세요!! http://blog.patheye.com 지속적으로 업그래이드 됩니다. 여러분의 의견을 주시면 개발에 반영하겠 습니다. PathEye 설치 1/3 최종 배포 버전을 다 운로드 받습니다. 다운로드된 파일은 CAB 파일입니다. CAB 파일에는
More information- 2 -
- 1 - - 2 - - - - 4 - - 5 - - 6 - - 7 - - 8 - 4) 민원담당공무원 대상 설문조사의 결과와 함의 국민신문고가 업무와 통합된 지식경영시스템으로 실제 운영되고 있는지, 국민신문 고의 효율 알 성 제고 등 성과향상에 기여한다고 평가할 수 있는지를 치 메 국민신문고를 접해본 중앙부처 및 지방자 였 조사를 시행하 였 해 진행하 월 다.
More information歯이
Korea Marketing Best Awards 1. CI 2002 2 3 5 / - Cyber 6 7 Best Goods ( ) 8 11 FDA 1 6 7 8 [ ] CI 11 100 12 ( ) 12 2001 5 7 1999 3 ( ) 7 12 ISO 9001 2000 2. 경영 리더십 1) 경영 철학 경영 철 학 CEO 경영철학 건강한 행복의
More informationMicrosoft Word - ntasFrameBuilderInstallGuide2.5.doc
NTAS and FRAME BUILDER Install Guide NTAS and FRAME BUILDER Version 2.5 Copyright 2003 Ari System, Inc. All Rights reserved. NTAS and FRAME BUILDER are trademarks or registered trademarks of Ari System,
More information*074-081pb61۲õðÀÚÀ̳ʸ
74 October 2005 현 대는 이미지의 시대다. 영국의 미술비평가 존 버거는 이미지를 새롭 게 만들어진, 또는 재생산된 시각 으로 정의한 바 있다. 이 정의에 따르 면, 이미지는 사물 그 자체가 아니라는 것이다. 이미지는 보는 사람의, 혹은 이미지를 창조하는 사람의 믿음이나 지식에 제한을 받는다. 이미지는 언어, 혹은 문자에 선행한다. 그래서 혹자는
More information슬라이드 1
소셜 미디어, TV를 만나다 동영상 유통 채널로 급부상하는 소셜 미디어 DMC REPORT 본 연구보고서는 DMC미디어에서 작성되었습니다. 본 보고서의 내용을 부분적으로 발췌하거나 인용, 또는 언론보도 시에는 반드시 당사의 사전 동의를 득하여야 하며, 출처 명기 시 다음 사항을 준수하여 주시기 바랍니다. 본 보고서는 DMC미디어에서 작성되었고, 디지에코에 공동
More informationArt & Technology #5: 3D 프린팅 - Art World | 현대자동차
Art & Technology #5: 3D 프린팅 새로운 기술, 새로운 가능성 미래를 바꿔놓을 기술 이 무엇인 것 같으냐고 묻는다면 어떻게 대답해야 할까요? 답은 한 마치 한 쌍(pair)과도 같은 3D 스캐닝-프린팅 산업이 빠른 속도로 진화하고 있는 이유입니 가지는 아닐 것이나 그 대표적인 기술로 3D 스캐닝 과 3D 프린팅 을 들 수 있을 것입니 다. 카메라의
More information<B3EDB9AEC0DBBCBAB9FD2E687770>
(1) 주제 의식의 원칙 논문은 주제 의식이 잘 드러나야 한다. 주제 의식은 논문을 쓰는 사람의 의도나 글의 목적 과 밀접한 관련이 있다. (2) 협력의 원칙 독자는 필자를 이해하려고 마음먹은 사람이다. 따라서 필자는 독자가 이해할 수 있는 말이 나 표현을 사용하여 독자의 노력에 협력해야 한다는 것이다. (3) 논리적 엄격성의 원칙 감정이나 독단적인 선언이
More information<464B4949B8AEC6F7C6AE2DC0AFBAF1C4F5C5CDBDBABBEABEF7C8AD28C3D6C1BE5FBCD5BFACB1B8BFF8BCF6C1A4292E687770>
국내 유비쿼터스 사업추진 현황 본 보고서의 내용과 관련하여 문의사항이 있으시면 아래로 연락주시기 바랍니다. TEL: 780-0204 FAX: 782-1266 E-mail: minbp@fkii.org lhj280@fkii.org 목 차 - 3 - 표/그림 목차 - 4 - - 1 - - 2 - - 3 - - 4 - 1) 유비쿼터스 컴퓨팅프론티어사업단 조위덕 단장
More information2. 4. 1. 업무에 활용 가능한 플러그인 QGIS의 큰 들을 찾 아서 특징 설치 마 폰 은 스 트 그 8 하 이 업무에 필요한 기능 메뉴 TM f K 플러그인 호출 와 TM f K < 림 > TM f K 종항 그 중에서 그 설치 듯 할 수 있는 플러그인이 많이 제공된다는 것이다. < 림 > 다. 에서 어플을 다운받아 S or 8, 9 의 S or OREA
More information<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>
여 48.6% 남 51.4% 40대 10.7% 50대 이 상 6.0% 10대 0.9% 20대 34.5% 30대 47.9% 초등졸 이하 대학원생 이 0.6% 중졸 이하 상 0.7% 2.7% 고졸 이하 34.2% 대졸 이하 61.9% 직장 1.9% e-mail 주소 2.8% 핸드폰 번호 8.2% 전화번호 4.5% 학교 0.9% 주소 2.0% 기타 0.4% 이름
More informationaws
Amazon Web Services AWS MIGRATION MANAGED SERVICE FOR AWS 베스핀글로벌 S AWS OFFERING 베스핀글로벌과 Amazon Web Services (AWS) 가 여러분의 비즈니스에 클라우드 날개를 달아드립니다. AWS에 높은 이해도를 갖춘 베스핀글로벌의 클라우드 전문가가 다양한 산업 영역에서의 구축 경험과 노하우를
More information쉽게 풀어쓴 C 프로그래밊
Power Java 제 27 장데이터베이스 프로그래밍 이번장에서학습할내용 자바와데이터베이스 데이터베이스의기초 SQL JDBC 를이용한프로그래밍 변경가능한결과집합 자바를통하여데이터베이스를사용하는방법을학습합니다. 자바와데이터베이스 JDBC(Java Database Connectivity) 는자바 API 의하나로서데이터베이스에연결하여서데이터베이스안의데이터에대하여검색하고데이터를변경할수있게한다.
More informationSQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자
SQL Developer Connect to TimesTen 유니원아이앤씨 DB 팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 2010-07-28 작성자 김학준 최종수정일 2010-07-28 문서번호 20100728_01_khj 재개정이력 일자내용수정인버전
More information<30332DB1E2C8B9C6AFC1FD28B7F9C0E7C8AB292832312D3335292E687770>
플랜트 산업 기술의 ICT 적용 사례 류 재 홍 강 석 환 차 재 민 고등기술연구원 플랜트엔지니어링센터 ICT Application of Plant Industry Technology Jae-Hong Ryu, Suk-Hwan Kang, and Jae-Min Cha Institute for Advanced Engineering, Plant Engineering
More information따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)
오늘그리고미래의전략적자산 데이터. 데이터에서인사이트까지 무엇이? 왜? 그리고? 그렇다면? Insight 데이터의변화 CONNECTED DIGITAL ANALOG 1985 1990 1995 2000 2005 2010 2015 2020 데이터의변화 CONNECTED DIGITAL ANALOG 1985 1990 1995 2000 2005 2010 2015 2020
More informationSBR-100S User Manual
( 1 / 13 ) SBR-100S 모델에 대한 사용자 펌웨어 업그레이드 방법을 안내해 드립니다. SBR-100S 는 신규 펌웨어가 있을시 FOTA(자동업데이트) 기능을 통하여 자동 업그레이드가 되며, 필요시 사용자가 신규 펌웨어를 다운받아 수동으로 업그레이드 할 수 있습니다. 1. 준비하기 1.1 연결 장치 준비 펌웨어 업그레이드를 위해서는 SBR-100S
More informationWeek2.key
2015 week 02 ( ) 1 : 2 : 3 : 4 : 5 : 6 : 4 (Design Thinking HCI ) + + 6 ,, (McKinsey, 2011) 3 Volume, Velocity, Variety (Gartner, 2011), SNS 2011 1ZB( =1021 ), 2,, : 2013-11 ( 77 ) 7 ,,,,,,, McKinsey
More information2009방송통신산업동향.hwp
제 1 절인터넷포털 53) 목차 1. 163. 163. 166 2. 168 176 1. 시장동향 가. 시장규모. 2008 2009. PWC 2008 / 15.6% 599. 2009 1.9% 587. *, (02) 570-4112, byjung@kisdi.re.kr 163 제 3 장 인터넷콘텐츠 < 표 3-1> 세계온라인광고시장규모추이 ( :, %) 2007
More informationwtu05_ÃÖÁ¾
한 눈에 보는 이달의 주요 글로벌 IT 트렌드 IDG World Tech Update May C o n t e n t s Cover Story 아이패드, 태블릿 컴퓨팅 시대를 열다 Monthly News Brief 이달의 주요 글로벌 IT 뉴스 IDG Insight 개발자 관점에서 본 윈도우 폰 7 vs. 아이폰 클라우드 컴퓨팅, 불만 검증 단계 돌입 기업의
More informationCR2006-41.hwp
연구책임자 가나다 순 머 리 말 2006년 12월 한국교육학술정보원 원장 - i - - ii - - iii - 평가 영역 1. 교육계획 2. 수업 3. 인적자원 4. 물적자원 5. 경영과 행정 6. 교육성과 평가 부문 부문 배점 비율(%) 점수(점) 영역 배점 1.1 교육목표 3 15 45점 1.2 교육과정 6 30 (9%) 2.1 수업설계 6 30 2.2
More information이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론
이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론 2. 관련연구 2.1 MQTT 프로토콜 Fig. 1. Topic-based Publish/Subscribe Communication Model. Table 1. Delivery and Guarantee by MQTT QoS Level 2.1 MQTT-SN 프로토콜 Fig. 2. MQTT-SN
More information810 & 820 810 는 소기업 및 지사 애 플리케이션용으로 설계되었으며, 독립 실행형 장치로 구성하거 나 HA(고가용성)로 구성할 수 있습니다. 810은 표준 운영 체제를 실행하는 범용 서버에 비해 가격 프리미엄이 거의 또는 전혀 없기 때문에 화이트박스 장벽 을
목적에 맞게 설계된 어플라 이언스 원격 용도로 최적화된 어플라이언스 관리 및 에너지 효율성 향상 원격 관리 LOM(Lights Out Management), IPMI 2.0 장치 식별 버튼/LED 실시간 시스템 환경 및 오류 모 니터링 Infoblox MIBS를 통한 SNMP 모니터링 고가용성 공급 장치 예비 디스크 예비 냉각 팬 전원 공급 장치 현장 교체
More information정부3.0 국민디자인단 운영을 통해 국민과의 소통과 참여로 정책을 함께 만들 수 있었고 그 결과 국민 눈높이에 맞는 다양한 정책 개선안을 도출하며 정책의 완성도를 제고할 수 있었습니다. 또한 서비스디자인 방법론을 각 기관별 정부3.0 과제에 적용하여 국민 관점의 서비스 설계, 정책고객 확대 등 공직사회에 큰 반향을 유도하여 공무원의 일하는 방식을 변화시키고
More informationDB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx
빅데이터의기술영역과 요구역량 줌인터넷 ( 주 ) 김우승 소개 http://zum.com 줌인터넷(주) 연구소 이력 줌인터넷 SK planet SK Telecom 삼성전자 http://kimws.wordpress.com @kimws 목차 빅데이터살펴보기 빅데이터에서다루는문제들 NoSQL 빅데이터라이프사이클 빅데이터플랫폼 빅데이터를위한역량 빅데이터를위한역할별요구지식
More information연구노트
#2. 종이 질 - 일단은 OK. 하지만 만년필은 조금 비침. 종이질은 일단 합격점. 앞으로 종이질은 선택옵션으로 둘 수 있으리라 믿는다. 종이가 너무 두꺼우면, 뒤에 비치지 는 않지만, 무겁고 유연성이 떨어진다. 하지만 두꺼우면 고의적 망실의 위험도 적고 적당한 심리적 부담도 줄 것이 다. 이점은 호불호가 있을 것으로 생각되지만, 일단은 괜찮아 보인다. 필자의
More informationconsulting
CONSULTING 전략 컨설팅 클라우드 마이그레이션 애플리케이션 마이그레이션 데이터 마이그레이션 HELPING YOU ADOPT CLOUD. 클라우드로 가기로 결정했다면 누구와 함께 갈지를 선택해야 합니다. 처음부터 끝까지 믿을만한 파트너를 찾는다면 베스핀글로벌이 정답입니다. 전략 컨설팅 다양한 클라우드 공급자가 존재하고, 클라우드 공급자마다 다른 장단점을
More informationMicrosoft PowerPoint - 10Àå.ppt
10 장. DB 서버구축및운영 DBMS 의개념과용어를익힌다. 간단한 SQL 문법을학습한다. MySQL 서버를설치 / 운영한다. 관련용어 데이터 : 자료 테이블 : 데이터를표형식으로표현 레코드 : 테이블의행 필드또는컬럼 : 테이블의열 필드명 : 각필드의이름 데이터타입 : 각필드에입력할값의형식 학번이름주소연락처 관련용어 DB : 테이블의집합 DBMS : DB 들을관리하는소프트웨어
More informationOZ-LMS TM OZ-LMS 2008 OZ-LMS 2006 OZ-LMS Lite Best IT Serviece Provider OZNET KOREA Management Philosophy & Vision Introduction OZNETKOREA IT Mission Core Values KH IT ERP Web Solution IT SW 2000 4 3 508-2
More information비식별화 기술 활용 안내서-최종수정.indd
빅데이터 활용을 위한 빅데이터 담당자들이 실무에 활용 할 수 있도록 비식별화 기술과 활용방법, 실무 사례 및 예제, 분야별 참고 법령 및 활용 Q&A 등 안내 개인정보 비식별화 기술 활용 안내서 Ver 1.0 작성 및 문의 미래창조과학부 : 양현철 사무관 / 김자영 주무관 한국정보화진흥원 : 김진철 수석 / 김배현 수석 / 신신애 부장 문의 : cckim@nia.or.kr
More informationIT & Future Strategy 보고서 는 21세기 한국사회의 주요 패러다임 변화를 분석하고 이를 토대로 미래 초연결 사회의 주요 이슈를 전망, IT를 통한 해결 방안을 모색하기 위해 한국정보화진흥원 (NIA) 에서 기획, 발간하는 보고서입니 다. NIA 의 승인
모두를 위한 미래, 행복하고 안전한 초연결 사회 IT & Future Strategy 초연결 사회를 견인할 데이터화 전략 (Datafication) 제1 호(2015. 3. 20.) 목 차 Ⅰ. 초연결 사회 도래와 부상 / 1 Ⅱ. 데이터 분류 및 주요 내용 / 9 Ⅲ. 데이터 인프라 구축 방안 / 19 Ⅳ. 데이터 활용 방안 및 이슈 / 26 IT & Future
More informationSemantic Search and Data Interoperability for GeoWeb
빅데이터 비즈니스 전략 세미나 비정형 빅데이터의 가치와 서비스 활용 방안 2012.10.31 최광선 본부장 솔트룩스 전략사업본부 목차 비정형 빅데이터의 거버넌스 비정형 빅데이터 분석 사례 비정형 빅데이터 분석 방법 소셜 빅데이터 분석의 어려움 활용 서비스 소개 2 비정형 빅데이터의 거버넌스 3 데이터 IDC s Digital Universe Study, sponsored
More information1 전통 소프트웨어 가. ERP 시장 ERP 업계, 클라우드 기반 서비스로 새로운 활력 모색 - SAP-LGCNS : SAP HANA 클라우드(SAP HEC)를 통해 국내 사례 확보 및 아태 지역 진 출 추진 - 영림원 : 아시아 클라우드 ERP 시장 공략 추진 - 더
02 소프트웨어 산업 동향 1. 전통 소프트웨어 2. 新 소프트웨어 3. 인터넷 서비스 4. 디지털콘텐츠 5. 정보보안 6. 기업 비즈니스 동향 1 전통 소프트웨어 가. ERP 시장 ERP 업계, 클라우드 기반 서비스로 새로운 활력 모색 - SAP-LGCNS : SAP HANA 클라우드(SAP HEC)를 통해 국내 사례 확보 및 아태 지역 진 출 추진 - 영림원
More information선진사례집(0529)
Contents Contents 1 8 9 10 2 11 선진사례집(0529) 2012.5.29 13:30 페이지12 MAC-3 추진내용 GPS로부터 자동차의 주행 스피드를 계산하여 교통 정보 수집 일본 노무라연구소는 스마트폰형 내비게이션 서비스인 전력안내!내비 를 활용하여 2011년 일본 대지진시 도로교통 체증 피해 최소화 - 교통 체증 감소 효과 및
More informationPowerPoint Template
Market & Issue 분석 Report 2012. 7. 17 [ 빅데이터처리기술현황및전망 ] 차세대방송 모바일미래인터넷융합기술정보보호전파위성방송통신시장방송통신정책 본보고서의내용은집필자개인의견해로서한국방송통신전파진흥원의공식입장과는무관합니다. I. 개요 빅데이터 (Big Data) 는기존데이터베이스관리도구의데이터수집, 관리, 분석역량을넘어서는대량의데이터셋
More informationgcp
Google Cloud Platform GCP MIGRATION MANAGED SERVICE FOR GCP 베스핀글로벌 S GCP OFFERING 베스핀글로벌과 Google Cloud Platform이 여러분의 비즈니스에 클라우드 날개를 달아드립니다. GCP에 전문성을 갖춘 베스핀글로벌의 클라우드 전문가들이 다양한 산업 영역에서의 구축 경험과 노하우를 바탕으로
More informationAgenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud
오픈소스 기반 레드햇 클라우드 기술 Red Hat, Inc. Senior Solution Architect 최원영 부장 wchoi@redhat.com Agenda 오픈소스 트렌드 전망 Red Hat Enterprise Virtualization Red Hat Enterprise Linux OpenStack Platform Open Hybrid Cloud Red
More informationPowerPoint 프레젠테이션
Mining on Hadoop!! ankus 제품 소개서 어니컴 빅데이터 사업팀 팀장 이성준 (leesj@onycom.com) 2015.12 어니컴 목 차 01. ankus 개요 02. 주요 도입 사례 03. 기업소개 2 1.1 ankus 개요 1. ankus 개요 ankus는 대용량의 빅데이터로부터 데이터 마이닝/기계학습 등의 분석을 손 쉽게 수행할 수 있는
More information회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제
회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제 KR000****4 설 * 환 KR000****4 송 * 애 김 * 수 KR000****4
More information미디어 및 엔터테인먼트 업계를 위한 Adobe Experience Manager Mobile
Adobe Experience Manager Mobile 앱 제작을 넘어 고객, 파트너 및 직원과의 유대 관계 형성 매년 모바일 디바이스에서 읽고 듣고 교류하는 사람들이 증가하고 있습니다. 미디어 및 엔터테인먼트 조직은 모바일 디바이스를 통해 고객, 직원, 파트너 및 광고주와 직접 교류할 수 있는 새로운 기회를 얻을 수 있는데, 이 기회를 민첩하게 활용하는
More informationOracle Apps Day_SEM
Senior Consultant Application Sales Consulting Oracle Korea - 1. S = (P + R) x E S= P= R= E= Source : Strategy Execution, By Daniel M. Beall 2001 1. Strategy Formulation Sound Flawed Missed Opportunity
More information슬라이드 1
ment Perspective (주)아임굿은 빅데이터 기술력, 반응형웹 제작, 온라인마케팅 노하우를 겸비한 IT 솔루션개발 및 마케팅 전문 기업입니다. 웹 정보를 수집하는 크롟링 시스템과 대량의 데이터를 처리하는 빅데이터 기술을 통해 쉽게 지나칠 수 있는 정보를 좀 더 가치있고 흥미로운 결과물로 변화하여 고객에게 제공하고 있습니다. 또한 최근 관심이 높아지고
More information빅데이터분산컴퓨팅-5-수정
Apache Hive 빅데이터분산컴퓨팅 박영택 Apache Hive 개요 Apache Hive 는 MapReduce 기반의 High-level abstraction HiveQL은 SQL-like 언어를사용 Hadoop 클러스터에서 MapReduce 잡을생성함 Facebook 에서데이터웨어하우스를위해개발되었음 현재는오픈소스인 Apache 프로젝트 Hive 유저를위한
More information08SW
www.mke.go.kr + www.keit.re.kr Part.08 654 662 709 731 753 778 01 654 Korea EvaluationInstitute of industrial Technology IT R&D www.mke.go.kr www.keit.re.kr 02 Ministry of Knowledge Economy 655 Domain-Specific
More informationMySQL-.. 1
MySQL- 기초 1 Jinseog Kim Dongguk University jinseog.kim@gmail.com 2017-08-25 Jinseog Kim Dongguk University jinseog.kim@gmail.com MySQL-기초 1 2017-08-25 1 / 18 SQL의 기초 SQL은 아래의 용도로 구성됨 데이터정의 언어(Data definition
More information<4D F736F F D20302EC0CEC6AEB7CE2BC1BEB8F1B8AEBDBAC6AE2BBCBAB0FA BCBAB0FABEF7B5A5C0CCC6AEBFCFB7E1292E646F6378>
글로벌트렌드포트폴리오 채권같은주식 (Bond-like stocks) 리츠 (REITs) 스마트하우징 (Smart housing) 시니어이코노미 (Senior Economy) 뉴노멀소비 (New Consumers) 지속성장 (Continuous growth) 머신러닝 (Machine learning) 자율주행 (Autonomous driving) 만물인터넷 (Internet
More informatione- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network
e 메일 /DB 마케팅 E? E e http://www.hunet.co.kr The World Best Knowledge Providers Network e- 11 (Source: IMT strategy 1999 'PERMISSION email' ) http://www.hunet.co.kr The World Best Knowledge Providers Network
More information?
2015. MAY VOL. 123 IBK Economic Research Institute CONTENTS 2015. May vol.123 M MANAGEMENT LOUNGE 022 024 026 028 E ECONOMY LOUNGE 030 034 036 038 C CEO LOUNGE 044 042 046 BUSINESS MANUAL 014 016 020 B
More informationPowerPoint 프레젠테이션
CRM Fair 2004 Spring Copyright 2004 DaumSoft All rights reserved. INDEX Copyright 2004 DaumSoft All rights reserved. Copyright 2004 DaumSoft All rights reserved. Copyright 2004 DaumSoft All rights reserved.
More information..,. Job Flow,. PC,.., (Drag & Drop),.,. PC,, Windows PC Mac,.,.,. NAS(Network Attached Storage),,,., Amazon Web Services*.,, (redundancy), SSL.,. * A
..,. Job Flow,. PC,.., (Drag & Drop),.,. PC,, Windows PC Mac,.,.,. NAS(Network Attached Storage),,,., Amazon Web Services*.,, (redundancy), SSL.,. * Amazon Web Services, Inc.. ID Microsoft Office 365*
More informationCloud Friendly System Architecture
-Service Clients Administrator 1. -Service 구성도 : ( 좌측참고 ) LB(LoadBlancer) 2. -Service 개요 ucloud Virtual Router F/W Monitoring 개념 특징 적용가능분야 Server, WAS, DB 로구성되어 web service 를클라우드환경에서제공하기위한 service architecture
More information클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)
클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL) 02-570-4352 (e-mail) jjoon75@kisdi.re.kr 1 The Monthly Focus.
More informationITFGc03ÖÁ¾š
Focus Group 2006 AUTUMN Volume. 02 Focus Group 2006 AUTUMN 노랗게 물든 숲 속에 두 갈래 길이 있었습니다. 나는 두 길 모두를 가볼 수 없어 아쉬운 마음으로 그 곳에 서서 한쪽 길이 덤불 속으로 감돌아간 끝까지 한참을 그렇게 바라보았습니다. 그리고 나는 다른 쪽 길을 택했습니다. 그 길에는 풀이 더 무성하고, 사람이
More information이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은
Enterprise Mobility 경영혁신 스마트폰, 웹2.0 그리고 소셜라이프의 전략적 활용에 대하여 Enterpise2.0 Blog : www.kslee.info 1 이경상 모바일생산성추진단 단장/경영공학박사 이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33%
More information지상파(디지털) 방송의 재전송이 큰 목적 중 하나이므로 전세계적으로 IPTV의 보급이 더욱 촉진될 가능성이 높음 단말기 측면 전망 향후에는 거치형 TV만이 아니고 휴대전화, 휴대게임기 등에 대해서도 각종 콘 텐트 전송이 더욱 확대될 것이고 더 나아가 휴대전화 TV 휴대게임기 등 단말기 상호간의 콘텐트 전송이 더욱 증가될 것임 서비스 측면 전망 유저가 편한 시간대에
More information문서의 제목 나눔고딕B, 54pt
실시간데이터수집및처리 Network Computing System Architecture Lab Dongguk University MooSeon Choi 2013.11.07 목차 1. 연구목표 2. 2차발표리뷰 3. 실시간데이터수집및처리 4. 향후연구계획 3 / 14 연구목표 ( 1 세부 데이터페더레이션을위한기술 ) 모바일기반 SNS( 비정형 ) 데이터와기존
More information2 2000. 8. 31
IT update 00 1 / 2000.8.30 IT update Information Technology 2 2000. 8. 31 C o n t e n t s 2000. 8. 31 3 4 2000. 8. 31 2000. 8. 31 5 6 2000. 8. 31 2000. 8. 31 7 8 2000. 8. 31 2000. 8. 31 9 1 0 2000. 8.
More information내지(교사용) 4-6부
Chapter5 140 141 142 143 144 145 146 147 148 01 02 03 04 05 06 07 08 149 활 / 동 / 지 2 01 즐겨 찾는 사이트와 찾는 이유는? 사이트: 이유: 02 아래는 어느 외국계 사이트의 회원가입 화면이다. 국내의 일반적인 회원가입보다 절차가 간소하거나 기입하지 않아도 되는 개인정보 항목이 있다면 무엇인지
More information2017 1
2017 2017 Data Industry White Paper 2017 1 1 1 2 3 Interview 1 4 1 3 2017IT 4 20161 4 2017 4 * 22 2017 4 Cyber Physical SystemsCPS 1 GEGE CPS CPS Industrial internet, IoT GE GE Imagination at Work2012
More information1701_ADOP-소개서_3.3.key
ADOP ALL DISTRIBUTION OPTIMIZATION PLATFORM SINCE 2011 ~ PA RT 0 1 PA RT 02 회사소개 PA RT 03 ADOP 서비스 ADOP SSP (Supply Side Platform) & 솔루션 소개 CONTENTS PA RT 04 성공사례 1 PART 회사소개 WHO WE ARE? ADOP 5. 03. 10.
More informationKCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion
KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion 요약 본연구에서는, 웹문서로부터특정상품에대한의견문장을분석하는오피니언마이닝 (Opinion
More information아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상
Android 용 Brother Image Viewer 설명서 버전 0 KOR 아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상표입니다. Android는
More information빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이
Cover Story 03 28 Oracle Big Data Solution 01_Oracle Big Data Appliance 02_Oracle Big Data Connectors 03_Oracle Exdata In-Memory Database Machine 04_Oracle Endeca Information Discovery 05_Oracle Event
More information월간 SW 산업동향 ( ~ ) Ⅰ. Summary 1 Ⅱ SW 5 2. SW 7 Ⅲ Ⅳ. SW SW Ⅴ : Big Data, 38
월간 SW 산업동향 (2011. 7. 1 ~ 2011. 7. 31) Ⅰ. Summary 1 Ⅱ. 4 1. SW 5 2. SW 7 Ⅲ. 10 1. 11 2. 14 Ⅳ. SW 17 1. 18 2. SW 27 3. 33 Ⅴ. 35 1. : 36 2. Big Data, 38 Ⅵ. SW 41 1. IT 2 42 2. 48 Ⅰ. Summary 2015 / 87 2015
More information....pdf..
Korea Shipping Association 조합 뉴비전 선포 다음은 뉴비전 세부추진계획에 대한 설명이다. 우리 조합은 올해로 창립 46주년을 맞았습니다. 조합은 2004년 이전까 지는 조합운영지침을 마련하여 목표 를 세우고 전략적으로 추진해왔습니 다만 지난 2005년부터 조합원을 행복하게 하는 가치창출로 해운의 미래를 열어 가자 라는 미션아래 BEST
More information슬라이드 1
Data Warehouse 통합솔루션 회사연혁 Teradata Corporation (NYSE: TDC) 은 30 년이상업계를선도하며, 전세계적으로 Big Data 및데이터웨어하우스관련 Analytic 솔루션과컨설팅서비스를제공하는최고의기술을보유한 Global 기업 Teradata 본사 한국 Teradata 미국오하이오주 Dayton에세계최초의금전등록기제조사
More informationHTML5가 웹 환경에 미치는 영향 고 있어 웹 플랫폼 환경과는 차이가 있다. HTML5는 기존 HTML 기반 웹 브라우저와의 호환성을 유지하면서도, 구조적인 마크업(mark-up) 및 편리한 웹 폼(web form) 기능을 제공하고, 리치웹 애플리케이 션(RIA)을
동 향 제 23 권 5호 통권 504호 HTML5가 웹 환경에 미치는 영향 이 은 민 * 16) 1. 개 요 구글(Google)은 2010년 5월 구글 I/O 개발자 컨퍼런스에서 HTML5를 통해 플러 그인의 사용이 줄어들고 프로그램 다운로드 및 설치가 필요 없는 브라우저 기반 웹 플랫폼 환경이 점차 구현되고 있다고 강조했다. 그리고 애플(Apple)은 2010년
More informationBigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc
Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researcht 社 가 2015년 대륙별 표본을 추출한 글로벌 546개사를 대상으로 리서치를 수행하여
More information