[ 2014 Capstone Design2 ] 지도교수 Twitter 분석시스템 < 졸업작품계획서 > 컴퓨터공학부 지도교수 민덕기교수님 T 박미관 김의명 제출일자

Similar documents
2014 학년도종합설계 운영계획서 ( 스마트폰기반의나만의검색엔진 ) 성명학번 연락처 하희진 김태훈 담당교

목 차 1. 프로젝트개요 3 (1) 개발동기 (2) 개발목표 (3) 시장현황 (4) 기술동향 팀구성및역할 6 (1) 팀원소개 (2) 팀원역할 프로젝트설명 7 (1) 핵심기능 (2) 세부기능 (3) 시나리오 (4) 시스템환경 (5) 개발환

Windows 8에서 BioStar 1 설치하기

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

Microsoft Word - th1_Big Data 시대의 기술_ _조성우

문서의 제목 나눔고딕B, 54pt

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

DB진흥원 BIG DATA 전문가로 가는 길 발표자료.pptx

PowerPoint Presentation

<4D F736F F D204954B1E2C8B9BDC3B8AEC1EE2DB1E8C1A4C1D8>

항목

3월2일자.hwp

Cover Story 빅데이터플랫폼 Big Data 시대의엔터프라이즈인프라스트럭처 ORACLE KOREA MAGAZINE Spring 개요빅데이터를처리하는기술의가장중심기술은아파치하둡기술일것이다. 하둡기술은데이터를취득하고이를구조화시키고분석을하는일련의과정에

빅데이터_DAY key

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관


슬라이드 1

빅데이터처리의핵심인 Hadoop 을오라클은어떻게지원하나요? Oracle Big Data Appliance Solution 01 빅데이터처리를위한전문솔루션이 Oracle Big Data Appliance 군요. Oracle Big Data Appliance 와함께라면더이

< B1E8C7F6C1D65FC7CFB5D3B1E2B9DDBAF2B5A5C0CCC5CDB1E2B9FDB8A6C0CCBFEBC7D128BCF6C1A4292E687770>

PowerPoint Template

PowerPoint 프레젠테이션

들어가는글 2012년 IT 분야에서최고의관심사는아마도빅데이터일것이다. 관계형데이터진영을대표하는오라클은 2011년 10월개최된 오라클오픈월드 2011 에서오라클빅데이터어플라이언스 (Oracle Big Data Appliance, 이하 BDA) 를출시한다고발표하였다. 이와

Microsoft PowerPoint Android-SDK설치.HelloAndroid(1.0h).pptx

<30392DB5A5C0CCC5CDBAA3C0CCBDBA20B9D720C0CEC5CDB3DDC0C0BFEB2DC1A4C8B8B0E62E687770>

Cloud Friendly System Architecture

Microsoft PowerPoint 자동설치시스템검증-V05-Baul.pptx

[Brochure] KOR_TunA

Microsoft Word - 김완석.doc

리한다. 그리고오픈소스이기때문에소규모회사및단체에서도무료로사용할수있으며디버깅, 모니터링을위한환경도제공한다. 본보고서에서는 Hadoop의설치를다루었던이전 TR [1] 에이어가상분산처리환경이아닌실제완전분산처리환경을구축하는방법에대해알아본다. 본보고서에서완전분산처리환경을구축하기

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

Microsoft PowerPoint - chap01-C언어개요.pptx

DBMS & SQL Server Installation Database Laboratory

4S 1차년도 평가 발표자료

Office Office Office 365,,,,,. Microsoft Microsoft

Microsoft Word - 엄정호

품질검증분야 Stack 통합 Test 결과보고서 [ The Bug Genie ]

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

<30302DB8F1C2F7BFDC2E687770>

Web Scraper in 30 Minutes 강철

1. 자바프로그램기초 및개발환경 2 장 & 3 장. 자바개발도구 충남대학교 컴퓨터공학과

ODS-FM1

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

PowerPoint 프레젠테이션

을풀면된다. 2. JDK 설치 JDK 는 Sun Developer Network 의 Java( 혹은 에서 Download > JavaSE 에서 JDK 6 Update xx 를선택하면설치파일을

PowerPoint 프레젠테이션

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

Office 365, FastTrack 4 FastTrack. Tony Striefel FastTrack FastTrack

Microsoft PowerPoint SDK설치.HelloAndroid(1.5h).pptx

슬라이드 1

JVM 메모리구조

통신회사에서가장중요한데이터자원이라고하면뭐니뭐니해도고객들의통화기록이라할수있다. 이를 Call Detail Record(CDR) 라고하며, 고객들이유선전화나휴대폰을사용하여통화할때마다통화위치, 통화대상, 통화시간등이로그데이터로기록된다. 매통화마다기록되므로 1일발생량은수억건에

DKE Templete

スライド タイトルなし

비식별화 기술 활용 안내서-최종수정.indd

PowerPoint 프레젠테이션

쉽게 풀어쓴 C 프로그래밊

Egretia_White_Paper_KR_V1.1.pages

초보자를 위한 C++

A SQL Server 2012 설치 A.1 소개 Relational DataBase Management System SQL Server 2012는마이크로소프트사에서제공하는 RDBMS 다. 마이크로소프트사는스탠다드 standard 버전이상의상업용에디션과익스프레스 exp

Portal_9iAS.ppt [읽기 전용]

웹사이트 운영, 이보다 쉬울 수 없다! Microsoft Azure를 이용한 웹사이트 구축

Microsoft Word - windows server 2003 수동설치_non pro support_.doc

< FC1A6BEC8BFE4C3BBBCAD2E687770>

Spotlight on Oracle V10.x 트라이얼프로그램설치가이드 DELL SOFTWARE KOREA

PowerPoint 프레젠테이션

백봉현, 하일규, 안병철 Bong-Hyun Back, Ilkyu Ha, ByoungChul Ahn 1. 서론 최근들어소셜네트워크활성화로 에서발생하는대량의데이터 로부터정보를추출하여이를정치 경제 개인서비 스 연애등다양한분야에활용하고자하는노력이 계속되고있다 상의데이터를빠르게

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

J2EE & Web Services iSeminar

1.장인석-ITIL 소개.ppt

1. 기술배경 NFV는 Consortium of Service Provider들에의해서만들어졌다. 현재 Network Operation은규모가큰전용 Hardware appliances가계속해서증가하고있다. 새로운 Network Service를 Launching할때마다에

진정한토종벤처를꿈꾸는기업 저희시큐레이어는최근사회적화두로부각되고있는빅데이터를기반으로한통합로그수집 / 분석및통합보안관제분야에순수국산기술적자립으로외산과당당히겨루는소프트웨어를만들자는이념의전문소프트웨어기업입니다. 이러한이념을달성하기위한치열한열정과노력으로주요시장에서긍정적으로 평가

1. Windows 설치 (Client 설치 ) 원하는위치에다운받은발송클라이언트압축파일을해제합니다. Step 2. /conf/config.xml 파일수정 conf 폴더에서 config.xml 파일을텍스트에디터를이용하여 Open 합니다. config.xml 파일에서, 아

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

컴퓨터과학과 교육목표 컴퓨터과학과의 컴퓨터과학 프로그램은 해당분야 에서 학문적 기술을 창의적으로 연구하고 산업적 기술을 주도적으로 개발하는 우수한 인력을 양성 함과 동시에 직업적 도덕적 책임의식을 갖는 IT인 육성을 교육목표로 한다. 1. 전공 기본 지식을 체계적으로

2009방송통신산업동향.hwp

네이버블로그 :: 포스트내용 Print VMw are 에서 Linux 설치하기 (Centos 6.3, 리눅스 ) Linux 2013/02/23 22:52 /carrena/ VMware 에서 l

ZConverter Standard Proposal

Contents SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM FIP 13 FIP

SEOUL NATIONAL UNIVERSITY FUTURE INTEGRATED-TECHNOLOGY PROGRAM 13 : (IoT), 4.0,,,,,, CEO. 13 : ( ) ~ 11 1 ( ) : 310

메일서버등록제(SPF) 인증기능적용안내서 (Exchange Windows 2000) OS Mail Server SPF 적용모듈 작성기준 Windows Server 2000 Exchange Server 2003 GFI MailEssentials 14 for

[한반도]한국의 ICT 현주소(송부)

슬라이드 1

슬라이드 1

Hallym Communication Policy Research Center 15 빅데이터기술은대용량의데이터를다룰때, 여러과정을거치게되는데, 데이터수집및데이터전처리, 저장, 분석, 활용 ( 시각화 ) 까지의과정을 거치게되며각과정별로핵심기술이존재한다. 빅데이터기술은대용

위세아이텍_iOLAP_

DBPIA-NURIMEDIA

빅데이터분산컴퓨팅-5-수정

김기남_ATDC2016_160620_[키노트].key

Visual Studio online Limited preview 간략하게살펴보기

졸업작품중간보고서 - 구글 MapReduce 를이용한클라우드컴퓨팅 조중연 서종덕 지도교수님진현욱교수님 ( 인 )

Windows 10 General Announcement v1.0-KO

슬라이드 1

Integ

untitled

PowerPoint Presentation

Art & Technology #5: 3D 프린팅 - Art World | 현대자동차

슬라이드 1

Chapter 1

Windows Live Hotmail Custom Domains Korea

SAS9.2_SAS_Enterprise_Miner_install_guide_single_user_v2

Transcription:

[ 2014 Capstone Design2 ] 지도교수 Twitter 분석시스템 < 졸업작품계획서 > 컴퓨터공학부 지도교수 민덕기교수님 T22 200911388 박미관 200911378 김의명 제출일자 2014.06.12-1 -

목 차 1. 프로젝트개요 3 1) 개발동기 2) 개발목표 3) 시장현황 4) 기술동향 3 3 4 5 2. 팀구성및소개 10 1) 담당자 2) 팀구성 3) 팀원소개 10 10 10 3. 프로젝트설명 11 1) 시스템구조 2) 기능 3) 개발환경 11 11 14 4. 프로젝트일정 15 5. 제출문서 16 6. 참고문헌및사이트 16-2 -

1. 프로젝트개요 1) 개발동기 소셜미디어와스마트기기의대중화가이끈빅데이터에대한관심이나날이높아지고있다. 데이터의종류와양이급증하면서기업은이데이터를잘활용해새로운기업가치를창출하기위한노력에서두르고있다. 이런빅데이터의활용가치를향상시키려는다양한방안들이모색되고있는가운데, 오픈소스인하둡생태계를활용해트위터전반에걸친분석정보를서비스형태로제공하고자한다. 2) 개발목표 트위터상의메시지를데이터마이닝후, 의미있는정보를시각화해주는시스템개발 - 3 -

3) 시장현황 1 빅데이터시장현황 5 년이내에데이터의폭발적증가로빅데이터시대로의진입 SNS, 모바일서비스, IoT 서비스등의발전과기존에무심코버려졌던수많은데이터들의 재활용으로인한데이터의폭발적인증가 빅데이터로부터가치있는정보를추출할수있는신기술을이용하여사업화에성공한 일부기업들의출현으로인한빅데이터의경제적가치입증 사람들의빅데이터에대한관심이급증하게되고기업들의빅데이터분석에대한투자가 활발히이루어지는본격적인빅데이터시대진입 - 4 -

4) 기술동향 1 빅데이터기술정의 빅데이터 ( 영어 : big data) 란기존데이터베이스관리도구로데이터를수집, 저장, 관리, 분석할수있는역량을넘어서는대량의정형또는비정형데이터집합및이러한데이터로부터가치를추출하고결과를분석하는기술을의미한다. 다양한종류의대규모데이터에대한생성, 수집, 분석, 표현을그특징으로하는빅데이터기술의발전은다변화된현대사회를더욱정확하게예측하여효율적으로작동케하고개인화된현대사회구성원마다맞춤형정보를제공, 관리, 분석가능케하며과거에는불가능했던기술을실현시키기도한다. 이같이빅데이터는정치, 사회, 경제, 문화, 과학기술등전영역에걸쳐서사회와인류에게가치있는정보를제공할수있는가능성을제시하며그중요성이부각되고있다. 하지만빅데이터의문제점은바로사생활침해와보안측면에자리하고있다. 빅데이터는수많은개인들의수많은정보의집합이다. 그렇기에빅데이터를수집, 분석할때에개인들의사적인정보까지수집하여관리하는빅브라더의모습이될수도있는것이다. 그리고그렇게모은데이터가보안문제로유출된다면, 이역시거의모든사람들의정보가유출되는것이기에큰문제가될수있다. 세계경제포럼은 2012년떠오르는 10대기술중그첫번째를빅데이터기술로선정했으며대한민국지식경제부 R&D 전략기획단은 IT 10대핵심기술가운데하나로빅데이터를선정하는등최근세계는빅데이터를주목하고있다. 데이터형식이다양하고생성속도가매우빨라새로운관리, 분석방법이필요한대용량 데이터 ( 국가정보화빅데이터마스터플랜, 2012) 대용량데이터를활용 / 분석하여가치있는정보를추출하고생성된지식을바탕으로 능동적으로대응하거나변화를예측하기위한정보화기술 ( 국가정보화빅데이터 마스터플랜, 2012) - 5 -

2 빅데이터기술동향 ( 기술 ) 2012 년 Gartner 10 대기술에빅데이터관련하여문맥과소셜 UX, 차세대분석기술, 빅데이터, 인메모리컴퓨팅, 클라우드프로그래밍기술이포함됨 ( 전략 ) 미국대통령과학기술자문위는 Designing a Digital Future 보고서 에서모든미국 연방정부기관은빅데이터전략을수립해야함을강조 ( 산업 ) Economist 는 3 대 IT 성장동력중의하나로빅데이터를제시함 ( 빅데이터 ) 빅데이터분야선두주자인 Google, Oracle, IBM, HP, Teradata, Amazon 등은 빅데이터처리기술을확보하여빅데이터기반서비스를활발하게제공하고있는반면, 국내기업은시작단계에머물러있음 국내빅데이터기술은구글, 오라클, IBM 등글로벌기업대비 2~6 년의기술격차가있는 것으로추정됨 ( 출처 : 국가정보화빅데이터마스터플랜 ) 선진국과의기술격차축소및국내기업의기술경쟁력확보를위하여빅데이터수집, 전처리, 저장, 관리, 분석등에필요한기반기술개발추진중임 기존빅데이터기술개발과제는일반적인빅데이터처리기술개발또는공간정보관련단편적인빅데이터처리기술을개발하는과제로서, 대용량의공간정보를효율적으로처리, 저장및관리, 분석하고서비스단계에서필요한기반기술을확보하기에는어려움이있음 - 6 -

3 웹크롤러 웹크롤러 (web crawler) 는조직적, 자동화된방법으로월드와이드웹을탐색하는컴퓨터 프로그램이다. 웹크롤러에대한다른용어로는앤트 (ants), 자동인덱서 (automatic indexers), 봇 (bots), 웜 (worms), 웹스파이더 (web spider), 웹로봇 (web robot) 등이있다. 웹크롤러가하는작업을웹크롤링 (web crawling) 혹은스파이더링 (spidering) 이라부른다. 검색엔진과같은여러사이트에서는데이터의최신상태유지를위해웹크롤링한다. 웹크롤러는대체로방문한사이트의모든페이지의복사본을생성하는데사용되며, 검색엔진은이렇게생성된페이지를보다빠른검색을위해인덱싱한다. 또한크롤러는링크체크나 HTML 코드검증과같은웹사이트의자동유지관리작업을위해사용되기도하며, 자동이메일수집과같은웹페이지의특정형태의정보를수집하는데도사용된다. 웹크롤러는봇이나소프트웨어에이전트의한형태이다. 웹크롤러는대개 시드 (seeds) 라고불리는 URL 리스트에서부터시작하는데, 페이지의모든하이퍼링크를 인식하여 URL 리스트를갱신한다. 갱신된 URL 리스트는재귀적으로다시방문한다. 4 분산컴퓨팅 분산컴퓨팅 (Distributed computing) 은인터넷에연결된여러컴퓨터들의처리능력을 이용하여거대한계산문제를해결하려는분산처리모델이다. 유휴개인용컴퓨터의프로세싱자원을활용하려는생각은 1970년대초인터넷의효시로도불리는 ARPANET이처음등장할때나타났다. Creeper와 Reaper 같은몇몇프로그램들이출현했으며, 인터넷의대중화로 1997년에 RSA Data Security사가 Distributed.net 프로젝트를시작하여약 30만명의이용자가참여하였으며 DES 64 비트암호를해독하였다. 해외의분산컴퓨팅프로젝트동향을살펴보면미국을중심으로영국, 독일등유럽등 여러곳에서분산컴퓨팅에의한프로젝트에관심을보이고있고, 바이오분야, 기상, 인공지능, 수학, 암호학등다양한응용분야에대한프로젝트가진행되고있다. - 7 -

5 하둡 아파치하둡 (Apache Hadoop, High-Availability Distributed Object-Oriented Platform) 은대량의자료를처리할수있는큰컴퓨터클러스터에서동작하는분산응용프로그램을지원하는프리웨어자바소프트웨어프레임워크이다. 원래너치의분산처리를지원하기위해개발된것으로, 아파치루씬의하부프로젝트이다. 분산처리시스템인구글파일시스템을대체할수있는하둡분산파일시스템 (HDFS: Hadoop Distributed File System) 과맵리듀스를구현한것이다. 하둡은 2005년더그커팅과마이크캐퍼렐라 (Mike Cafarella) 가개발하였다. 당시커팅은야후에서일하고있었으며, 이후하둡은아파치 (Apache) 재단으로넘어가공개소프트웨어로개발되고있다. 하둡은구글의분산파일시스템 (GFS) 논문이공개된후, 그구조에대응하는체계로개발되었다. 하둡의로고는노랑색아기코끼리로표시한다. 이는하둡의개발자인더그커팅이자신의아이가가지고놀던장난감코끼리의이름을따서하둡이라는이름을지었기때문이다. 코끼리는빅데이터 (Big Data) 를상징하는동물이다. 2011년오픈소스아파치하둡 (Apache Hadoop) 사업을위해야후에서분사한기업의이름을지을때도, 코끼리가주인공인동화에나오는코끼리이름인호튼 (Horton) 을따와서호튼웍스 (Hortonworks) 라고회사명을지었다. 하둡은하둡공통패키지로구성되어있다. 이패키지에는하둡파일시스템 (HDFS), OS 수준앱스트랙션 (OS level abstractions) 그리고맵리듀스 (MapReduce) 엔진이포함되어있다. 또한필요한자바아카이브파일 (Java ARchive, JAR) 들과하둡을시작할스크립트, 소스코드들과관련자료들로구성되어있다. 작은하둡클러스터에는하나의마스터와여러워커노드들로구성되어있다. 마스터노드들은잡트렉커 (JobTracker), 테스크트렉커 (TaskTracker), 네임노드 (NameNode), 데이터노드 (DataNode) 로구성된다. 슬레이브또는워커노드 (Worker Node) 는데이터노드와테스크트렉커로서동작을한다. 하둡은자바런타임환경 (Java Runtime Environment, JRE) 1.6 또는그보다높은버전이필요하다. 일반시작및종료를위한스크립트는클러스터의노드들간설정을하기위해시큐어셸 (Secure Shell, ssh) 이필요하다. 대용량하둡클러스터에는 HDFS가파일시스템인덱스를관장하기위한네임노드전담서버를통해관리된다. 그리고 2차네임노드는네임노드의메모리구조스냅샷을만들어서파일시스템에장애나데이터의손실을줄여준다. 단독쟙트렉커서버는작업스케쥴링을관리한다. 하둡분산파일시스템 (HDFS, Hadoop distributed file system) 은하둡프레임워크를위해자바언어로작성된분산확장파일시스템이다. HDFS은여러기계에대용량파일들을을나눠서저장을한다. 데이터들을여러서버에중복해서저장을함으로써데이터안정성을얻는다. 따라서호스트에 RAID 저장장치를사용하지않아도된다. 하둡분산파일시스템은다음과같은시스템에서잘동작하는것을목표로하고있다. 하드웨어오동작 : 하드웨어수가많아지면그중에일부하드웨어가오동작하는것은예외상황이아니라항상발생하는일이다. 따라서이런상황에서빨리자동으로복구하는것은 HDFS의중요한목표다. 스트리밍자료접근 : 범용파일시스템과달리반응속도보다는시간당처리량에최적화되어있다. 큰자료집합 : 한파일이기가바이트나테라바이트정도의크기를갖는것을목적으로설계되었다. 자료대역폭총량이높고, 하나의클러스터에수백개의노드를둘수있다. 하나의인스턴스에서수천만여파일을 - 8 -

지원한다. 간단한결합모델 : 한번쓰고여러번읽는모델에적합한구조이다. 파일이한번작성되고닫히면바뀔필요가없는경우를위한것이다. 이렇게함으로써처리량을극대화할수있다. 자료를옮기는것보다계산작업을옮기는것이비용이적게든다 : 자료를많이옮기면대역폭이많이들기때문에네트워크혼잡으로인하여전체처리량이감소한다. 가까운곳에있는자료를처리하게계산작업을옮기면전체적인처리량이더높아진다. 다른종류의하드웨어와소프트웨어플랫폼과의호환성 : 서로다른하드웨어와소프트웨어플랫폼들을묶어놓아도잘동작한다. HDFS는마스터 / 슬레이브 (master/slave) 구조를가진다. HDFS 클러스터는하나의네임노드와, 파일시스템을관리하고클라이언트의접근을통제하는마스터서버로구성된다. 게다가클러스터의각노드에는데이터노드가하나씩존재하고, 이데이터노드는실행될때마다노드에추가되는스토리지를관리한다. HDFS는네임스페이스를공개하여서유저데이터가파일에저장되는것을허락한다. 내부적으로하나의파일은하나이상의블록으로나뉘어있고, 이블록들은데이터노드들에저장되어있다. 네임노드는파일과디렉터리의읽기 (open), 닫기 (close), 이름바꾸기 (rename) 등, 파일시스템의네임스페이스의여러기능을수행한다. 또한, 데이터노드와블록들의맵핑을결정한다. 데이터노드는파일시스템의클라이언트가요구하는읽기 (read), 쓰기 (write) 기능들을담당한다. 또한데이터노드는네임노드에서의생성, 삭제, 복제등과같은기능도수행한다. 네임노드와데이터노드는 GNU/Linux OS를기반으로하는상용머신에서실행하기위해디자인된소프트웨어의일부이다. HDFS는자바언어를사용하므로자바가동작하는어떠한컴퓨터에서나네임노드나데이터노드소프트웨어를실행할수있다. - 9 -

2. 팀구성및소개 (1) 담당자 1 담당교수 : 유준범소속 : 건국대학교컴퓨터공학부수행업무 : 종합설계 2 ( 졸업작품진행및관리 ) 2 지도교수 : 민덕기소속 : 건국대학교컴퓨터공학부수행업무 : 졸업작품지도및관리 (2) 팀구성 구분이름역할 Team Leader 박미관 - Schedule Management - Document Management - Development Team Member 김의명 - Testing - Development (3) 팀원소개 학년학번이름관심분야연락처이메일 4 200911388 박미관 - Big Data - Business 010-6201-3745 pmk3745 @ gmail.com 4 200911378 김의명 - Database - Finance 010-9960-2999 dmlaud1 @ naver.com - 10 -

3. 프로젝트설명 (1) 시스템구조 (2) 기능 1 오피니언마이닝 입력한이슈에대한트위터이용자들의의견을오피니언마이닝 (Opinion Mining) 을통해 분석하여, 정보를시각화하는기능을제공 - 11 -

사용자들의의견에대한자세한정보제공 같은의견을가진사용자들을군집알고리즘등을이용하여분류후, 사용자들간의 관계를분석하는기능을제공 같은의견을가진사용자들이관심을가지는다른이슈에대한정보제공 - 12 -

2 사용자분석 해당 ID 를가진사용자의관심정보및활동내용을분석하여성향을파악하는기능제공 3 분석정보저장 분석결과를엑셀 or 텍스트파일에저장하는기능을제공 4 하둡과머하웃을이용하여분산처리를수행하는기능을제공 - 하둡과머하웃을통한맵리듀스 (Map Reduce), 협업필터링, 군집, 분류등의기능을 이용하여대용량데이터를분산처리한다. - 13 -

(3) 개발환경 구분박미관김의명 OS (Virtual Box) Windows 7 64bit (Ubuntu Linux) Windows 7 64bit (Ubuntu Linux) CPU Inter(R) Core(TM) i5-3317u CPU @ 1.70GHz Inter(R) Core(R) CPU M 530 @ 2.40GHz Memory 8.00 GB 3.00 GB Development Method Agile Software Development Language Java, SQL Tool & Environment - Eclipse IDE for Java EE Developers - Hadoop Framework - Twitter4J, Mahout Libraries - Oracle Database Express Edition 11g release 2 - SVN, Check Style - 14 -

4. 프로젝트일정 구분 5 6 7 8 9 10 11 Project Plan Requirement Analysis Design Interim Report Development Testing Final Report - 15 -

5. 제출문서 구분문서명수량 졸업작품계획서 [2014 CD2] T22 졸업작품계획서.pdf 1 졸업작품계획검토확인서 [2014 CD2] T22 졸업작품계획검토확인서.jpg 1 6. 참고문헌및사이트 - http://ko.wikipedia.org/wiki/%eb%b6%84%ec%82%b0_%ec%bb%b4%ed%93%a8%ed%8c%85 - http://ko.wikipedia.org/wiki/%ec%9b%b9_%ed%81%ac%eb%a1%a4%eb%9f%ac - http://ko.wikipedia.org/wiki/%ed%95%98%eb%91%a1 - http://ko.wikipedia.org/wiki/%eb%b9%85_%eb%8d%b0%ec%9d%b4%ed%84%b0-16 -