빅데이터솔루션 T E X TO M Version.0 MANUAL
CONTENTS Ⅰ Ⅱ Ⅲ Ⅳ 수집하기 데이터전처리 수집중수집완료정제 / 형태소분석 분석리스트 텍스트마이닝감성분석매트릭스 시각화 시각화결과커스터마이징 p. 04 p. 09 p. p. 9 Ⅴ 데이터용량추가 p. 4
Ⅰ 수집하기 포털 /SNS 뉴스보유데이터요청채널
Ⅰ 수집하기 포털 /SNS 웹상의데이터를수집합니다. 키워드 입력된키워드로검색한결과가수집됩니다. 수집할채널에미리해당키워드를검색해원하는수집데이터가맞는지확인할수있습니다. * 키워드추가 - 다른키워드로동일한설정 ( 기간, 수집단위, 채널등 ) 의수집을진행합니다. * 요약수집 검색결과문서에서제목과본문에서키워드를포함하는 ~ 문장을수집합니다. * 전체수집 - 검색결과문서의제목과본문내용전체를수집합니다. 전체수집은페이지전체를수집하므로본문내용과관련없는광고글도함께수집합니다. 평균적으로전체수집은문서 건당 KB, 요약수집은 400Byte 가소진됩니다. 기간 데이터가생성된기간을설정합니다. 네이버학술정보전체 / 다음웹문서 / 유튜브 / 트위터 / 페이스북 / 바이두는기간이적용되지않습니다. 채널명학술정보전체다음-웹문서유튜브트위터페이스북바이두 수집기간및량수집일기준최신문서최대,000건수집일기준최신문서최대,000건수집일기준최신문서최대,000건검색결과에반영되는문서최대 0,000건검색결과에반영되는문서최대 00건수집일기준최신문서최대,000건 04
Ⅰ 수집하기 포털 /SNS 웹상의데이터를수집합니다. 4 수집단위 사용안함 검색결과의상위부터최대,000 건까지수집합니다. 사용 설정한기간단위로나눠서검색결과의상위부터최대,000 건까지수집하며, 기간을설정한단위로분할한수만큼수집리스트가생성됩니다. 예시 ) 기간 : 07 년 월 일 ~ 08 년 0 월 0 일으로설정했을때 일단위 (4일) 주단위 (0주) 월단위 (달) 년단위 (년) 채널 ( 섹션 ) 별로최대 4,000건의문서수집, 4개의수집리스트생성채널 ( 섹션 ) 별로최대 0,000건의문서수집, 0개의수집리스트생성채널 ( 섹션 ) 별로최대,000건의문서수집, 개의수집리스트생성채널 ( 섹션 ) 별로최대,000건의문서수집, 개의수집리스트생성 4 채널 수집채널및섹션을선택해주세요. 채널별로수집하는데이터의내용에차이가있습니다. 채널별수집데이터내용은 채널별수집정보 를통해확인하실수있습니다. 연산자, 기간, 수집단위가적용되지않는채널및섹션이있으므로수집전에한번더체크해주세요. 설정이끝나면수집리스트생성 버튼을클릭합니다. 클릭과동시에데이터수집이시작됩니다. 수집에소요되는시간은평균 0 분내외이지만데이터양, 이용자수에따라차이가있을수있습니다. 05
Ⅰ 수집하기 뉴스언론사데이터를수집합니다. 키워드 키워드 입력된키워드로검색한결과가수집됩니다. 수집할뉴스채널에미리해당키워드를검색해원하는수집데이터가맞는지확인할수있습니다. * 키워드추가 - 다른키워드로동일한설정 ( 기간, 수집단위, 채널등 ) 의수집을진행합니다. 뉴스채널은전체수집만가능합니다. ( 요약수집불가 ) 기간 데이터가생성된기간을설정합니다. 기간설정은최대 개월까지가능합니다. 채널 수집채널을선택합니다. 뉴스채널은공통적으로제목, 본문, URL, 날짜정보를수집합니다. 설정이끝나면수집리스트생성 버튼을클릭합니다. 클릭과동시에데이터수집이시작됩니다. 수집에소요되는시간은평균 0 분내외이지만데이터양, 이용자수에따라차이가있을수있습니다. 06
Ⅰ 수집하기 보유데이터보유하고있는데이터를분석합니다. 데이터업로드 보유데이터를업로드합니다. 적용가능한파일확장자 : txt, pdf, xls, xlsx 컬럼지정 파일확장자가 xls, xlsx 인데이터인경우에분석하고자하는텍스트의열을선택합니다. 복수선택이가능하며보기에원하는열이없을경우에는직접지정합니다. 직접지정할경우복수의열은쉼표로구분합니다. 예 ) G, H 설정이끝나면수집리스트생성 버튼을클릭합니다. 클릭과동시에보유데이터업로드가시작됩니다. 업로드에소요되는시간은평균 0분내외이지만, 데이터의용량에따라차이가있을수있습니다. 업로드가완료된보유데이터는 수집완료 페이지에서확인할수있습니다. 07
Ⅰ 수집하기 요청채널 수집하기 에반영된채널외다른채널 ( 사이트 ) 의데이터를수집합니다. 요청채널이반영된화면 5 6 4 7 채널명 수집하고자하는사이트의이름을입력합니다. URL 수집페이지의 URL 을입력합니다. 특정게시판의게시글 ( 본문 ) 을수집하고자한다면, 게시판의 URL 을입력합니다. 도메인 사이트주소를입력합니다. 상세설명 4 수집하고자하는데이터의내용을세부적으로작성합니다. 예 ) 수집내용 : 게시판의제목, 본문, 날짜정보수집기간 : 07.0.0 ~ 07.. 채널의성격에따라요청한수집내용과수집기간이적용되지않을수도있습니다. 설정이끝나면 등록버튼을클릭합니다. 요청내용을관리자가확인한후작업내용에따른추가협의사항이나견적서를 전달드립니다. 5 제목 수집완료리스트에생성될데이터의제목 ( 키워드 ) 을지정합니다. 수정이불가능하오니신중히작성하시길바랍니다. 6 기간 데이터가생성된기간을설정합니다. 7 채널요청채널이반영되어수집을원할때언제나사용할수있습니다. 08
Ⅱ 데이터전처리 수집중수집완료정제 / 형태소분석
Ⅱ 데이터전처리 수집중수집중인데이터리스트를확인합니다. 생성중인수집리스트를확인할수있습니다. 수집이완료되면리스트에서사라지고 수집완료 리스트로이동합니다. 수집완료 수집완료된데이터리스트를확인합니다. 4 수집완료된데이터리스트를확인할수있습니다. 채널및섹션별수집량과용량을확인할수있습니다. 전체수집한경우키워드우측에전체수집으로표시됩니다. 용량을클릭하면수집데이터를미리보기할수있습니다. 수집완료단계에서는미리보기만가능하며, 텍스트마이닝 단계에서원문데이터를다운로드할수있습니다. 4 수집된데이터의내용과용량을확인하고정제 / 형태소분석하고자하는데이터를선택한후, ( 데이터리스트의좌측체크박스를클릭하세요.) 정제 / 형태소분석 을클릭합니다. 0
Ⅱ 데이터전처리 정제 / 형태소분석선택한수집데이터를정제합니다. 5 6 4 분리정제제목과본문을분리하거나통합하여분석합니다. 키워드필터링특정키워드가포함된문서를제거하거나추출합니다. 중복제거 URL 또는내용기반으로동일한내용의문서를제거합니다. 4 Window Size 특정키워드의앞뒤로정제할단어의개수를지정합니다. 예시 ) 키워드를 문화 로, 사이즈를 개로지정할경우 문화 앞, 뒤 개단어까지정제결과에반영합니다. 5 선택한수집리스트정제할데이터의용량확인과데이터원문미리보기가가능합니다. 데이터선택과선택제외를통해분석리스트를생성할데이터를선별할수있습니다. 분석리스트데이터명을지정하세요 - 작성된데이터명으로분석리스트가생성됩니다. 6 리스트통합생성선택한수집리스트를통합하여한개의분석리스트로생성합니다. ( 수집리스트에서는통합되지않습니다.) 수집리스트 에서선택하지못한수집데이터는좌측하단의 수집리스트 클릭을통해수집리스트에서다시선택할수있습니다.
Ⅱ 데이터전처리 정제 / 형태소분석 선택한수집데이터를정제합니다. 4 분석언어수집리스트에서선택한데이터의언어를설정합니다. 분석기 -Espresso K: 고유명사, 복합명사에대해서는좋은결과값을보여줍니다. 하지만띄어쓰기가잘되어있지않은문서를분석하거나, 감성분석과같이일반적인단어들로분석하기에는적합하지않습니다. -MeCab : 원문의띄어쓰기에크게의존하지않고, 사전을참조하여어휘를구분합니다. 단체명이나복합명사에대해서는분석이후떨어진단어들을합쳐줄필요가있습니다. 분석품사출력할형태소를선택합니다. 예시 ) 명사, 형용사, 동사, 외국어, 숫자를선택할경우성실한철수는 6 시까지 COEX 에도착할것이다 성실 / 한 / 철수 / 는 / 6 / 시 / 까지 / COEX / 에 / 도착 / 할 / 것 / 이 / 다 4 사용자사전이전에동일한데이터정제를진행했거나, 그와유사한내용의데이터를정제할때사용하시면편리한기능입니다. 사용자사전설정 에서정제될단어의결과를미리변경해주시면됩니다. 설정이끝나면분석리스트생성 버튼을클릭합니다. 분석리스 트생성과동시에선택한수집리스트의데이터용량만큼보유용량에서삭감됩니다. 선택한데이터설정내용이맞는지다시한번점검해주세요.
Ⅲ 분석리스트 텍스트마이닝감성분석매트릭스
Ⅲ 분석리스트 텍스트마이닝 정제데이터를편집하고다양한결과값을확인합니다. 원문데이터 수집된데이터의원문을미리보거나 xlsx 파일로다운로드할수있습니다. 전체데이터의경우저작권보호로인해문서의요약데이터를다운로드할수있습니다. 정제데이터 정제 / 형태소분석결과데이터입니다. 정제된데이터를미리보거나 xlsx 파일확장자로내려받을수있습니다. 정제 / 형태소분석 설정에따라기본적인전처리만이루어진데이터이므로, 더욱정확한분석을위해서는 데이터편집 에서이용자분의추가적인편집이요구됩니다. 데이터편집고유명사, 복합명사, 동의어, 불용어를제거하거나수정하는작업을진행합니다. 바로편집하기 로편집하는경우 - 정확한일치 : 정확하게일치하는단어를변경하거나삭제합니다. - 부분일치 : 부분적으로일치하는단어를변경하거나삭제합니다. * 편집이완료되면 업로드 버튼을클릭해편집내용을적용합니다. 예시 ) 사과사과나무풋사과사과열매사과박스 - 변경할단어 : 사과 - 수정단어 : 포도 정확한일치 로변경한결과포도사과나무풋사과사과열매사과박스 부분일치 로변경한결과포도포도나무풋포도포도열매포도박스 파일업로드 로편집하는경우. 정제데이터 를다운로드합니다.. 내려받은엑셀 (xlsx) 파일에서단어를변경하거나삭제합니다.. 편집한파일을 txt 파일 ( 인코딩 UTF-8) 로 파일업로드 합니다. 4. 업로드파일적용 을클릭합니다. * UTF-8 인코딩방법 ( 데이터를메모장에옮긴후 UTF-8 로저장 ) 4
Ⅲ 분석리스트 텍스트마이닝 정제데이터를편집하고다양한결과값을확인합니다. 5 6 7 8 9 0 5 단어빈도수추출된단어와빈도수를확인합니다. 6 7 8 9 0 N-gram n 개단어의연쇄를확률적으로표현하여실제로표현된문장의기록을확인할수있습니다. 텍스톰에서는 개의단어에대해분석합니다. (bigram, 동시출현단어빈도수 ) TF-IDF TF(Term Frequency, 단어빈도 ) 와 IDF(Inverse Document Frequency, 문서빈도의역수 ) 를곱한값으로어떤단어가특정문서내에서얼마나중요한지나타내는통계적수치입니다. 특정문서내에서단어빈도가높을수록그리고전체문서들중그단어를포함한문서가적을수록 TF-IDF 값이높아지므로, 이값을이용하면모든문서에흔하게나타나는단어를걸러내는효과를얻을수있습니다. 연결중심성특정단어가다른단어들과얼마나많은연결이되어있는지를나타냅니다. 노드에연결된링크의수가많아질수록해당노드의연결중심성은높아집니다. TOPIC MODELING 단어들의동시등장을확률화하여이로부터토픽을도출하고, 해당토픽의단어를확인할수있습니다. 현재기본값은그룹 0 개, 단어 0 개입니다. * Topic Modeling 설정 ( ) - 토픽그룹수와그룹을이루는단어개수를변경할수있습니다. 변경후수정된결과값이반영되는데는약 0~0 분의시간이소요됩니다. 개체명인식 4 개개체명범주에따른단어분류와빈도수를확인할수있습니다. ( 사람, 학문, 대상물, 기관, 지역, 문명, 날짜, 시간, 숫자, 사건 / 사고, 동물, 식물, 금속, 용어 ) 개체명인식은정제데이터가아닌원문데이터를자체적으로형태소분석하여반영됩니다. 5
Ⅲ 분석리스트 감성분석 기계학습기법으로긍정, 부정, 중립의문장을분류합니다. 5 원문데이터수집된데이터의원문을미리보거나 xlsx 파일확장자로내려받을수있습니다. 전체데이터의경우저작권보호로인해문서의요약데이터를다운로드할수있습니다. 학습데이터업로드하는학습데이터를바탕으로원문데이터전체를자동분류합니다. -A 열 : 감성분석대상이되는텍스트정보 원문데이터에서날짜, URL 등의감성분석에필요없는정보의열은삭제합니다. - B 열 : 긍정, 중립, 부정중하나의극성을부여합니다. 최소 00 개에서최대,000 개의행을긍정, 중립, 부정의비율이비슷하게작성합니다. xlsx 파일확장자로업로드합니다. 학습데이터파일예시 ) 분석결과분류된원문데이터결과를확인할수있습니다. - 추가분석 : 극성별로분류된데이터를가지고텍스트마이닝페이지로이동합니다. 6
Ⅲ 분석리스트 매트릭스 네트워크분석을위한매트릭스데이터를생성합니다. 분석단어선택 - -mode: 단어 ( 메인노드 ) 간의관계를나타냅니다. 행과열에같은단어목록을입력합니다. - -mode: 단어 ( 메인노드 ) 와범주 ( 서브노드 ) 간의관계를나타냅니다. 행과열에각각다른단어목록을입력합니다. 바로선택하기분석하고자하는단어를선택하고 적용 을클릭합니다. 매트릭스생성이완료되면 바로선택하기 버튼상단에 단어선택이적용되었습니다 는문구가표시됩니다. 파일업로드텍스트마이닝분석결과의 단어빈도수 를참고하여단어를고르고 UTF-8 로인코딩된 txt 파일로업로드합니다. -mode 업로드파일예시 -mode 업로드파일예시 ( 좌 - 행 / 우 - 열 ) 분석결과 단어간공출현을통한유사도계수를계산방식에따라 4 가지결과값으로제공합니다. 유클리디언계수코사인계수자카드계수상관계수 각유사도계수계산공식확인하기 ( 클릭 ) 7
Ⅲ 분석리스트 매트릭스네트워크분석을위한매트릭스데이터를생성합니다. 매트릭스데이터를다양한네트워크분석프로그램에적용하여추가적인분석을진행할수있습니다. 매트릭스데이터를적용할수있는분석툴 PAJEK 8
Ⅳ 시각화 시각화결과커스터마이징
Ⅳ 시각화 시각화결과 분석결과를다앙한시각화유형으로표현합니다. 4 단어빈도수 TF( 단어출현빈도 ) 를기준으로워드클라우드와막대그래프, 에고네트워크를작성합니다. 이미지업로드워드클라우드에적용할샘플이미지또는보유한이미지를 jpg 또는 png 파일로업로드한후 업로드파일적용 하면해당업로드한이미지형태의워드클라우드를확인할수있습니다. 워드클라우드에적용할이미지는배경이단색또는투명인 jpg 또는 png 파일을업로드합니다. 샘플이미지적용예시 N-gram N-gram 을기준으로네트워크그래프와네트워크워드트리, 워드트리를작성합니다. Topic Modeling 토픽분포도에서토픽을클릭하거나 Selected Topic 에토픽번호를입력하면각토픽을구성하는단어를확인할수있습니다. 개체명인식 가정제전원문데이터를기반으로생성된개체명인식데이터를시각화합니다. 0
Ⅳ 시각화 시각화결과분석결과를다앙한시각화유형으로표현합니다. 단어빈도수 [ 워드클라우드 ] [ 막대그래프 ] [ 에고네트워크 ] N-gram [ 네트워크그래프 ] [ 네트워크워드트리 ] [ 워드트리 ] 개체명인식
시각화결과분석결과를다앙한시각화유형으로표현합니다. Topic Modeling 4 토픽분포도에서토픽을클릭하거나토픽번호를 Selected Topic 에직접입력하여토픽을선택하면각토픽을구성하는 0 개단어를확인할수있습니다. 토픽간의거리토픽간의거리가멀수록판별타당도가높고주제가뚜렷하게구분됩니다. 토픽간의거리가가깝거나겹쳐져있다면판별타당도가낮으므로비슷한주제를나타냅니다. 토픽의크기토픽원의크기가클수록높은빈도수의단어들로구성되어있습니다. 가장큰원이메인토픽이라고해석할수있습니다. 4 람다값설정 λ( 람다 ) 값을조절하는것으로해당토픽을구성하는단어의출현조건을설정할수있습니다. 에가까울수록 TF( 단어빈도 ) 값에, 0 에가까울수록 IDF( 역문서빈도 ) 값에비중을두고단어를선정합니다. λ 값이낮을수록각토픽을구성하는단어가뚜렷해지지만비교적빈도가낮은단어들로구성됩니다. 따라서, 토픽분별력을높이기위해서는낮은빈도로출현하는단어들에대해서도정확한정제가필요합니다.
Ⅳ 시각화 커스텀마이징 데이터를업로드하면시각화차트가생성됩니다. 단어빈도수차이를시각화할수있는차트 [ 워드클라우드 ] [ 바차트 ] [ 에고네트워크 ] [ 파이차트 ] 수집량변화를시각화할수있는차트 N-gram 결과를시각화할수있는차트 [ 라인차트 ] 개체명인식결과를시각화할수있는차트 [ N-gram 네트워크 ] [-way 워드트리 ] 키워드전후관계를시각화할수있는차트 [ 트리맵 ] [ -way 워드트리 ] 업로드하는엑셀파일의용량만큼잔여데이터에서차감됩니다. 시각화결과는저장되지않으니반드시창을종료하기전에시각화이미지를다운로드하세요.
Ⅴ 데이터용량추가
Ⅴ 데이터용량추가 데이터용량추가 가입목적에따라데이터금액에차이가있습니다. 잔여데이터현황확인및개인정보 - 화면우측상단의이름을클릭하면잔여데이터용량과잔여데이터의이용만료일 ( 잔여일 ) 을확인할수있습니다. 수시로확인하여이용만료일전에잔여데이터를모두소진해주세요. - 회원정보 를통해개인정보및비밀번호를수정할수있습니다. 데이터결제 - 가입목적 ( 학습용, 연구용, 기업용 ) 에맞는결제창이자동반영됩니다. - 중복결제가가능합니다. - 결제취소와 00MB 이상의대용량결제는담당자에게문의하세요. (070-469-8477) - 요청채널결제는담당자와상의후안내에따라결제를진행하세요. 거래명세서, 세금계산서등필요한결제서류는담당자에게문의주시거나 Q&A 게시판에남겨주시면바로처리해드리겠습니다. 텍스톰이용가격 5