인터넷인덱스방법론 2004. 10. 메트릭스코퍼레이션
목 차 데이터생산프로세스 SCM vs. ACM Metrix vs. Koreanclick
데이터생산프로세스
데이터생산프로세스 조사분석플로우 모집단조사패널모집로그수집데이터분석 모집단조사 패널모집 로그수집 조사대상 : 국내만6세이상, 10,000명조사주기 : 6개월성, 연령등인터넷이용자구성비를반영하여패널구성비결정 RDD (Random Digit Dialing) 로패널무작위추출 PcMeter가패널의웹서핑로그를수집, 수신서버로자동전송 데이터분석 Log DB, Profile DB, Site DB 를통합한다차원분석 웹상에서 인터넷인덱스 서비스제공
모집단조사패널모집로그수집데이터분석 조사개요 조사명 : KRNIC, 인터넷이용자수및이용행태조사 모집단기준 : 주민등록인구조사결과 조사대상 : 국내만 6 세이상국민 표본추출 : 다중층화무작위추출법 (Multi Stratified Random Sampling) 층화기준 : 지역 * 가구주연령 표본수 : 10,000 여명 조사방법 : 패널구축 ( 면접 ) 후전화조사 조사주기 : 반기 1 회 ( 메트릭스 1999. 6. 이후총 12 회수행 ) 조사활용 : 인터넷이용자수및이용자구성비파악
모집단조사패널모집로그수집데이터분석 패널모집 패널대상 : 국내만 6 세이상만 59 세이하인터넷이용자 모집단정보 : 인터넷이용자수및이용행태조사 층화기준 : 성 * 연령 패널수 : 12,500 여명 모집방법 : 1) RDD (Random Digit Dialing) 방식의선발 2) 대상자에 PcMeter 이메일송부 모집시 : 1) 스크리닝 : 인터넷이용및관련업체종사여부 2) 이용장소및가정이용시공용여부 3) Panel Profile PcMeter 유형 : 5 종 : 가정 1 인, 가정 2 인, 직장, 가정 1 인 + 직장, 가정 2 인 + 직장
모집단조사패널모집로그수집데이터분석 패널구성 최근인터넷이용자수조사결과를토대로국내인터넷이용자의구성비를반영하여결정 패널선정 공개적인패널모집광고및이벤트모집, 특정사이트회원을대상으로한패널선정을원천적으로배제 패널개입방지 패널가입동의이후간단한설치과정으로로그트래킹 SW를따로실행하거나종료할필요가없음 타어플리케이션의운용, 컴퓨터사용에전혀지장을초래하지않아데이터수집과정에서발생할수있는비표본오차제거 패널리워드프로그램, 메일링등이패널의인터넷이용행태를변화시킬수있는여지를배제
모집단조사패널모집로그수집데이터분석 로그샘플 #PANELID=ZZZ #VERSION=2.0 #LOGDATE=2000-12-14 9:59:37 #OSVERSION=Windows 98 #SCREEN=1024x768 #CPU=Pentium (II/Pro) #MEMORY=128MB BRWSR TIME WEB SITE & PAGE IE1 6:55:57 pm www.xxx.com IE1 6:56:44 pm shopping.xxx.com/index.html IE2 7:03:58 pm www.yyy.com IE2 7:04:58 pm login.yyy.com/bin/login.cgi
모집단조사패널모집로그수집데이터분석 로그수집 by PcMeter 수집정보 : 환경정보, 시간, URL 환경정보 : OS, Memory, CPU, 화면해상도, IP 등 수집 URL File 확장자 : html, htm, cgi, php, jsp, asp, gif, jpg, asf, asx, wmv 미수집 - http, https 로시작하지않는로그 (ex. ftp) - About:blank - http://localhost/ - URL 길이 400 자이상 - Img, embed 태그를통해웹페이지에삽입된이미지, 플래쉬, 배너, 동영상등 - 브라우져 : Internet Explore (Netscape, 전용브라우져 X)
모집단조사패널모집로그수집데이터분석 로그전송 일시저장후일정시간간격으로전송 시간보정 : Client ~ Server 시간차이조정 네트워크장애시클라이언트에로그저장 수신서버 : 4대 (3대@IDC, 1대 @Metrix) 방화벽통과 : http 80 port 이용
모집단조사패널모집로그수집데이터분석 데이터분석 LOG DB Profile Master 정보 Panel ID, 환경정보, 브라우저, 시간, URLs 성, 연령, 직업, 학력, 결혼여부 그룹도메인, 국내외, 카테고리, 채널, 메인페이지, 프로퍼티, #PANELID=ZZZ #VERSION=4.0 #LOGDATE=2002-12-14 9:59:37 #OSVERSION=Windows XP #SCREEN=1024x768 #CPU=Pentium III #MEMORY=512MB BRWSR TIME WEB SITE & PAGE IE1 6:55:57 pm www.xxx.com IE1 6:56:44 pm shopping.xxx.com/index.html IE2 7:03:58 pm www.yyy.com IE2 7:04:58 pm login.yyy.com/bin/login.cgi
모집단조사패널모집로그수집데이터분석 측정단위 shopping.xxx.com/index.html 웹사이트 (Website) 서브도메인 (Sub Domain) 채널 (Channel) 프로퍼티 (Property) 카테고리 (Category) xxx.com shopping.xxx.com 쇼핑 ( 주 ) XXX 검색포탈 / 포탈 메인페이지 (Main Page) 유사도메인 (Synonyms) www.xxx.com, www.xxx.com/index.html, xxx.com, www.xxx.co.kr/index.html,... xxx.co.kr, xxx.net, x3.com, x3.co.kr, x3.net, 3x.com, => xxx.com,
모집단조사패널모집로그수집데이터분석 측정지표 순방문자수 방문일수 방문횟수 페이지뷰 사이트체류시간 일정기간특정웹사이트를방문한중복되지않은이용자수 일정기간특정웹사이트방문자들이사이트에방문한일수 특정웹사이트의총방문횟수 30 분내재방문한경우별도방문으로계산하지않음 일정기간특정웹사이트방문자들이확인한웹페이지총수 3 초이내에생성되는 URL 은페이지산정에서제외 특정웹사이트의방문자들이사이트에체류한총시간 5 분이상추가적인웹로그발생이없으면그이후는카운트하지않음
모집단조사패널모집로그수집데이터분석 분석사이트기준 표본조사에서의통계적유의수준에근거하여기간내 인터넷접속패널의 0.3% 이상의접속률을보이는사이트를 분석대상으로함
SCM vs. ACM
SCM vs. ACM 인터넷측정방식비교 개요 장점 단점 웹서버측정방식 사이트의웹서버로그분석 가장보편적으로수행 전수조사 자사사이트에대한풍부한데이터 고비용, 시간소요 사이트간비교어려움 인구통계분석에어려움 패널측정방식 표본추출된네티즌의웹로그분석 TV시청률조사로부터발전된모델 표본조사 동일한기준으로여러사이트비교 인구통계분석가능 표본수 => 통계적 Fluctuation 조사회사기준에따라데이터상이
SCM vs. ACM 인터넷측정방식비교 과대측정 웹서버측정방식 검색Agent 등 Robot의활동 Internal Usage ( 내부개발자 ) 프레임 / 광고, 팝업 Sent Data 기준 패널측정방식 패널의적극적이용자성향 ( 프레임 / 광고, 팝업 ) 과소측정 Proxy, Cache 제외 PC 방등공용장소제외됨 대상연령제한 국외이용자제한
SCM vs. ACM 데이터불일치에대한연구 연구목적 : 패널방식과웹서버측정방식의데이터비교 측정시기 : 1998 년 11 월 ~12 월 측정사이트 - Dell, Excite@Home, LA Times, Economist, AOL, Playboy, CNN, MSN, Yahoo!, USA Today 외총 35 개사이트 연구참여자 - Yahoo!, Santa Clara Univ., Advertising Research Foundation, Internet Advertising Bureau 측정기관 - 패널데이터 : Media Metrix, Nielsen//NetRatings - 웹서버 Audit: ABC Interactive, I/Pro
SCM vs. ACM 데이터불일치에대한연구 전체사이트 : 불일치존재 ( 패널로그방식과소측정 ) Web Server Log 방식 25000 20000 15000 ( 단위 : 만 Pageview) Y=1.4552X R 2 =0.9785 10000 5000 0 0 5000 10000 15000 20000 25000 Panel Log 방식
SCM vs. ACM 데이터불일치에대한연구 Small sites : 불일치심화 ( 패널로그방식과대측정 ) 1000 ( 단위 : 만 Pageview) Y=0.8423X Web Server Log 방식 800 600 400 R 2 =0.3424 200 0 0 200 400 600 800 1000 Panel Log 방식 * Small Sites : 일 1,000 만페이지뷰이하사이트
Metrix vs. Koreanclick
Metrix vs. Koreanclick 패널구성비교 Metrix Koreanclick 패널구성 만6~59세인터넷이용자 만10~65세인터넷이용자 Top 30 (1 월기준 ) 순위 웹사이트 방문자수 (000) 웹사이트 방문자수 (000) 1 daum.net 25,134 daum.net 23,012 2 naver.com 23,311 naver.com 22,350 3 kr.yahoo.com 19,197 yahoo.co.kr 18,913 4 nate.com 16,526 nate.com 18,261 5 bugs.co.kr 13,677 bugs.co.kr 15,113 6 auction.co.kr 11,827 hanafos.com 14,962 7 dreamwiz.com 11,323 dreamwiz.com 13,187 8 hanafos.com 11,105 chol.com 13,011 9 empas.com 9,983 empas.com 12,922 10 msn.co.kr 9,519 auction.co.kr 12,181 16 com.ne.kr 7,245 interpark.com 9,629 17 netmarble.net 7,204 damoim.net 8,810 18 hangame.com 6,924 imbc.com 8,722 19 imbc.com 6,773 lgeshop.com 8,666 20 freechal.com 6,761 netpia.com 8,535 21 cafe24.com 6,744 freechal.com 8,473 22 sbs.co.kr 6,741 com.ne.kr 8,382 23 hihome.com 6,426 sbs.co.kr 8,164 24 kbs.co.kr 6,345 okcashbag.com 8,044 25 interpark.com 6,324 e-station.com 7,923 26 damoim.net 6,238 kbs.co.kr 7,906 27 chosun.com 5,995 netmarble.net 7,680 28 buddybuddy.co.kr 5,124 chosun.com 7,630 29 011e-station.com 5,123 hmall.com 7,619 30 hmall.com 5,092 cjmall.com 7,575
Metrix vs. Koreanclick 조작적정의 - 방문횟수 : 30 분이내재방문은동일방문으로처리 - 체류시간 : 5 분이상페이지이동이없는경우체류시간을 5 분으로한정 - 프레임에대한처리 : 3 초이내에동시에올라오는 URL 은페이지뷰산정에서제외하는 방식으로프레임을제거
Metrix vs. Koreanclick 페이지뷰지표산출조작적정의
Metrix vs. Koreanclick 채널분류 - 서브도메인단위의지표산출이아닌보다하위의 URL 들을묶어지표산출 채널 게임 URL game.xxx.com starcraft.xxx.com flash.xxx.com/game/ adult.xxx.com/game/tetris game.xxx.com/flashgame 채널 game.xxx.com/gostop 채널 music.xxx.com/4card 채널 플래쉬게임 고스톱 포카드 baduk.xxx.com/game/chobo