WAN에서 다자간 통신을 위한 계층적 오류복구 기법

Similar documents
<4D F736F F D20C3D6C1BE202D D E7420B1E2B9DD20B4DCB8BB20C8A3BDBAC6AE20BFEEBFB5C3BCC1A620C0DAB5BF20C6C7BAB02E646F63>

시스템, 네트워크모니터링을통한보안강화 네트워크의미래를제시하는세미나 세미나 NetFocus 2003 : IT 관리자를위한네트워크보안방법론 피지피넷 /

Microsoft PowerPoint - thesis_rone.ppt

Windows 8에서 BioStar 1 설치하기

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

0. 들어가기 전

DBPIA-NURIMEDIA

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

12 김명섭 B-RN (2).hwp

6-윤성호KICS hwp

[Brochure] KOR_TunA

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

01 KICS 최종본.hwp

패킷 역전 및 중복 문제를 해결한 통계기반 트래픽 분석 시스템

시스템을 제공한다는 특징이 있다. ONOS[4]는 성능, 확장성, 가용성을 중시하는 분산형 SDN 컨트롤러이 며 편의성 있는 Web GUI 와 SDN 컴포넌트 단위의 계층 구조를 통해 어플리케이션을 개발하고 컨트롤 러에 탑재할 수 있는 기능들을 제공한다. 하지만 ONO

API STORE 키발급및 API 사용가이드 Document Information 문서명 : API STORE 언어별 Client 사용가이드작성자 : 작성일 : 업무영역 : 버전 : 1 st Draft. 서브시스템 : 문서번호 : 단계 : Docum

Secure Programming Lecture1 : Introduction

슬라이드 1

패션 전문가 293명 대상 앙케트+전문기자단 선정 Fashionbiz CEO Managing Director Creative Director Independent Designer

운영체제실습_명령어

Cloud Friendly System Architecture

제20회_해킹방지워크샵_(이재석)

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

The Pocket Guide to TCP/IP Sockets: C Version

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

BEA_WebLogic.hwp

본문

1217 WebTrafMon II


PWR PWR HDD HDD USB USB Quick Network Setup Guide xdsl/cable Modem PC DVR 1~3 1.. DVR DVR IP xdsl Cable xdsl Cable PC PC DDNS (

완전자동화페이로드시그니쳐업데이트시스템 Fully Automatic Payload Signature Update System 심규석, 구영훈, 이성호, 김명섭고려대학교컴퓨터정보학과 {kusuk007, gyh0808, 요 약 오늘날네트워

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

°í¼®ÁÖ Ãâ·Â

Microsoft Word - src.doc

[ 네트워크 1] 3 주차 1 차시. IPv4 주소클래스 3 주차 1 차시 IPv4 주소클래스 학습목표 1. IP 헤더필드의구성을파악하고요약하여설명할수있다. 2. Subnet ID 및 Subnet Mask 를설명할수있고, 각클래스의사용가능한호스트수와사설 IP 주소및네트

160322_ADOP 상품 소개서_1.0

Samsung SDS Enterprise Cloud Networking CDN Load Balancer WAN

<BCBCB0E8B1E2B7CFC0AFBBEAB5EEC0E7BDC5C3BBBCAD5FBCF6C1A432C2F75F F46696E616C2E687770>

Windows Server 2012

게시판 스팸 실시간 차단 시스템

Microsoft PowerPoint - ch02_인터넷 이해와 활용.ppt

USB USB DV25 DV25 REC SRN-475S REC SRN-475S LAN POWER LAN POWER Quick Network Setup Guide xdsl/cable Modem PC DVR 1~3 1.. DVR DVR IP xdsl Cable xdsl C

로거 자료실

UDP Flooding Attack 공격과 방어

2009년 상반기 사업계획

À¯Çõ Ãâ·Â

Microsoft Word - release note-VRRP_Korean.doc

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

The Pocket Guide to TCP/IP Sockets: C Version

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

?

10 이지훈KICS hwp

Microsoft PowerPoint - L4-7Switch기본교육자료.ppt

???춍??숏

Microsoft Word - NAT_1_.doc

슬라이드 1

PowerPoint 프레젠테이션

네트워크 안정성을 지켜줄 최고의 기술과 성능 TrusGuard는 국내 최초의 통합보안솔루션으로서 지난 5년간 약 4천여 고객 사이트에 구축 운영되면서 기술의 안정성과 성능면에서 철저한 시장 검증을 거쳤습니다. 또한 TrusGuard는 단독 기능 또는 복합 기능 구동 시

< F5320B4EBC0C0C0E5BAF1BFA120B4EBC7D120BAB8BEC8B1E2B4C920B0A1C0CCB5E528C3D6C1BE292E687770>

untitled

일반적인 네트워크의 구성은 다음과 같다

[QoS 강좌] QoS에서의 혼잡 회피 적용과 이해 ②

<4D F736F F F696E74202D E20B3D7C6AEBFF6C5A920C7C1B7CEB1D7B7A1B9D62E >

I

À±½Â¿í Ãâ·Â

Issue 두 가지 상대적 관점에서 검토되고 있다. 특히, 게임 중독에 대한 논의는 그 동안 이를 개인의 심리적 차원에서 접근해왔던 것에서 벗어나 청소년에 대한 사회문화 및 정보 리터러시(literacy) 교육의 방향이라든 지 나아가 게임중독과 관련한 사회구조적인 또는

DBPIA-NURIMEDIA

이동통신망에서의 VoLTE 트래픽 분류 방법에 대한 연구

IP 심화 라우팅프로토콜적용시 라우팅테이블에서 이니셜이있는네트워크를설정하는것 : onnected 직접연결된네트워크를의미한다. 그러므로라우팅은 나는이런네트워크와연결되어있다. 를직접연결된라우터들에게알려주는것 1>en 1#conf t 1(config)#router rip 1

bn2019_2

Microsoft Word - camera-ready.doc

System Recovery 사용자 매뉴얼

Microsoft PowerPoint - 권장 사양

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

07변성우_ok.hwp

6강.hwp

PowerPoint Template

리눅스설치가이드 3. 3Rabbitz Book 을리눅스에서설치하기위한절차는다음과같습니다. 설치에대한예시는우분투서버 기준으로진행됩니다. 1. Java Development Kit (JDK) 또는 Java Runtime Environment (JRE) 를설치합니다. 2.

EDB 분석보고서 (04.06) ~ Exploit-DB( 에공개된별로분류한정보입니다. Directory Traversal users-x.php 4.0 -support-x.php 4.0 time-

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

PowerPoint 프레젠테이션

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

< 목차 > Ⅰ. 개요 3 Ⅱ. 실시간스팸차단리스트 (RBL) ( 간편설정 ) 4 1. 메일서버 (Exchange Server 2007) 설정변경 4 2. 스팸차단테스트 10

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

목 차 회사현황 1. 회사개요 2. 회사연혁 3. 회사업무영역/업무현황 4. 등록면허보유현황 5. 상훈현황 6. 기술자보유현황 7. 시스템보유현황 주요기술자별 약력 1. 대표이사 2. 임원짂 조직 및 용도별 수행실적 1. 조직 2. 용도별 수행실적

목차 데모 홖경 및 개요... 3 테스트 서버 설정... 4 DC (Domain Controller) 서버 설정... 4 RDSH (Remote Desktop Session Host) 서버 설정... 9 W7CLIENT (Windows 7 Client) 클라이얶트 설정

유해트래픽통합관리시스템_MetroWall

Microsoft PowerPoint - ch13.ppt

歯I-3_무선통신기반차세대망-조동호.PDF

. PC PC 3 [ ] [ ], [ ] [ ] [ ] 3 [ ] [ ], 4 [ ] [ ], 4 [Internet Protocol Version 4 (TCP/IPv4)] 5 [ ] 6 [ IP (O)], [ DNS (B)] 7 [ ] 한국어 -

PowerPoint Presentation

Portal_9iAS.ppt [읽기 전용]

메일서버등록제(SPF) 인증기능적용안내서 (Exchange Windows 2000) OS Mail Server SPF 적용모듈 작성기준 Windows Server 2000 Exchange Server 2003 GFI MailEssentials 14 for

소프트웨어 융합 개론


Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

슬라이드 제목 없음

歯홍원기.PDF

PowerPoint 프레젠테이션

Transcription:

HTTP 트래픽의서버측서비스별분석 ( 포털사이트를중심으로 ) (Server-side Service-specific Analysis of HTTP Traffic: Portal Site-centric) 김환희, 최미정 * 강원대학교컴퓨터과학전공 hwanhee0920@kangwon.ac.kr, mjchoi@kangwon.ac.kr 요 약 최근전통적인웹브라우징이외에스마트디바이스의증가및네트워크장비성능향상으로인하여 HTTP 트래픽이많이증가하고있다. HTTP 트래픽은학내망을기준으로전체트래픽의약 20~25% 정도를차지하고있다. HTTP 프로토콜은요청 / 응답구조로많은어플리케이션에임베디드되어사용되고있으며, 이에따라 HTTP 트래픽의분석및관리는더욱중요해지고있다. 기존의많은 HTTP 트래픽분석연구들의경우, 클라이언트측면에서분석이이루어지고있지만, 서버에서제공하는서비스측면에서의트래픽분석에대해서는많은연구가이루어지지않았다. 본논문에서는 HTTP 트래픽헤더정보를이용하여서버가제공하는서비스별로분석을수행한다. 또한제안하는방법을학내망트래픽에적용함으로써타당성을증명한다. 1 Keywords: HTTP Traffic, Server-side, Traffic Analysis, Portal Site, Flow-based Analysis 1. 서론 최근전통적인웹브라우징이외에스마트디바이스의증가및네트워크장비성능향상으로인하여 HTTP 트래픽이많이증가하고있다. 트래픽증가와더불어네트워크트래픽모니터링에대한중요성도점차증가하고있는데, 이는네트워크트래픽의정확한측정이네트워크관리및설계에있어중요한정보로쓰여지기때문이다. 네트워크모니터링을위하여초기에는잘알려진포트를기반으로한모니터링이수행되었다. FTP, HTTP, Telnet 등다양한어플리케이션들이잘알려진포트를사용하였기때문에가능한일이었다. 하지만오늘날의어플리케이션들은방화벽을우회하거나 IPS(Intrusion Prevention System), IDS(Intrusion Detection System) 와같은시스템을통과하기위하여잘알려진포트만을사용하지않고다양한포트로변경하여사용하고있다. 따라서포트기반분석방법은분석결과에대한높은정확도와분석률을제공하지못하기때문에현재네트워크환경에는적합하지않다. 최근트래픽모니터링을위한연구에는시그니쳐기반의분석방법을통하여많은연구들이이루어지고있다 [1,2,3]. 시그니쳐분석방법의경우확인된어플리케이션에대해서는정확한분석이가능하다. 하지만각각의어플리케이션을분석하기위해서수작업을통하여시그니쳐를생성해야하며, 새롭게발생하는어플리케이션이나변경되는부분에있어서적절하게대처하기어렵다. 이외에도머신러닝기반트래픽분석방법 [4,5], 트래픽상관관계기반분석방법 [6,7] 등이있지만정확한분석을위하여시그니쳐기반분석방법이많이사용되고있는실정이다. 시그니쳐기반분석방법을바탕으로한연구 [8] 를살펴보면 HTTP 트래픽은전체트래픽중 Flow 기준 20~25% 를차지하고있다. [8] 의연구를살펴보면 HTTP 는웹브라우징서비스뿐만아니라 P2P, 멀티미디어서비스등다양한서비스에서전송프로토콜로사용되고있다. 실제 HTTP 프로토콜은요청 / 응답구조의특성으로다양한어플리케이션속에내장되어사용되거나, 광고를전송하기위해사용되기도한다. 이렇듯 HTTP 프로토콜은다양한어플리케이션에서사용되며, 최근스마트디바이스의발전으로그양은더욱더 이논문은 2012 년정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된기초연구임 (20120004162) * Correspondence to Mi-Jung Choi, Dept. of Computer Science, KNU, Chuncheon, Republic of Korea 1

늘어나고있다. 특히스마트디바이스에서발생하는트래픽의경우전체트래픽중약 70% 정도가 HTTP 트래픽을사용한다 [9]. 스마트디바이스의사용량이더욱증가함에따라 HTTP 트래픽은꾸준히증가할것으로예상된다. HTTP 트래픽증가와더불어다양한컨텐츠서비스를제공하기위해도메인의수또한증가하고있다. 그림 1 은한국인터넷진흥원 [10] 에서제공하는수치로, 10 년간 KR 도메인의증가현황을보여주고있다. 앞으로도광고, 홍보및마케팅을위한도메인, 비용절감을위해사용되는서브도메인까지포함한다면도메인의수는더욱더늘어날것이다. 그림 1. 연도별 KR 도메인수 이와같이 HTTP 트래픽이많이증가함에따라 HTTP 트래픽분석에대한연구들이많이이루어지고있지만 [11], 대부분의연구들은 어떤어플리케이션이 HTTP 트래픽을발생시키는가?, HTTP 프로토콜을사용하여어떤내용이전송되는가? 와같은주제로클라이언트중심적이며, 전송내용관점에서의연구들이대부분이다 [12]. 본논문에서는 HTTP 트래픽에대해클라이언트관점이아닌, 서버측의도메인을관점으로도메인이제공하는서비스에초점을두고분석을수행한다. 도메인관점에서분석을수행할경우다음과같은이점을얻을수있다. 첫째, 많은사용자들이웹을통하여정보를얻고있는데, 사용자들이어떤도메인 ( 사이트 ) 에접속하여정보를얻으며, 어떤도메인이인기있는지에대한순위를매기는것이가능하다. 도메인별분석을통하여네트워크관리자에게는적절한웹서버및데이터베이스서버의운용관리가이루어질수있으며, 추후서버증축등에대한계획을세우는척도로도활용이가능하다. 둘째, 서버측의적절한관리와대응을통하여사용자에게원활한웹서비스를제공할수있다. 셋째, 인터넷을통해광고를하는광고주나기업의입장에서어떠한도메인이나서버에광고를포함시켜노출빈도를확대시키고광고효과를극대화할수있는지에대한파악이가능하다. 이를통해효율적인투자를할수있도록도움을줄수있다. 본논문은 HTTP 트래픽을서버측도메인관점에서플로우, 바이트, 패킷에대해분석한다. 이를통하여해당서버에서비스요청분포를파악할수있고, 서버관점에서각서비스별로데이터가전송되는양에대한분석이가능하다. 특별히그중에서 HTTP 트래픽의서버도메인측분석에서약 10~20% 를차지하고있는포털사이트중네이버를선택하였다. 네이버는 2012 년도기준국내포털사이트점유율의 74.47%[13] 를차지하며, 메일, 검색, 블로그, 사전, 맵등다양한서비스를서브도메인을기준으로제공하는포털사이트이다. 이를통해서브도메인을기준으로포털사이트서버관점에서서비스별분석을수행한다. 본논문의구성은다음과같다. 2 장에서관련연구를소개하고, 3 장에서는 3 장에서는 HTTP 트래픽의서버사이트별분석방법론을설명한다. 4 장에서는데이터수집방법과수집된데이터를바탕으로분석결과를서술하고, 마지막으로 5 장에서결론및향후연구에대해제시한다. 2. 관련연구 이장에서는 HTTP 트래픽분석에대한기존연구에대해살펴본다. 많은연구들이트래픽을발생시키는어플리케이션이나 HTTP 프로토콜이전송하는내용 (content) 을분석하는연구들이대부분이다. 이러한연구들은서버측의서비스기반이아닌클라이언트의서비스를기준으로분석을수행하였다. [12] 의연구에서는 HTTP 패킷헤더의정보를이용하여, 전통적인 HTTP 트래픽과비정상적인 HTTP 트래픽, 사람에의해발생된트래픽과자동적으로발생하는트래픽, 웹트래픽과그이외의트래픽을분석하여 2

각각의서비스별분석을수행하였다. HTTP 헤더내의 User-Agent 필드를통하여트래픽을발생하는장비및어플리케이션에대한분석을수행하고, 이와더불어 Content-Type, Host, User-Agent 필드를이용하여크롤러와같은정보를분석하였다. 하지만 [12] 의연구에서는트래픽을발생시킨어플리케이션및컨텐츠에대한내용에만중점을두고있기때문에어떠한서비스가얼마나트래픽을생성하였는지는알수없다는단점이있다. 클라이언트관점이아닌서버측관점에서도메인별분석을수행하는사이트도존재하는데, 대표적으로랭키닷컴 [14], 네이버애널리틱스 [15] 를꼽을수있다. 랭키닷컴의경우각사이트를카테고리별로분류하여접속횟수에따른순위를분석한다. 랭키닷컴의경우직접개발한 User Session Visits 를기준으로접속횟수를측정한다. User Session Visits 는사용자가실제웹서버에요청한파일 (HTML) 의수를근거로작성하는페이지뷰방법과동일사용자가여러번사이트를방문하더라도한번의방문으로인정하는 Unique Visitor 방법의장점을채용하여설계되었다. 그러나이경우분석응용프로그램을설치한일부사용자집단만을대상으로분석하기때문에샘플링을통한대표적인분석은가능할지모르나, 모든사이트에대한순위분석측면에서는부정확할수있다. 네이버애널리틱스의경우오픈소스로제공되고있으며, HTTP 태그의삽입을통해분석을수행하고있다. 이를통하여방문분석 ( 방문현황, 페이지뷰, 시간대별방문분포, 요일별방문분포, 재방문간격, 방문체류시간, 방문경로깊이 ), 유입분석 ( 인기페이지, 페이지드릴다운, 방문시작페이지, 종료페이지, 반송페이지 ) 에대한분석을수행하고있다. [16] 의연구에서는 DNS 쿼리분석으로추출한헤더시그니쳐를기반으로인터넷트래픽을서비스별로분류하였다. [16] 의연구에서서비스별분석을통해인터넷사용동향을살피고, 앞으로의사용패턴을분석하였다. 그러나서버측에서제공하는서비스의세부정보를파악하기에는어려운문제점이있다. 본논문에서는이전연구들의단점을보완하고, 서버측에서제공하는서비스별로사용량을확인하기위해 HTTP 헤더정보를이용하여, 서버도메인별분석을수행한다. 특히학내망에서가장많이사용되는포털사이트를중심으로서비스를분석한다. 3. 분석방법론 본논문에서는 HTTP 트래픽의서버측도메인별분석을위하여 HTTP 헤더필드를사용한다. HTTP 헤더필드에는 User-Agent, Host, Referer, Content-Type, Location 등과같이 HTTP 트래픽을분석하기위한중요한정보들을포함하고있다. 헤더필드중서버측에서제공하는서비스를분석하기위해 Host 필드, Location 필드를기준으로분석을수행한다. 3.1 분석시스템의개요 그림 2 는분석시스템의구조를나타낸다. 플로우생성기 (Flow Generator) 에전송되는패킷 (raw packet) 은라우터에서수집한데이터이다. 그림 2. 분석시스템의구조 3

수집된패킷은플로우생성기에서플로우 [17] 형태로만들어진다. 생성된플로우는호스트분석시스템 (Host Analysis System) 에입력데이터로전송되며, 호스트분석시스템에서서버에서제공하는서비스를분석하기위하여도메인과서브도메인을분석한다. 예를들어, Flow 내의 Host 정보가 http://maps.google.co.kr 일경우도메인은 google.co.kr 이되며, 서브도메인은 maps 가된다. 분석된결과는데이터베이스에저장되며, 마지막으로데이터베이스의내용을읽어웹을통해분석결과를제공한다. 분석된결과는서버측에서제공하는서비스별플로우의수, 바이트의양, 패킷의수에대한정보를포함한다. 위결과를관리자가웹을통해확인함으로써서버의서비스별요청수, 사용량을확인할수있게된다. 3.2 분석시스템의알고리즘 호스트분석시스템의세부적인알고리즘은그림 3 과같다. 수집된패킷을 5-tuple( 송신자 IP, 수신자 IP, 송신자포트, 수신자포트, 프로토콜 ) 을기준으로플로우를생성하여호스트분석시스템에전송하고, 이러한플로우정보를바탕으로분석한다. 생성된플로우에서먼저 HTTP 시그니쳐를통하여 HTTP 트래픽을분류 [8] 한다. 트래픽의분류는 HTTP 패킷헤더에서 HTTP, OPTIONS, GET, HEAD, POST, PUT, DELETE, TRACE, CONNECT 등의문구가나오면이를 HTTP 트래픽으로분류한다. 분류된 HTTP 트래픽에대해서요청헤더중 Host 필드를추출하고, 헤더상단에있는응답코드를확인한다. 확인된응답코드의형태가 HTTP 1.1 3XX (301, 302, 307) 형태로나타나게되면이는 HTTP 트래픽이리다이렉션되었다는것을의미하며, 이때 Host 필드의내용을추출하는것이아닌 Location 필드의내용을추출한다. 여기서리다이렉션은클라이언트가보낸패킷이 HTTP 요청패킷이지만 Host 필드값이미리설정된값 (URL) 이아닐경우, Location 필드값을정상적인값 (URL) 로변경하고, 변경된사이트로이동하는것을말한다. HTTP 리다이렉션은 3.4 절에서계속해서설명한다. 그림 3. 호스트분석시스템의알고리즘 이후추출된 Host/Location 필드는도메인과서브도메인형태로분리되며, 분리된도메인과서브도메인은서비스리스트와비교된다. 서비스리스트는분석이이루어지기전에, 학내망에서발생한트래픽을수집하여 Host 필드를각각도메인과서브도메인형태로분석한결과를나타낸리스트이다. 서비스리스트와의비교결과서비스리스트에존재하는도메인이면해당도메인의플로우의수, 바이트의양, 패킷의수를 DB(Database) 에더하며, 존재하지않는도메인일경우 DB 에새롭게추가한다. 결과적으로관리자는웹을통하여 DB 에있는내용을확인할수있다. 4

3.3 서브도메인의분석방법 HTTP 헤더의 Host 필드는 DNS(Domain Name System) 의도메인네임을이용해인터넷도메인을지정하는필드이다. 그림 4. URL 의구조 그림 4 는 URL 의일반적인구조이다. URL 은프로토콜정보, 정보자원을가진컴퓨터의위치, 파일디렉토리, 자원이름을가지고있다. URL 에서정보자원을가진컴퓨터의위치는 HTTP 헤더의 Host 필드에나타나게된다. 그림 5 는 Host 필드의한예를보여주고있다. news.naver.com 의경우에는 news 라는하나의서브도메인을가진다. 하지만 sports.news.naver.com 의경우 sports 와 news 라는두개의서브도메인을가진다. 이경우 sports 는 2 차서브도메인 news 는 1 차서브도메인 naver.com 은도메인으로정의한다. 그림 5. 서브도메인의구성 서버의자원을공유하거나암묵적인광고목적으로서브도메인을사용할경우그림 5 의 sports.news.naver.com 과같이여러개의서브도메인으로생성될수있다. 많은서브도메인을저장하고분석의기준으로삼는다면서버에서제공하는서비스에대해명확한분석을수행할수있지만 1 차서브도메인의분석으로도해당서버에대한기본적인서비스를분석할수있다. 3.4 중복도메인네임의처리 naver.com 도메인의경우 naver.net 으로접속하여도동일한네이버포털사이트에접속을하게된다. 하지만호스트정보를확인하면각각 naver.com 과 naver.net 을가지는것을볼수있다. 이런경우최상위도메인이동일하지않으므로, 서로상이한사이트로분석될수있다. 이러한경우를방지하기위해본논문에서는 HTTP 요청헤더내의 Location 필드와상태코드를사용한다. 그림 6. naver.net 의요청 / 응답헤더 그림 6 과같이상태코드가 HTTP 1.1 3XX 로시작하는코드는리다이렉션을나타낸다. 즉 naver.net 이 www.naver.com 으로리다이렉션된것을알수있는데, 3XX 상태코드가존재할경우헤더내에 Location 필드가존재하며, Location 필드로리다이렉션이이루어졌음을의미한다. 이러한경우분석시스템에서 Host 정보를 Location 필드의값으로변환하여분석을수행함으로써중복되는도메인네임을사용하는 5

경우도고려하여서버의서비스별분석정확성을향상시킨다. 4. 분석결과 본장에서는 3 장에서제시한분석방법론을학내망에적용한결과를나타낸다. 4.1 절에서는데이터수집환경과수집된데이터에대해서설명하고, 4.2 절에서는서버별분석결과에대해제시하고, 4.3 절에서는 4.2 절에서가장많이사용되는포털사이트중하나인네이버에서의서브도메인별분석결과에대해제시한다. 4.4 절에서는대표적인서브도메인과이를지원하거나, 자원을사용하기위한서브도메인을그룹화하여분석한결과를제시한다. 4.1 수집데이터 본논문에서제안한방법을적용하기위해 2013 년도 2 월 20 일의학내망트래픽을수집하였다. 실시간트래픽에적용하기위해양방향플로우구조 (Flow_Twoway_Pkt)[17] 를사용하였다. 양방향플로우구조는동일한 5-tuple 을가지는패킷과그역방향패킷들의집합을의미한다. 양방향플로우구조를사용함으로써시스템분석시오버헤드를줄일수있으며, 이를통해실시간분석에적합한이점을제공한다. 그림 7. 트래픽수집환경 그림 7 은학내망에서의트래픽수집환경을나타낸다. 학내망의특성상인터넷접속점은한개의라우터로연결되어있으며, 라우터는침입방지시스템 (Intrusion Prevention System) 과 QoS(Quality of Service) 장비와연결되어있다. 또한 QoS 장비하단에는 2 개의코어스위치가존재한다. 트래픽은 QoS 장비와코어스위치사이에서 KU-MON[18] 을통해수집하였으며, 각링크대역폭은 1Gbps 이다. 수집된트래픽을통해본논문에서제안한방법에적용하여서비스별분석을수행한다. 표 1 은 2 월 20 일에수집한총트래픽양과 HTTP 트래픽의양을플로우, 바이트, 패킷별로나타낸것이다. 전체트래픽중에 HTTP 트래픽의비율은플로우기준으로약 22%, 바이트기준으로약 25%, 패킷기준으로약 26% 를차지하고있다. 표 1. 2 월 20 일에수집한학내망트래픽양 플로우의수바이트의양패킷의수 총트래픽 29.9 X 10 6 1.38 TB 1.59 X 10 9 HTTP 트래픽 6.69 X 10 6 [ 22% ] 0.32 TB [ 25% ] 0.42 X 10 9 [ 26% ] 4.2 서버별분석결과 그림 8 은본논문의분석방법을통하여학내망의트래픽을분석한결과이다. 학내망의특성상대학 6

사이트인 korea.ac.kr 이라는호스트가많이사용되었다. 또한네이버, 다음, 네이트등과같은포털사이트들이많이사용된것을확인할수있다. 대표적인포털사이트외에도다양한서비스들이사용되었기때문에상위 10 개이외의사이트가 45% 정도를차지하고있다. 4.3 포털사이트의서브도메인별분석 그림 8. 서버별상위 10 개도메인분석결과 서브도메인별분석은각도메인에서발생한트래픽을기준으로분석을수행한다. 그림 9 는네이버의서브도메인별분석중상위 10 개의분석결과를나타낸다. 상위 10 개의서브도메인이네이버트래픽의 93% 를차지하고있으며, 대표적으로사용되는서브도메인은포털사이트의특성상검색에사용되는 search 가많이사용되었다. 다음으로많이사용된것이 cafe, sstatic, static 이다. cafe 는네이버에서제공하는커뮤니티중하나이며, static 과 sstatic 은네이버의기본페이지를구성하기위해 gif 파일과같은이미지파일이나, 홈페이지구성자원들을저장하는데사용되는서브도메인이다. 그림 9. 네이버의상위 10 개서브도메인분석결과 네이버의서브도메인은하루평균 160~230 개정도사용된다. 상위 10 개의서브도메인이외에 cafeimg, blogimgs, ad, m, opencast 등 160 개이상의서브도메인이사용된다. 서브도메인의수는사용자의새로운요구나새로운서비스가요청되었을때추가적으로증가하고있다. 이처럼다양한서브도메인의사용은포털사이트에서다양한서비스를제공한다는것을알수있다. 7

4.4 대표적인서브도메인과이를지원하기위한서브도메인의분석 본논문의분석방법론을학내망트래픽에적용해본결과네이버의서브도메인이 176 개가발견되었다. 앞서언급하였듯이네이버의서브도메인분석에있어서, 대표적인서브도메인과이를지원하기위한서브도메인을서비스그룹으로그룹핑하였다. 그림 10 은대표적인서브도메인을지원하는서브도메인을그룹핑하는알고리즘이다. 그림 10. 대표적인서브도메인을지원하는서브도메인의그룹핑알고리즘 호스트정보가시스템에전달되면시스템은해당호스트가 naver.com 인지확인한다. 호스트정보가 naver.com이면. 을기준으로분류한뒤 naver.com 앞에위치한내용을확인한다. 대표적인서브도메인리스트 (Typical-subdomain List) 와비교하여대표적인서브도메인일경우 DB에정보를추가하며지원하는서브도메인의경우, 대표적인서브도메인으로변경한뒤 DB에정보를추가한다. 그림 11은다른서브도메인을지원하는서브도메인의그룹핑예를보여준다. 그림 11에서상단은알려진대표적인서비스명이고, 하단은그서비스를지원하기위한서브도메인들이다. 예를들면 blog.naver.com을지원하기위한서브도메인은 blogfile1.naver.com, blogfile2.naver.com과같은서브도메인들이존재한다. 그림 11. 서브도메인과이를지원하는서브도메인의그룹핑의예 대표적인서브도메인과이를지원하기위한서브도메인의분류결과 176 개의서브도메인중에대표적인서브도메인을나타내는도메인명은 63 개로약 36% 를차지하고있었다. 특히 blog.naver.com 의경우에는사용자가파일을업로드하거나다운로드하기위해 blogfile1.naver.com 부터 blogfile6.naver.com 까지다양한서브도메인을사용한다는것을알수있다. 8

5. 결론및향후연구 본논문에서는최근증가하고있는 HTTP 트래픽에대하여 HTTP 트래픽을발생시킨서버에초점을두어분석을수행하였다. 이를분석하기위하여 HTTP 헤더필드의 Host 필드와 Location 필드를사용하였다. 또한 HTTP 헤더를통해각각의도메인별분석을수행하였다. 이를통하여학내망에서사용되는서비스들을파악할수있었으며, 이중에서가장많이사용되는포털사이트중하나인네이버를서브도메인별로분석하였다. 분석을통해서버별플로우의수, 바이트의양, 패킷의수를파악하여서버측에서발생되는트래픽에대한세부적인서비스에대해관찰할수있었으며, 서브도메인별사용량에대해서도알수있었다. 포탈에서가장인기있는서비스를파악할수있었으며, 이는추후서비스별서버확충과같은자료로사용될수있다. 즉, HTTP 트래픽을서버측의입장에서분석함으로써웹서버관리자나설계자의입장에서는분석을통하여서버증설등의계획을효율적으로수행할수있으며, 사용자측에서도이를바탕으로안정적인네트워크서비스를지원받을수있다. 본연구에서는포털사이트중네이버에한정된분석을수행하였지만, 이를확장하여다양한도메인을분석할수있는자동화된시그니쳐를생성하여, 분석시발생하는오버헤드를줄이는연구를진행할계획이다. 또한다양한네트워크, 날짜별트래픽에적용해봄으로써제안한방법의타당성을증명하고자한다. 6. 참고문헌 [1] 윤성호, 김명섭, 인터넷응용트래픽분석을위한행위기반시그니쳐추출방법, 통신학회논문지 Vol.38B, No.5, May 2013, pp.368-376. [2] Chang-Gyu Jin, M-Jung Choi, Integrated Analysis Method on HTTP Traffic, Proc. of the Asia- Pacific Network Operatons and Management Symposium (APNOMS), Seoul, Korea, Sep. 2012. [3] Hwan-Hee Kim, Mi-Jung Choi, Towards Automatic Signature Generation for Identification of HTTP-based Applications, Proc. Of the Asia-Pacific Network Operations and Management Symposium (APNOMS), Hirosima, Japan, Sep. 25. 2013 (Accepted) [4] Jeffrey Erman, Martin Arlitt, Anirban Mahanti, Traffic Classification Using Clustering Algorithms, Proc. of SIGCOMM Workshop on Mining network data, Pisa, Italy, Sep. 2006, pp. 281-286. [5] Andrew W. Moore and Denis Zuev, Internet Traffic Classification Using Bayesian Analysis Techniques, Proc. of the ACM SIGMETRICS, Banff, Canada, Jun. 2005. [6] TS Choi, SH Yoon, HS Chung, JS Park, BJ Lee, SS Yoon, and TS Jeong, Flow based Applicationaware Internet Traffic Monitoring and Field Trial Experiences, Proc. of the Asia-Pacific Network Operatons and Management Symposium (APNOMS), Okinawa, Japan, Sep. 27-30, 2005, pp. 214-225. [7] Raffaele Bolla, Marco Canini, Riccardo Rapuzzi, and Michele Sciuto, Characterizing the network behavior of P2P traffic, Proc. of the Telecommunication Networking Workshop on QoS in Multiservice IP Networks IT-NEWS 2008. 4th International, Venice, Italy, Feb. 13-15, 2008, pp. 14-19. [8] 최미정, 진창규, 김명섭, HTTP 트래픽의클라이언트측어플리케이션별분류, 통신학회논문지 Vol. 36, No. 11, Nov. 2011, pp.1277-1284. [9] Falaki H,Lymberopoulos D,Mahajan R,Kandula S,Estrin D, A First Look at Traffic on Smartphones, In proceedings of the 10th annual conference on Internet measurement (IMC), ACM, NY, USA, pp.281-287 [10] 한국인터넷진흥원인터넷통계정보검색시스템, http://isis.kisa.or.kr/sub01/ [11] 진창규, 김명섭, 최미정, HTTP 헤더를이용한서비스별분류, KNOM Review, Vol. 14, No. 2, Dec. 2011, pp. 1-9. [12] Jeffrey Erman, Alexandre Gerber, Subhabrata Sen HTTP in the Home: It is not just about PCs, ACM SIGCOMM Computer Communication Review Volume 41 Issue 1, January 2011. [13] 인터넷트랜드, http://www.internettrend.co.kr/ [14] 랭키닷컴, http://www.rankey.com/ [15] 네이버애널리틱스, http://analytics.naver.com [16] 김지혜, 김명섭, DNS 패킷기반헤더시그니쳐생성및서비스별트래픽분류에관한연구, 9

KNOM Review, Vol. 13, No. 2, Dec. 2010, pp. 34-42. [17] 윤성호, 김명섭, 플로우상관관계를통한인터넷응용트래픽분석의성능향상, 통신학회논문지 B, Vol.36, No.6, Jun. 2011, pp. 600-607. [18] Sung-Ho Yoon, Jin-Wan Park, Young-Seok Oh, Jun-Sang Park, and Myung-Sup Kim, Internet Application Traffic Classification Using Fixed IP-port, Proc. of the Asia-Pacific Network Operations and Management Symposium (APNOMS) 2009, Jeju, Korea, Sep. 23-25, 2009, pp. 21-30. 김환희 (Hwan-Hee Kim) 2013년강원대학교컴퓨터과학과학사졸업 2013년 ~ 현재강원대학교컴퓨터과학과석사과정 < 관심분야 > 트래픽모니터링및분석, 네트워크관리및보안 최미정 (Mi-Jung Choi) 1998년이화여자대학교컴퓨터공학과학사 2000년포항공과대학교컴퓨터공학과석사 2004년포항공과대학교컴퓨터공학과박사 2004년 ~2005 년프랑스 INRIA 연구소박사후연구원 2005년 ~2006 년캐나다워터루대학컴퓨터과학부박사후연구원 2006년 ~2008 년 8월포항공대컴퓨터과학과연구조교수 2008년 8월 ~ 현재강원대학교컴퓨터과학과부교수 < 관심분야 > 트래픽측정및분석, M2M 네트워크및서비스관리, 비정상트래픽탐지 10