패킷 역전 및 중복 문제를 해결한 통계기반 트래픽 분석 시스템

Similar documents
WAN에서 다자간 통신을 위한 계층적 오류복구 기법

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

<4D F736F F D20C3D6C1BE202D D E7420B1E2B9DD20B4DCB8BB20C8A3BDBAC6AE20BFEEBFB5C3BCC1A620C0DAB5BF20C6C7BAB02E646F63>

시스템, 네트워크모니터링을통한보안강화 네트워크의미래를제시하는세미나 세미나 NetFocus 2003 : IT 관리자를위한네트워크보안방법론 피지피넷 /

일반적인 네트워크의 구성은 다음과 같다

완전자동화페이로드시그니쳐업데이트시스템 Fully Automatic Payload Signature Update System 심규석, 구영훈, 이성호, 김명섭고려대학교컴퓨터정보학과 {kusuk007, gyh0808, 요 약 오늘날네트워

12 김명섭 B-RN (2).hwp

6-윤성호KICS hwp

Microsoft PowerPoint - thesis_rone.ppt

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

1217 WebTrafMon II

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

01 KICS 최종본.hwp

슬라이드 1

[ 네트워크 1] 3 주차 1 차시. IPv4 주소클래스 3 주차 1 차시 IPv4 주소클래스 학습목표 1. IP 헤더필드의구성을파악하고요약하여설명할수있다. 2. Subnet ID 및 Subnet Mask 를설명할수있고, 각클래스의사용가능한호스트수와사설 IP 주소및네트

[QoS 강좌] QoS에서의 혼잡 회피 적용과 이해 ②

2009년 상반기 사업계획

그룹웨어와 XXXXX 제목 예제

¼º¿øÁø Ãâ·Â-1

DBPIA-NURIMEDIA

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

슬라이드 1

특허청구의범위청구항 1 패킷스케줄러의패킷스케줄링방법에있어서, 복수의패킷타입각각에대해가중치를결정하는단계 ; 상기가중치에따라상기패킷스케줄러내에서상기복수의패킷타입이대기하기위한전체대기공간을상기복수의패킷타입각각에대한대기공간으로분할하는단계 ; 및상기복수의패킷타입각각에대한가중치를변

슬라이드 제목 없음

SMB_ICMP_UDP(huichang).PDF

°í¼®ÁÖ Ãâ·Â

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

이동통신망에서의 VoLTE 트래픽 분류 방법에 대한 연구

±è¼ºÃ¶ Ãâ·Â-1

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

한국정보과학회 학술대회 논문작성양식

Microsoft PowerPoint - tem_5

TCP.IP.ppt

À±½Â¿í Ãâ·Â

1. 서 론

Microsoft PowerPoint _TCP_IP

UDP Flooding Attack 공격과 방어

歯홍원기.PDF

Microsoft PowerPoint - 06-IPAddress [호환 모드]

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

Switching

3.hwp

[ tcpdump 패킷캡처프로그램 ] tcpdump란? tcpdump 버전확인 tcpdump 플래그 (flags) tcpdump 사용법 tcpdump의사용예제 telnet을활용해 root와 passwd 암호알아내기 [01] tcpdump란? tcpdump는 Lawren

간격으로측정한검측데이터를통합운영부로실시간전송, 모니터링및분석하는기능을제공하여결함궤도의유지보수를수행하게한다. 송신커널단에서는응용프로세스의 write 이벤트마다매번전송을하는것이아니라송신데이터가버퍼에적정량채워졌을때송신을수행한다. 수신단커널은수신한데이터를버퍼링하고수신단응용프로

Microsoft PowerPoint - L4-7Switch기본교육자료.ppt

Microsoft PowerPoint - 04-UDP Programming.ppt

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

근대문화재분과 제4차 회의록(공개)

09È«¼®¿µ 5~152s

The Pocket Guide to TCP/IP Sockets: C Version

< F5320B4EBC0C0C0E5BAF1BFA120B4EBC7D120BAB8BEC8B1E2B4C920B0A1C0CCB5E528C3D6C1BE292E687770>

BY-FDP-4-70.hwp

위해 사용된 기법에 대해 소개하고자 한다. 시각화와 자료구조를 동시에 활용하는 프로그램이 가지는 한계와 이를 극복하기 위한 시도들을 살펴봄으로서 소셜네트워크의 분석을 위한 접근 방안을 고찰해 보고자 한다. 2장에서는 실험에 사용된 인터넷 커뮤니티인 MLBPark 게시판

Microsoft Word - NAT_1_.doc

TTA Verified : HomeGateway :, : (NEtwork Testing Team)

09권오설_ok.hwp

<3130C0E5>

<4D F736F F F696E74202D E20B3D7C6AEBFF6C5A920C7C1B7CEB1D7B7A1B9D62E >

DBPIA-NURIMEDIA

SLA QoS

(JBE Vol. 23, No. 5, September 2018) (Regular Paper) 23 5, (JBE Vol. 23, No. 5, September 2018) ISSN

중간고사

歯이시홍).PDF

IP 심화 라우팅프로토콜적용시 라우팅테이블에서 이니셜이있는네트워크를설정하는것 : onnected 직접연결된네트워크를의미한다. 그러므로라우팅은 나는이런네트워크와연결되어있다. 를직접연결된라우터들에게알려주는것 1>en 1#conf t 1(config)#router rip 1

Subnet Address Internet Network G Network Network class B networ

À¯Çõ Ãâ·Â

소프트웨어 융합 개론

ad hwp

,. 3D 2D 3D. 3D. 3D.. 3D 90. Ross. Ross [1]. T. Okino MTD(modified time difference) [2], Y. Matsumoto (motion parallax) [3]. [4], [5,6,7,8] D/3

untitled

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

3 : BLE CoAP 6LoWPAN (Cheol-Min Kim et al.: Implementation of CoAP/6LoWPAN over BLE Networks for IoT Services).,, [1]. [2], (Wireless Sensor Network,

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

2 : (JEM) QTBT (Yong-Uk Yoon et al.: A Fast Decision Method of Quadtree plus Binary Tree (QTBT) Depth in JEM) (Special Paper) 22 5, (JBE Vol. 2

bn2019_2

Microsoft PowerPoint - 30.ppt [호환 모드]

PPP over Ethernet 개요 김학용 World Class Value Provider on the Net contents Ⅰ. PPP 개요 Ⅱ. PPPoE 개요및실험 Ⅲ. 요약및맺음말

슬라이드 제목 없음

Chap 6: Graphs

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

04김호걸(39~50)ok

02이용배(239~253)ok

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

PowerPoint 프레젠테이션

서론 34 2

정진명 남재원 떠오르고 있다. 배달앱서비스는 소비자가 배달 앱서비스를 이용하여 배달음식점을 찾고 음식 을 주문하며, 대금을 결제까지 할 수 있는 서비 스를 말한다. 배달앱서비스는 간편한 음식 주문 과 바로결제 서비스를 바탕으로 전 연령층에서 빠르게 보급되고 있는 반면,

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

Microsoft Word - camera-ready.doc

(001~006)개념RPM3-2(부속)

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

07.045~051(D04_신상욱).fm

Microsoft Word _whitepaper_latency_throughput_v1.0.1_for_

signature 와어플리케이션 signature 의포맷을재정의하고, LCS 의 modification 에필요한제약사항들과 modified LCS 알고리즘을실제트래픽에적용하는방법을설명한다. 또한 4 장에서는 modified LCS 알고리즘을기반으로실제 signature

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

시스템을 제공한다는 특징이 있다. ONOS[4]는 성능, 확장성, 가용성을 중시하는 분산형 SDN 컨트롤러이 며 편의성 있는 Web GUI 와 SDN 컴포넌트 단위의 계층 구조를 통해 어플리케이션을 개발하고 컨트롤 러에 탑재할 수 있는 기능들을 제공한다. 하지만 ONO

로거 자료실

< FC1A4BAB8B9FDC7D D325FC3D6C1BEBABB2E687770>

Microsoft Word - WireShark 프로그램의 기능 분석_ver1.1.doc

Transcription:

패킷역전및중복문제를해결한통계기반트래픽분석시스템 Statistics-based Traffic Analysis System without Out-of-order and Retransmission Problem 이수강, 안현민, 심규석, 김명섭 고려대학교컴퓨터정보학과 {sukanglee, queen6, kusuk007, tmskim}@korea.ac.kr 요 약 인터넷이발전함에따라네트워크의규모는나날이증가하고있으며, 네트워크내에서발생하는응용트래픽분석의중요성또한강조되고있다. 이러한상황속에서네트워크관리자는효율적인네트워크의관리를위해트래픽을발생시킨응용을탐지할수있어야한다. 응용을탐지하는방법들중하나인통계기반트래픽분석방법은패킷의통계정보를이용하여응용을탐지한다. 하지만수집지점에서수집되는패킷은통계정보의일관성을저해시키는패킷역전문제및재전송에의한중복문제로인해정확한응용탐지에는한계가있었다. 본논문에서는이러한문제점들을해결하는방법론을제시하고실제트래픽분석시스템에적용시킴으로써응용별바이트기준최대 4% 의탐지및분석률향상을보였다. 이는제안한방법론이실제트래픽망에부담을줄수있는 heavy 플로우의분석에기여함을확인하였다. Keywords: Out-of-order, Retransmission, Application classification, Network Management. 서론 현재인터넷의급격한발전으로인해네트워크의규모는나날이증가하고있으며, 네트워크내에서발생하는응용트래픽분석의중요성또한강조되고있다. 이러한상황속에서네트워크관리자는효율적인네트워크의관리를위해트래픽을발생시킨응용을탐지할수있어야한다. 트래픽의통계정보를사용하여응용을분류하는방법 [,] 은트래픽을발생시킨응용을탐지하고분류하는방법이다. 통계정보트래픽분류방법은패킷의크기와전송방향, 전송순서, 그리고수집된시간등의속성값들을사용하여응용을분류한다. 수집지점에서수집된패킷의통계정보를아무런처리과정없이사용할경우패킷의역전 (Out-of-order), 재전송에의한패킷중복 (Retransmission) 와같은문제점들로인해트래픽의 feature가달라져서 00% 정확한응용분류가어렵다. 수집지점에서발생하는패킷역전문제는패킷들이단일경로가아닌여러경로를통해전송될때발생한다. 이때패킷이전송되는경로의상태에따라전송되는패킷들의순서는송신측이보낸순서가아닌다른순서로수신측에전달된다. 원래순서가아닌다른순서의패킷들은데이터가전송되는경로의중간에위치한수집지점에서트래픽이수집된다. 이렇게수집되어저장된패킷의순서는송신측이보낸패킷의순서와맞지않게되는데이러한문제를수집지점에서발생하는패킷역전문제라한다. 이논문은 0 년정부 ( 교육과학기술부 ) 의재원으로한국연구재단 (0RAA00748) 및 0 년도정부 ( 미래창조과학부 ) 의재원으로한국연구재단 - 차세대정보컴퓨팅기술개발사업 (00-00078) 및 0 년 BK 플러스사업의지원을받아수행된연구임.

수신측은송신측으로부터받은패킷에서오류가발견되었을경우오류가발견된패킷과동일한패킷을송신측에게재전송요청을한다. 또는송신측은수신측에게보낸패킷의응답패킷을일정시간내에받지못할경우해당패킷을재전송하게된다. 이렇게발생한재전송패킷은수집지점에서중복되어수집되는데이러한문제를수집지점에서발생하는패킷중복문제라한다. 본논문에서는트래픽수집지점에서발생하는패킷역전, 패킷중복문제를해결하는알고리즘을제안하고자한다. 이러한문제를수집지점에서처리하게되면수집되는트래픽의통계정보는각응용의트래픽통계정보와항상동일한트래픽을수집할수있다. 이렇게수집한통계정보의특성을바탕으로트래픽을발생시킨응용별시그니쳐를만들어사용하게되면분석이요구되는트래픽데이터에서해당응용을정확히탐지할수있다. 본논문은다음과같은순서로구성된다. 장에서는통계정보를이용해트래픽을분류하는기존연구들을살펴보고 장에서는수집지점에서발생하는패킷역전문제와패킷중복문제를정의한후종점호스트에서발생하는패킷역전, 패킷중복문제와의차이점을기술한다. 4 장에서는수집지점에서발생하는패킷역전, 패킷중복문제를해결하는방법을제시하고 5 장에서는제안한방법의성능을평가하기위한실험결과를기술한다. 마지막으로 6 장에서는결론과향후연구계획을언급한다.. 관련연구응용트래픽플로우정보의통계적인특성을이용한트래픽분류방법은최근몇년간많은관심을받으며연구가진행되어왔다. 그대부분은머신러닝 (Machine Learning) 알고리즘을이용한다. 이러한방법들은응용별트래픽의특징이될수있는항목 (Port number, Flow duration, Inter-arrival time, Packet size) 들을머신러닝알고리즘에적용하여트래픽을분류한다. 이방법은최근증가하고있는암호화된트래픽의분석에용이하며, 패킷의페이로드정보를분석하지않기때문에개인정보침해의문제가없고빠른속도로분류할수있다는장점을가진다. 또한머신러닝의알고리즘을이용함으로써트래픽을응용별로분류함에있어다른방법에비해보다높은분석정확도를제공한다. 기존의일부연구들은 [,4,5,6] 트래픽을분류하기위한속성들로플로우전체단위패킷의통계적특성을사용하기때문에실시간트래픽분류에사용할수없다. 이러한문제를해결하기위해플로우의처음 N 개패킷에서속성을추출하는방법들이연구되었으나 [7,8,9] 속성계산오버헤드와사용하는머신러닝알고리즘의높은계산복잡도로인해초고속대용량네트워크에서실시간분류에적용하기엔무리가있다. 또한대부분의연구들에서트래픽을분류하는단위의정의가응용의프로토콜이기때문에분류결과가상세하지않고, 이로인해개별응용단위의분류를필요로하는네트워크관리및운영정책에적용하기어렵다. 기존의모든관련연구에서는트래픽의통계적특징을사용하지만패킷역전문제, 재전송에의한패킷중복문제와같은통계적특징변화에대한문제는다루어지지않았다. 따라서본연구에서는트래픽수집지점에서발생하는패킷역전문제와재전송에의한중복패킷문제를정의하고해결하는알고리즘을제안하고자한다.. 문제정의본장에서는수집지점에서일어나는패킷역전문제와재전송에의한패킷중복문제를정의한다. 또한종점호스트에서발생하는패킷역전, 패킷중복문제와트래픽수집지점에서발생하는패킷역전, 패킷중복문제와의차이점을기술한다. TCP 는두종점호스트사이에신뢰성있는세션을제공함으로써상위계층 ( 응용프로그램 ) 사이에투명한데이터전달을제공한다. 종점간신뢰성있는데이터송수신보장을위해 TCP 는 sequence 와 Acknowledge, checksum 등의필드와재전송, 흐름제어등의방법을사용한다. 데이터가목적지의 TCP 에게잘전달되었는지확인하기위해 Ack(Acknowledge) 를사용한다. 데이터를수신한상대방은데이터가오류없이잘도착했는지확인후문제가없으면송신측으로 Ack 를보낸다. 또한오류를학인하기위해 checksum 을사용하고데이터의전달순서를확인하기위해 sequence 를사용한다. 수신측에서오류를발견하면오류가발견된패킷을버리고 Ack 를보내지

않음으로써송신측에오류가발생했음을알리거나최근정상적으로수신한데이터에대한 Ack 를반복하여보냄으로써송신측이 Ack 이후의데이터에서오류가발생한것또는패킷이유실된것을알수있도록하고해당패킷을재전송하도록한다.. 패킷역전문제두종점호스트사이에전송되는패킷들은단일경로가아닌여러경로를통하여전송될수있다. 패킷이여러경로로전송될경우, 각각의경로의상황에따라송신측에서보낸패킷을수신측에서받을때송신측에서보낸순서와는다른순서로받게될수있다. 이러한문제를종점호스트에서발생하는패킷역전문제라하며수신측의 TCP 는이러한문제해결을위해패킷의 Seqenuce 를확인하고패킷의순서를재정렬하게된다. 그림 에서 Host A 가 Host B 에게여러개의패킷들을전송한다고가정할때패킷들은각각다른경로로전송될수있으며, Host B 가전송받는패킷들의순서는 Host A 가보낸순서와다를수있다. 이때 Host B 의 TCP 전송계층에서는원래의순서대로재정렬작업을수행하여상위계층으로전달한다. 그러나트래픽수집지점에서는이러한재정렬작업을수행하지않으므로 TCS 에저장되는패킷의순서는 Host A 에서보낸패킷의순서와맞지않게된다. 이러한문제를수집지점에서발생하는패킷역전 (Out-of-order) 문제라한다. Host B 4 CP After reordering 4 4 Host A 4 4 TCS 4 CP : Collection Point TCS : Traffic Capture System 그림. 수집지점에서발생하는패킷역전문제. 패킷중복문제패킷재전송은송신측에서보낸패킷이수신측으로전송중에어떠한이유로유실되어수신측이해당패킷을받지못하였거나받은패킷에오류가발견되었을경우수신측요청에의해발생하는것으로, 송신측은오류로인해수신측까지전송되지못한데이터와해당데이터의 sequence값을가진패킷을재전송하게된다. Error Packet Host B CP After reordering After process Host A TCS CP : Collection Point TCS : Traffic Capture System 그림. 수집지점에서발생하는재전송에의한패킷중복문제

그림 는 Host A 가 Host B 에게패킷을보낼때재전송패킷이발생하는상황을나타낸그림이다. Host B 는 Host A 가보낸패킷총 개의패킷을받는다. Host B 는 Host A 가보낸패킷중 번째패킷에서오류를발견하고 Host A 에게 번패킷의재전송을요청하게된다. Host A 는재전송요청에의해 번패킷을다시보내게되고 Host B 는재전송된패킷을받고오류가발견된패킷은삭제한다. 하지만중간에위치한수집지점에는오류가발생한원래의 번패킷과재전송된 번패킷을중복하여저장한다. 중복저장된패킷은서로동일한 sequence 를갖는패킷이다. 이러한문제를수집지점에서발생하는재전송에의한패킷중복 (Retransmission) 문제라한다.. 재패킷화문제재전송에의해중복되어저장되는패킷은서로동일한 sequence 값을갖는패킷이다. 또한보통의경우는원래의패킷과재전송된패킷은데이터와그크기가같다. 그러나 TCP 는성능향상을목적으로재전송할때더전송할데이터가있다면최대패킷크기범위내에서패킷을재조립하여보내게된다. 이것을패킷의재패킷화 (Repacketization) 이라고하며재패킷화된패킷이재전송될경우그림 과같은문제가발생한다. Sequence 00 60 90. Original Packet PPnn PP nn+. 00 60 90 Case Retransmission Packet PPnn PP nn+ Case 00 90 Retransmission with repacketized RR nn+ RR nn = PP nn + PP nn+ 그림. 재패킷화된패킷의재전송문제 그림 은재패킷화된패킷이전송될경우발생할수있는문제를설명하기위한그림이다. 원래의패킷 (Original Packet) 은수집지점을통과후수신측으로전달이되었다. 수신측에서는해당패킷의오류를발견하고송신측에게재전송을요청하였다. 송신측에서는재전송요청을받은후패킷을다시보내게되는데 Case 은동일한데이터를가진재전송패킷을보내는경우이고 Case 는재패킷화되어그크기가원래의패킷보다큰패킷을보내는경우이다. Case 의경우에는원래의패킷과재전송된패킷의크기가같으므로이후에오는패킷의 sequence 값은 60 으로같다. 따라서수집지점에서는재전송된패킷만삭제하면문제가해결된다. 하지만 Case 의경우는원래의패킷과재전송된패킷의크기가다르므로이후에오는패킷의 sequence 값은원래의패킷과맞지않게된다. 따라서수집지점에서는재패킷화되어재전송된패킷을삭제하고또한이후에전송될수있는재패킷화된패킷과관계하는패킷또한삭제해야문제를해결할수있다. 4. 해결방법본장에서는수집지점에서발생하는패킷역전탐지및해결모듈, 패킷재전송에의한패킷중복탐지및해결모듈을각각의모듈로구분하여각각의모듈에대한알고리즘을기술한다. 4. 패킷역전문제해결방법본절에서는기존연구 [0] 에서패킷역전문제를탐지하고해결하는알고리즘의한계점을분석하고이를개선한알고리즘에대해기술한다. 본논문에서표현하는패킷의방향은출발지주소와목적지주소에의해결정된다. 플로우기준으로처음발생한패킷의방향을순방향으로정의한다. 순방향패킷과출발지주소, 목적지주소가서로반대일경우반대방향패킷으로정의한다. 4

기존연구에서는순서에맞지않는패킷의올바른위치를찾을때해당플로우내의같은방향의패킷만검사하여위치를정하였다. 순서에맞지않으면같은방향의패킷들사이에서패킷의위치를정하였고, 반대방향으로전송되는주변패킷과의관계는고려하지않았다. 따라서역전이발생한패킷의응답패킷이있어도응답패킷은반대방향의패킷이므로검사를하지않고위치를찾게된다. 따라서원래의패킷순서를찾기위해서는같은방향뿐만아니라옮겨질위치까지의역방향패킷과의관계도생각하여처리해야정확한원래의패킷순서를복원할수있다. 표 은패킷역전문제를해결하기위한알고리즘의의사코드이다. ( 줄 ) 알고리즘의입력으로들어온패킷 P(n) 과방향이같은패킷들중가장가까이위치한 P(k) 를찾는다. ( 줄 4) 이렇게찾은 P(k) 와 P(n) 의 sequence 값을비교한다. P(n) 의 sequence 값이 P(k) 의 sequence 값보다크면순서가바뀐패킷을탐지하고문제를해결한다. ( 줄 6) P(n) 과방향이같으면서 P(n) 의 sequence 값보다작은값을갖는 P(i) 를찾는다. ( 줄 7) 이렇게찾은 P(i) 와방향이같으면서 P(i) 의 sequence 값보다큰패킷들중에서가장가까이위치한 P(j) 를찾는다. 이렇게찾은 P(i) 와 P(j) 사이에 P(n) 과반대방향을갖는패킷이없다면 P(n) 은 P(i) 의뒤에위치시킨다. ( 줄 0) 만약방향이다른패킷들 (P(m)) 중 P(m).ack == P(n).seq + P(n).len 을만족하는패킷 P(m) 이존재하면 P(n) 은 P(m) 의앞에위치시킨다. ( 줄 ) 또는 P(m).ack < P(n).seq + P(n).len 을만족하는패킷 P(m) 이존재하면 ( 줄 ) P(n) 은 P(m) 의뒤에위치시킨다. Remove all non-payload packets from the packet sequence P(n) : n-th packet in a TCP flow P(n).seq : n-th packet s sequence nunmber P(n).ack : n-th packet s acknowledge nunmber P(n).dir : n-th packet s direction P(n).len : n-th packet s payload length module Solution for the Out-of-order problem : Input : P(n) in a TCP Flow : find P(k) which P(k).dir == P(n).dir && biggest k in 0 <= k < n 4: if(p(k).seq > P(n).seq) // out-of-order detect 5: { 6: find P(i) which P(i).dir == P(n) && P(i).seq < P(n).seq 7: find P(j) which P(j).dir == P(i) && smallest j in 0 <= j < k 8: for each P(m) from P(j-) to P(i+) 9: { 0: if(p(m).dir!= P(n).dir && P(m).ack == P(n).seq + P(n).len) : put P(n) before P(m); end module; : if(p(m).dir!= P(n).dir && P(m).ack < P(n).seq + P(n).len : put P(n) after P(m); end module; 4: } 5: put P(n) after P(i); 6: } 7: end module; 표. 패킷역전문제해결알고리즘 4. 패킷중복문제해결알고리즘본절에서는기존연구 [] 에서패킷재전송에의한중복문제를탐지하고해결하는알고리즘의문제점을분석하고이를개선한알고리즘에대해기술한다. 패킷중복문제는플로우내패킷들의방향과 sequence 값을비교하여탐지한다. 동일한플로우내에두개이상의패킷이같은방향이면서동일한 sequence 값을갖게되면중복패킷으로탐지한다. 또한같은방향, 동일한 sequence 를가지면서패킷의크기가다른경우에는재패킷화된패킷중복문제로탐지한다. 기존연구에서는중복패킷이발생하면오류가났던패킷은삭제하고중복패킷을저장하였다. 하지만원래의통계정보를찾는것이목적이므로본논문에서는원래의패킷은저장하고중복된패킷을삭제하였다. 5

Remove all non-payload packets from the packet sequence P(n) : n-th packet in a TCP flow P(n).seq : n-th packet s sequence nunmber P(n).ack : n-th packet s acknowledge nunmber P(n).dir : n-th packet s direction P(n).len : n-th packet s payload length : module Solution for the Retransmission problem : Input : P(n) in a TCP Flow : find P(k) which P(k).dir == P(n).dir && biggest k in 0<= k < n; 4: if( P(k).seq == P(n).seq ) // Retransmission 5: Delete P(n); 6: else if( P(k).seq + P(k).len!=P(n).seq ) 7: Delete P(n); 8: end module; 표. 패킷중복문제해결알고리즘 표 는패킷재전송에의한중복패킷문제를해결하기위한알고리즘의의사코드이다. ( 줄 ) 알고리즘의입력으로들어온 P(n) 과방향이같은패킷들중가장가까이위치한 P(k) 를찾는다. ( 줄 4) 이렇게찾은 P(k) 의 sequence 값과 P(n) 의 sequence 값을비교하여같으면패킷재전송에의한중복패킷문제를탐지하고삭제한다. ( 줄 6) 만약 P(n) 이 P(k) 의재전송패킷이아니라도 P(k) 의 sequence 값과패킷의페이로드길이를더한값이 P(n) 의 sequence 값과같이않을경우에는 P(n) 이이전에재패킷화되어재전송된패킷과관계하는패킷이라간주하여삭제된다. 5. 실험본장에서는 4 장에서기술한패킷역전문제, 패킷중복문제를해결하는알고리즘의성능을평가하기위해두가지실험을하였다. 첫번째실험에서는제안한알고리즘을실제트래픽에적용하여패킷역전, 중복문제의발생빈도, 해결정도를살펴성능을평가한다. 두번째실험에서는해당문제를해결하기전과해결한이후의응용분석량을비교하여성능을평가한다. 5. 실험데이터본논문에서기술한알고리즘의성능평가를위해 9 개의응용을선정하여실험용트래픽데이터를수집하였다. 통계정보를이용한시그니쳐생성용으로수집한데이터는 85GB 이며이중 TCP 는 8GB, 57GB 이다. 이렇게생성된시그니쳐를이용하여분석하기위해수집한데이터의총량은약 66GB 이며, 이중 TCP 는 8GB, UDP 는 9GB 이다. 분석용트래픽중에서뮤토렌트 (µtorrent). 응용에서발생한트래픽은 48GB 이다. 5. 실험환경 그림 4. 통계적특징기반시그니쳐추출시스템 6

본논문에서성능평가에사용하는통계적특징기반시그니쳐추출시스템은그림 4 와같은환경에서동작한다. 먼저 TCS(Traffic Capture System) 에서 Validation Network 의트래픽을수집하고 TMS(Traffic Measurement Server) 에서 TMA 로그 (Traffic Measurement Agent) 를추출및이용하여정답지 (Ground Truth)[] 를생성한다. 이렇게생성된정답지로 SGS(Signature Generation System) 에서시그니쳐를추출한다. 이러한 Agent 를통한정답지생성방법은특정분류방법을통해분류한결과를사용한것 [] 보다높은신뢰성을보장해준다. 제안하는패킷역전문제, 패킷중복문제해결은시그니쳐를추출하기전, 패킷을수집하는 TCS 에서행해야한다. 그림 5. 트래픽분류시스템 그림 5 는본논문에서성능평가에사용하는트래픽분류시스템이동작하는환경이다. 먼저 TCS 에서 Validation Network 의트래픽을수집하고 TAS(Traffic Analysis System) 에서시그니쳐를이용하여수집된트래픽을응용별로분류한다. 시그니쳐추출시스템과마찬가지로제안하는 Outof-order, Retransmission 문제해결은점선으로된사각형으로표시한 TCS 에서행해야한다. 5. 실험결과본절에서는 4 장에서제안한패킷역전, 중복문제를해결하는알고리즘을 5. 절에서설명한실험환경에적용시킨결과를기술한다. 본논문에서제안하는알고리즘의성능평가를위해두가지실험을진행하였다. 첫번째실험에서는제안된알고리즘을실제트래픽에적용하여문제의해결정도를살펴성능을평가한다. 두번째실험에서는이상동작의처리후통계적특징기반트래픽분류시스템의성능이향상되는지검증하기위해패킷역전문제, 패킷중복문제해결전후시스템에적용실험하여성능을비교평가한다. 두번째실험에서사용하는통계시그니쳐기반트래픽분류시스템 [] 은앞서플로우의첫 5 개패킷의페이로드크기와전송방향, 순서를이용하여 5 차원의플로우벡터로표현한뒤그룹화하여시그니쳐를추출하고, 마찬가지로플로우의첫 5 개패킷을플로우벡터로표현한뒤추출된시그니쳐를적용해트래픽을분류하는시스템이다. state Flow Packet Byte # % # % GB % Normal 8,657 74.68 64,78K 70.97 59.5 70.7 Out-of-order 50 0.0 8K 0.0 0.0 0.0 Retransmission 6,974.7,95K 5.5. 6. Repacketization,86.,69K.47.45.9 TCP Total 58,867 9,75K 8.9 표. TCP 세션에서패킷역전, 중복, 재패킷화발생비율 7

표 은본논문에서사용된분석용트래픽에서발생하는패킷역전, 중복, 재패킷화문제의발생정도를나타낸표이다. 패킷역전문제는전체 TCP 트래픽기준 Flow 0.0%, Packet 0.0%, Byte 0.0 퍼센트로문제가많이발생하지않았다. 재전송에의한패킷중복문제는전체 TCP 트래픽기준 Flow.7%, Packet 5.5%, Byte 6.% 를차지하였다. 재패킷화문제또한 Flow.%%, Packet.47%, Byte.9% 를차지하였다. Application Total Flow Packet Byte Analyzed Flow Packet Byte not resolved resolved not resolved resolved not resolved resolved skype,4 K 8,59K 75 794 5K 6K 6,978K 7,400K naverlive,8,4k 8,59,9K,05,06 0,049K 0,95K 6,46,8K 6,57,5K gomtv 98 86K 80,0K 70 70 745K 746K 7,854K 7,45K xshell 40 64K 8,K 89 88 6K 6K 8,0K 8,07K teamviewer 485 K 74,59K 46 4 96K 97K 6,85K 6,875K nateon 99 0K,9K 7 7 0K 0K,68K,684K dropbox 4,64 4K 66,6K 4,599 4,6 K K 65,505K 65,774K putty 66 7K 4,5K 6 6 7K 7K 4,080K 4,096K outlook 4,87 496K 6,9K,55,40 4K K 54,4K 54,09K utorrent 47,74 4,90K 74,98,568K 6,06 08,475 57,45K 58,46K 6,7,646K 7,05,776K Total 4,0 447,4K 9,70,504K 7,945 0,8 79,078K 80,5K 5,466,845K 54,690,9K 표 4. 패킷역전, 중복, 재패킷화문제해결전 / 후응용분류실험결과 표 4 는본논문에서제안한알고리즘으로패킷역전, 중복, 재패킷화문제해결전, 후의응용분류실험결과를나타낸표이다. 대부분의응용들은문제해결후플로우, 패킷, 바이트별분석량이상승한것을확인할수있었다. 그러나 xshell, outlook 은플로우, 패킷, 바이트별분석량이각각소폭하락하였다. 해당분석되지않은플로우들을살펴본결과재전송패킷 ~ 개로이루어진플로우들이었다. 패킷중복문제해결후에는이러한재전송패킷들은 개를제외하고모두삭제되어해당플로우가분석대상에서제외되어나타나는현상이었다. 또한 utorrent 의경우에는플로우는분석량이줄었음에도불구하고패킷과바이트분석량이늘어나는현상을보였다. utorrent 또한재전송패킷들로인해해당플로우들이분석대상에서제외되어나타나는현상으로확인되었고, 이러한결과는트래픽망에큰부담을주는 heavy 플로우를더정확히분석한것을의미한다. 결론적으로본논문에서제안한알고리즘을적용함으로써여러응용이발생시키는트래픽중에서실제트래픽망에부담을줄수있는 heavy 플로우의시그니쳐를생성하고, 생성된시그니쳐를바탕으로트래픽분석률또한향상시킬수있다는것이다. Accuracy Completeness Flow Packet Byte Flow Packet Byte Not resolved problem 99.80% 99.% 99.40% 5.76% 40.04% 8.98% Resolved problem 99.8% 99.0% 99.40% 5.0% 40.0% 9.9% 표 5. 실험결과분석률및정확도 표 5 는실험결과의분석률및정확도를나타낸표이다. 본논문에서제시한알고리즘을적용하였을때가적용하지않았을때보다플로우를제외한패킷과바이트측면에서는적게나마 8

좋은결과를나타냈다. 6. 결론 본논문에서는 TCP 세션에서발생하는패킷의역전문제, 재전송문제그리고재패킷화문제에대해기술하고해결하는알고리즘을제안하였다. 그리고제안한알고리즘을실제트래픽분석시스템에적용하여응용별최대 4% 의탐지및분석률향상을보임으로써알고리즘의성능을입증하였다. 특히 utorrent 응용의경우플로우분석량이 8,000 개감소했음에도불구하고바이트분석량은 GB 가량상승하였다. 이러한결과는트래픽망에큰부담을주는 heavy 플로우의분석량이증가하였음을나타낸다. 향후연구로는본논문의실험에서분석률이하락한응용에대한다양하고구체적인연구를진행하여분석률하락의원인을밝히고, 분석률을향상시키기위해연구할계획이다. 참고문헌 [] L. Bernaille, R. Teixeira, and K. Salamatian, Early application identification, in Proc. CoNext 006. Conf. Future Netw. Technol., 006. [] Y.-T Han and H.-S. Park, Game traffic classification using statistical characteristics at the transport layer, ETRI J., vol., no., pp. -, Feb. 00. [] Y. Jin, N. Duffield, J. Erman, P. Haffner, S. Sen, and Z. L. Zhang, A modular machine learning system for flowlevel traffic classification in large networks, ACM Trans. Knowledge Discovery from Data, vol. 6, pp. -4, 0. [4] J. Tan, X. Chen, and M. Du, An internet traffic identification approach based on GA and PSO-SVM, J. Computers, vol. 7, pp. 9-9, 0. [5] R. Yuan, Z. Li, X. Guan, and L. Xu, An SVM-based machine learning method for accurate internet traffic classification, Inf. Syst. Frontiers, vol., pp. 49-56, Apr. 00. [6] S. Runyuan, Y. Bo, P. Lizhi, C. Yuehui, Z. Lei, and J. Shan, Traffic classification using probabilistic neural networks, in Proc. ICNC, vol. 4, pp. 94-99, Yantai, Shandong, Aug. 00. [7] L. Bernaille, R. Teixeira, and K. Salamatian, Early application identification, in Proc. ACM CoNEXT, Lisboa, Portugal, 006. [8] T. Bujlow, T. Riaz, and J. M. Pedersen, A method for classification of network traffic based on C5.0 Machine Learning Algorithm, in Proc. ICNC, pp. 7-4, Maui, HI, Feb. 0. [9] C. Yin, S. Li, and Q. Li, Network traffic classification via HMM under the guidance of syntactic structure, J. Comput. Netw., vol. 56, pp. 84-85, Apr. 0. [0] H. M. An, J. H. Choi, J. H. Ham, and M. S. Kim. A method to resolve the limit of traffic classification caused by abnormal TCP session, KNOM Rev., vol. 5, no., pp. -9, Dec. 0. [] J. W. Park and M. S. Kim Performance improvement of the statistic signature based traffic identification system, J. KIPS, vol. 8-C, no. 4, Aug. 0. [] B. C. Park, Y. J. Won, M.-S. Kim, and J. W. Hong, Towards automated application signature generation for traffic identification, in Proc. IEEE Network Operations and Management Symp. (NOMS), pp. 60-67, Salvador, Bahia, Apr. 008. [] F. Gringoli, L. Salgarelli, M. Dusi, N. Cascarano, F. Risso, and K. C. Claffy, GT: Picking up the truth from the ground for internet traffic, ACM SIGCOMM Computer Commun. Rev., vol. 9, pp. -8, 009. 이수강 04 년 : 고려대학교컴퓨터정보학과졸업 04 년 ~ 현재 : 고려대학교컴퓨터정보학과석사과정 < 관심분야 > 네트워크관리및보안, 트래픽모니터링및분석, 트래픽분류 안현민 0 년 : 고려대학교컴퓨터정보학과졸업 0 년 ~ 현재 : 고려대학교컴퓨터정보학과석사과정 9

< 관심분야 > 네트워크관리및보안, 트래픽모니터링및분석 심규석 04 년 : 고려대학교컴퓨터정보학과졸업 04 년 ~ 현재 : 고려대학교컴퓨터정보학과석사과정 < 관심분야 > 네트워크관리및보안, 트래픽모니터링및분석 김명섭 998 년 : 포항공과대학교전자계산학과졸업 000 년 : 포항공과대학교컴퓨터공학과석사 004 년 : 포항공과대학교컴퓨터공학과박사 006 년 :Post-Doc. Dept. of ECE, Univ. of Toronto, Canada 006 년 ~ 현재 : 고려대학교컴퓨터정보학과부교수 < 관심분야 > 네트워크관리및보안, 트래픽모니터링및분석, 멀티미디어네트워크 0