6-윤성호KICS hwp

Similar documents
WAN에서 다자간 통신을 위한 계층적 오류복구 기법

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

완전자동화페이로드시그니쳐업데이트시스템 Fully Automatic Payload Signature Update System 심규석, 구영훈, 이성호, 김명섭고려대학교컴퓨터정보학과 {kusuk007, gyh0808, 요 약 오늘날네트워

<4D F736F F D20C3D6C1BE202D D E7420B1E2B9DD20B4DCB8BB20C8A3BDBAC6AE20BFEEBFB5C3BCC1A620C0DAB5BF20C6C7BAB02E646F63>

1217 WebTrafMon II

시스템, 네트워크모니터링을통한보안강화 네트워크의미래를제시하는세미나 세미나 NetFocus 2003 : IT 관리자를위한네트워크보안방법론 피지피넷 /

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

Microsoft PowerPoint - thesis_rone.ppt

Microsoft Word - NAT_1_.doc

패킷 역전 및 중복 문제를 해결한 통계기반 트래픽 분석 시스템

12 김명섭 B-RN (2).hwp

01 KICS 최종본.hwp

DBPIA-NURIMEDIA

09권오설_ok.hwp

°í¼®ÁÖ Ãâ·Â

UDP Flooding Attack 공격과 방어

bn2019_2

DBPIA-NURIMEDIA

Microsoft PowerPoint - 06-IPAddress [호환 모드]

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

[ 네트워크 1] 3 주차 1 차시. IPv4 주소클래스 3 주차 1 차시 IPv4 주소클래스 학습목표 1. IP 헤더필드의구성을파악하고요약하여설명할수있다. 2. Subnet ID 및 Subnet Mask 를설명할수있고, 각클래스의사용가능한호스트수와사설 IP 주소및네트

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

제20회_해킹방지워크샵_(이재석)

09È«¼®¿µ 5~152s

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

SMB_ICMP_UDP(huichang).PDF

TCP.IP.ppt

Network seminar.key

WAN에서 다자간 통신을 위한 계층적 오류복구 기법

일반적인 네트워크의 구성은 다음과 같다

#Ȳ¿ë¼®

슬라이드 제목 없음

USB USB DV25 DV25 REC SRN-475S REC SRN-475S LAN POWER LAN POWER Quick Network Setup Guide xdsl/cable Modem PC DVR 1~3 1.. DVR DVR IP xdsl Cable xdsl C

歯홍원기.PDF

< C6AFC1FD28B1C7C7F5C1DF292E687770>

Microsoft Word doc

이동통신망에서의 VoLTE 트래픽 분류 방법에 대한 연구

PWR PWR HDD HDD USB USB Quick Network Setup Guide xdsl/cable Modem PC DVR 1~3 1.. DVR DVR IP xdsl Cable xdsl Cable PC PC DDNS (

08김현휘_ok.hwp

07.045~051(D04_신상욱).fm

슬라이드 제목 없음

DBPIA-NURIMEDIA

Microsoft PowerPoint - ch13.ppt

게시판 스팸 실시간 차단 시스템

2009년 상반기 사업계획

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

1. KT 올레스퀘어 미디어파사드 콘텐츠 개발.hwp

Microsoft PowerPoint - tem_5

PCServerMgmt7

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

Microsoft PowerPoint - L4-7Switch기본교육자료.ppt

인문사회과학기술융합학회

[QoS 강좌] QoS에서의 혼잡 회피 적용과 이해 ②

(JBE Vol. 23, No. 1, January 2018) (Special Paper) 23 1, (JBE Vol. 23, No. 1, January 2018) ISSN 2287-

특허청구의 범위 청구항 1 회선 아이디 접속 시스템에 있어서, 온라인을 통해 실제 사용자 고유정보의 발급이 가능한 아이디 발급 사이트를 제공하기 위한 아이디 발급 수단; 오프라인을 통한 사용자의 회선 아이디 청약에 따라 가상의 사용자 고유정보 및 가인증 정보를 생성하고

14.531~539(08-037).fm

05( ) CPLV12-04.hwp

응용 레벨 모바일 트래픽 모니터링 및 분석을 위한 시스템 연구

[ tcpdump 패킷캡처프로그램 ] tcpdump란? tcpdump 버전확인 tcpdump 플래그 (flags) tcpdump 사용법 tcpdump의사용예제 telnet을활용해 root와 passwd 암호알아내기 [01] tcpdump란? tcpdump는 Lawren

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

45-51 ¹Ú¼ø¸¸

< F5320B4EBC0C0C0E5BAF1BFA120B4EBC7D120BAB8BEC8B1E2B4C920B0A1C0CCB5E528C3D6C1BE292E687770>

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Voice Portal using Oracle 9i AS Wireless

歯이시홍).PDF


비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

09오충원(613~623)

<31325FB1E8B0E6BCBA2E687770>

소프트웨어 융합 개론

1. What is AX1 AX1 Program은 WIZnet 사의 Hardwired TCP/IP Chip인 iinchip 들의성능평가및 Test를위해제작된 Windows 기반의 PC Program이다. AX1은 Internet을통해 iinchip Evaluation

Microsoft PowerPoint - 4.스캐닝-1(11.08) [호환 모드]

<30322DC5EBBDC5BDC3BDBAC5DB2D4A365F F525BC3D6C1F6C7F55D2E687770>

00내지1번2번

DBPIA-NURIMEDIA

PowerPoint 프레젠테이션

SLA QoS

<31362DB1E8C7FDBFF82DC0FABFB9BBEA20B5B6B8B3BFB5C8ADC0C720B1B8C0FC20B8B6C4C9C6C32E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

<4D F736F F F696E74202D E20B3D7C6AEBFF6C5A920C7C1B7CEB1D7B7A1B9D62E >

thesis-shk

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

본교재는수업용으로제작된게시물입니다. 영리목적으로사용할경우저작권법제 30 조항에의거법적처벌을받을수있습니다. [ 실습 ] 스위치장비초기화 1. NVRAM 에저장되어있는 'startup-config' 파일이있다면, 삭제를실시한다. SWx>enable SWx#erase sta

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

04-다시_고속철도61~80p

<313920C0CCB1E2BFF82E687770>

À±½Â¿í Ãâ·Â

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

07변성우_ok.hwp

Microsoft PowerPoint - 30.ppt [호환 모드]

Microsoft Word - FunctionCall

시스템을 제공한다는 특징이 있다. ONOS[4]는 성능, 확장성, 가용성을 중시하는 분산형 SDN 컨트롤러이 며 편의성 있는 Web GUI 와 SDN 컴포넌트 단위의 계층 구조를 통해 어플리케이션을 개발하고 컨트롤 러에 탑재할 수 있는 기능들을 제공한다. 하지만 ONO


Microsoft PowerPoint - CoolMessenger_제안서_라이트_200508

무선데이터_요금제의_가격차별화에_관한_연구v4.hwp

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

untitled

Transcription:

논문 13-38B-05-06 한국통신학회논문지 '13-05 Vol.38B No.05 http://dx.doi.org/10.7840/kics.2013.38b.5.368 인터넷응용트래픽분석을위한행위기반시그니쳐추출방법 윤성호, 김명섭 Behavior Based Signature Extraction Method for Internet Application Traffic Identification Sung-Ho Yoon, Myung-Sup Kim 요 약 최근급격한인터넷의발전으로효율적인네트워크관리를위해응용트래픽분석의중요성이강조되고있다. 본논문에서는기존분석방법의한계점을보완하기위하여행위기반시그니쳐를이용한응용트래픽분석방법을제안한다. 행위기반시그니쳐는기존에제안된다양한트래픽특징을조합하여사용할뿐만아니라, 복수개플로우들의첫질의패킷을분석단위로사용한다. 제안한행위기반시그니쳐의타당성을검증하기위해국내외응용 5종을대상으로정확도를측정결과, 모든응용에서 100% Precision을나타내었다. Key Words : behavior based signature, signature extraction, signature creation, traffic identification, traffic classification ABSTRACT The importance of application traffic identification is emphasized for the efficient network management with recent rapid development of internet. In this paper, we present the application traffic identification method using the behavior based signature to improve the previous limitations. The behavior based signature is made by combining the existing various traffic features, and uses the Inter-Flow unit that is combination of the first request packet of each. All signatures have 100% precision when measured the accuracy of 5 applications using at home and abroad to prove the feasibility of the proposed signature. Ⅰ. 서론초고속인터넷의보급과인터넷기반의서비스가다양화됨에따라네트워크관리의중요성이강조되고있다. 네트워크이용자 (end user) 측면에서는고품질서비스의안정적인제공에대한요구가증대되고, 사업자 (ISP: Internet Service Provider, ICP: Internet Contents Provider) 측면에서는망관리비용을최소화하면서다양한고품질의서비스를제공하기위한요구가증대되고있다 [1,2]. 하지만한정적인네트워크자원과급증하는트래픽은네트워크의부담을가중시킨다. 또한, 특정네트워크구간에서의사용자급증과시간대별병목현상은통신속도를급격히저하시킨다. ISP나네트워크관리자는망 이논문은정부 ( 교육과학기술부 ) 의재원으로 2010 년도한국연구재단 - 차세대정보컴퓨팅기술개발사업 (20100020728) 및 2012 년도한국연구재단 (2012R1A1A2007483) 의지원을받아수행된연구임. 주저자 : 고려대학교컴퓨터정보학과네트워크관리연구실, sungho_yoon@korea.ac.kr, 학생회원 교신저자 : 고려대학교컴퓨터정보학과네트워크관리연구실, tmskim@korea.ac.kr, 종신회원논문번호 :KICS2013-02-093, 접수일자 :2013 년 2 월 14 일, 최종논문접수일자 :2013 년 4 월 26 일 368

논문 / 인터넷응용트래픽분석을위한행위기반시그니쳐추출방법 의안정성과신뢰성을확보하기위해네트워크장비의대역폭을증가시키고확장하는방법을취하지만, 무작정네트워크장비의확충과성능향상을고집하기에는비용과기술적인측면에서무리가있다. 효과적인네트워크자원활용을위해응용레벨트래픽분석을기반으로사전에네트워크소모량이높은서비스와피크시간대등을파악하고서비스의사용자별이용패턴을분석하여모니터링해야한다. 정확한트래픽분석을통한 Traffic Engineering, Network Planning, QoS(Quality of Service) Planning, SLA(Service Level Agreement), Billing 등의다양한네트워크관리정책의수립이요구되는시점이다. 네트워크트래픽의응용을탐지하는트래픽분석은다양한네트워크관리정책들을적용하기위해서반드시필요한선행기술이다. 트래픽분석방법론또는시스템의최종목표는분석하고자하는대상네트워크의모든트래픽을응용별로정확하게분석하는것이다. 트래픽분석을위해다양한트래픽특징을이용한방법론들이제안되었지만, 실제네트워크관리에활용하기에는많은한계점을가지고있다. 대표적인한계점으로는동적또는임의포트사용, 시그니쳐생성및관리, 계산복잡도, 사생활침해, 실시간제어문제등이있다. 본논문에서는기존분석방법의한계점을보완하기위하여행위기반시그니쳐를제안한다. 대부분의인터넷응용들은특정기능 ( 로그인, 파일전송, 채팅등 ) 을사용할때, 2개이상의플로우를발생시킨다. 이때발생되는플로우에서추출된특징들은다른응용과구별되는패턴을가지고있다. 따라서본논문에서는이러한패턴을이용하여행위기반시그니쳐를제안한다. 본시그니쳐는기존에제안된다양한트래픽특징을조합하여사용할뿐만아니라, 복수플로우의특정패킷들을조합한플로우간 (inter-) 단위를사용함으로써특정응용을매우정확하게분석할수있다. 즉, 특정응용을사용할때발생하는복수개플로우들의첫질의패킷에서다양한트래픽특징 ( 목적지 IP, 목적지포트번호, 첫 N 바이트페이로드등 ) 을엔트리로추출하고이를일련의순서또는임의의순서로조합하여행위기반시그니쳐를생성함으로계산복잡도, 사생활침해, 실시간제어문제를해결한다. 본논문의주요내용은다음과같다. 첫째, 새로운분석단위, 플로우간 (inter-) 단위를제안한 다. 응용을사용할때발생하는복수플로우의특정패킷들을조합하여사용함으로써실시간제어가가능한패킷단위분석의장점과다양한트래픽특징을활용할수있는플로우단위분석의장점을모두가질수있다. 특히, 여러패킷들의특징을조합하여사용함으로추출의범위가패킷또는플로우단독으로사용하는방법론에비해시그니쳐생성이용이하며추출된시그니쳐는매우정확하게해당응용트래픽을분석한다. 둘째, 행위기반시그니쳐모델을제시하고, 이를기반으로첫질의패킷추출모듈, 후보시그니쳐추출모듈, 시그니쳐선택모듈, 총 3단계의시그니쳐추출알고리즘을제안한다. 특히후보시그니쳐모듈과시그니쳐선택모듈에서는다양한임계값들을사용하여시그니쳐추출의생산성과정확도를향상시킨다. 본논문은다음과같은순서로기술한다. 2장에서는기존트래픽분류방법론들에대해살펴보고, 3장에서는행위기반시그니쳐를정의한다. 4장에서시그니쳐추출알고리즘을제시하고 5장에서는제안한행위기반시그니쳐의타당성을증명하기위한실험결과를기술한다. 마지막으로 6장에서는결론과향후연구를언급한다. Ⅱ. 관련연구트래픽분석방법론은그중요성이증가함에따라지속적으로연구가진행되고있다. 트래픽분석방법들은트래픽분석시사용하는트래픽특징을기준으로포트기반분석 [3,4], 페이로드기반분석 [5,6], 통계정보기반분석 [7,8], 상관관계기반분석 [9] 등으로구분된다. 또한, 분석단위기준으로패킷기반분석, 플로우기반분석으로구분될수있다. 포트기반분석은 Internet Assigned Number Authority (IANA) [3] 에서지정한포트정보를이용한다. 포트번호와대응하는서비스 (HTTP(80), telnet(23), e-mail(25,110), FTP(20,21)) 를기준으로분석하기때문에적은메모리사용으로매우빠르게분석할수있는장점을가진다. 하지만, 최근사용되는응용들은방화벽및 IPS 장비를통과하기위해포트번호를임의로설정하여트래픽을발생시키므로더이상포트번호가특정서비스, 프로토콜을의미하지않는다. 또한, Torrent, Skype와같은응용에서는포트번호를사용자가설정하거나매실행시임의의포트번호를사용하기도한다. 369

한국통신학회논문지 '13-05 Vol.38B No.05 이러한문제를해결하기위해패킷의페이로드내에서응용마다가지는특정스트링 ( 시그니쳐 ) 의포함유무를통해트래픽을분석하는페이로드기반분석방법이제안되었다. 트래픽의내용을확인하기때문에분석성능 ( 분석률, 정확도 ) 이매우높지만, 시그니쳐생성및관리, 암호화트래픽, 높은계산복잡도, 패킷단편화, 사생활침해등과같은많은한계점을가지고있다 [10]. 트래픽암호화및사생활침해문제를해결하기위해트래픽내용을보지않고패킷및윈도우크기, 패킷간시간간격등과같은통계적특징만을이용한통계기반분석방법이제안되었다. 이방법론은패킷의헤더정보를통해통계정보를생성하므로기존트래픽분류방법론들의한계점들을보완할수있다. 하지만, 같은엔진기반의응용이거나같은응용레벨프로토콜을사용하는경우동일한통계적특징을가지기때문에상세한응용별분석이어려운한계점을가진다. 최근에는전통적인트래픽분석방법의한계점을보완하기위해패킷단위의트래픽을플로우단위로변경하고이들의상관관계를분석하는방법이제안되었다 [7-9]. 플로우는 5-tuple(SrcIP, SrcPort, DstIP, DstPort, Transport Layer Protocol) 이동일한패킷의집합을의미한다. 플로우의크기, 기간등과같은통계정보와플로우들간의연결형태를이용하여트래픽을분석한다. 패킷기반분석방법보다다양한특징을사용할수있기때문에다양한분석이가능하지만, 플로우생성이완료될때까지분석하지못하며, 플로우의통계정보를계산하는오버헤드가발생한다. 또한, 유사한통계정보를가지는응용간구별이어려운문제점을가지고있다. 분석단위기준으로트래픽분석방법론을구분해보면패킷단위와플로우단위로구분할수있다. 패킷단위의트래픽분석은해당패킷내에서특정응용을구분할수있는트래픽정보 ( 헤더정보나비트스트링 ) 를시그니쳐로추출하여트래픽을분석한다. 실시간으로발생하는패킷을기반으로분석하기때문에실시간분석이가능하다는장점을가진다. 하지만, 추출대상범위가단일패킷내로제한적이기때문에특정응용을대표하는시그니쳐를추출하는것은매우어렵다. 또한, 트래픽분석시모든패킷의헤더정보와페이로드정보를분석해야하는오버헤드가발생한다. 플로우단위트래픽분석은플로우를구성하는복수패킷들의통계정보와연결형태, 발생시점등을 이용하여트래픽을분석하기때문에패킷단위보다다양한트래픽특징을사용할수있다. 따라서시그니쳐생성과정이비교적용이하지만, 비슷한통계적특징을가지는 ( 동일엔진및프로토콜사용 ) 응용의트래픽이많아짐에따라응용별트래픽분석정확도가매우낮고, 플로우가완성되는시점에분석이이루어짐으로실시간제어에어려움이있다. 최근까지제안된분석방법들은기존의한계점을극복하기위해점점발전하고있지만여전히많은한계점을가진다. 이를해결하기위해본논문에서는다양한트래픽특징 ( 목적지 IP, 목적지포트번호, 첫 N 바이트페이로드등 ) 조합과새로운분석단위 ( 복수플로우의첫질의패킷들 ) 를사용한다. 즉, 페이로드의첫 N 바이트만을사용하여계산복잡도문제와사생활침해문제를해결하고, 플로우의첫패킷만을사용하여실시간제어가가능하도록한다. 또한, 여러패킷들의특징을조합함으로써특정응용을대표하는시그니쳐생성을용이하게한다. Ⅲ. 행위기반시그니쳐본장에서는행위기반시그니쳐를정의하기위해시그니쳐의속성으로사용하는트래픽의특징과트래픽분석단위를설명한다. 또한행위기반시그니쳐모델을제시하고국내에서많이사용되는응용 (Nateon) 을선정하여시그니쳐실제예시를보인다. 행위기반시그니쳐에서사용하는트래픽특징은총 4가지이다. 목적지 IP, 목적지포트번호, 전송계층프로토콜, 첫 N 바이트페이로드이다. 트래픽의헤더정보 (IP, 포트, 프로토콜 ) 는해당응용이서버- 클라이언트연결을사용하거나고정포트를사용하는경우큰의미를가진다. 페이로드정보는응용을식별하는중요한키를가지고있지만최근사생활침해문제와계산복잡도문제로인해사용을꺼리고있다. 이를해결하기위해행위기반시그니쳐는첫 N 바이트만을사용한다. HTTP트래픽인경우 Method 키워드만추출되는것을방지하기위하여 N의값을 10이상으로설정하고 Non-HTTP 트래픽은 2이상으로설정한다. 전체가아닌일부페이로드만을사용함으로써사생활문제를해결할뿐만아니라고정된위치 (offset, length) 의페이로드를사용하기때문에계산복잡도문제도해결할수있다. 370

논문 / 인터넷응용트래픽분석을위한행위기반시그니쳐추출방법 표 1. 행위기반시그니쳐속성및설명 Table 1. Attribute and Explanation of Behavior Signature Attribute A T I ip Explanation Application Nate Applying Type Seq(Sequence), Set(Set) Interval Applying All Entries (ms) Destination IP Address (CIDR) 그림 1. 트래픽분석단위 Fig. 1. Units of Traffic Identification 그림 1은트래픽분석시대상이되는트래픽의다양한단위를보여준다. 본논문에서는패킷단위, 플로우단위트래픽분석의문제점을보완하고각단위의장점을활용하기위해플로우간 (inter-) 단위를사용한다. 복수개의플로우를대상으로시그니쳐를생성하기때문에시그니쳐생성범위가넓고, 특정위치 ( 플로우의첫패킷 ) 를검사하기때문에실시간제어가가능하다. 즉, 단일패킷, 단일플로우를대상으로시그니쳐를적용하는것이아닌여러플로우를대상으로시그니쳐를적용한다. 특히플로우의첫번째패킷, 질의패킷들을대상으로시그니쳐를적용함으로써단독으로사용할수없는, 단순한트래픽특징을조합하여시그니쳐로사용할수있을뿐만아니라단일패킷, 단일플로우에적용하는방법보다정확하게트래픽을분석할수있다. 행위기반시그니쳐는엔트리 (Entry) 의조합으로구성되며각각의엔트리는트래픽의특징을가진다. 수식 1, 2는각각행위기반시그니쳐와행위기반시그니쳐를구성하는엔트리를나타낸다. (1) (2) 행위기반시그니쳐 (BS) 는응용이름 (A), 타입 (T), 인터벌 (I), 2개이상의엔트리 (E) 로구성되며, 엔트리는목적지 IP(ip), 목적지포트번호 (port), 전송계층프로토콜 (prot), 그리고첫 N 바이트페이로드 (payload) 로구성되는집합의멱집합 (power set) 으로구성되며공집합은제외된다. 즉, 응용의특성상특정속성이의미가없는경우, 의미있는속성만선 E port prot payload Src(E x) Destination Port Number L4 Protocol (TCP, UDP) First N Bytes Payload (HTTP: more than 10bytes Non-HTTP: more than 2bytes) Source IP Address of Entry x 택하여사용한다. 예를들어특정응용이 P2P 연결형태와임의포트번호를사용하는경우목적지 IP와목적지포트번호는의미가없기때문에엔트리의원소에서제외한다. 행위시그니쳐는특정호스트를기준으로추출, 적용되기때문에모든엔트리의출발지 IP는동일하여야한다. 표1은행위기반시그니쳐의각속성에대한설명을나타낸다. 응용이름 (A) 은해당시그니쳐로분석된트래픽에분석결과를명명하기위해기술된다. 타입 (T) 은 Seq(Sequence) 와 Set타입이있다. Seq는엔트리들의순서와복수플로우에서추출한엔트리가정확하게일치되는것을의미하고 Set은순서에상관없이일정인터벌이내에모든엔트리가일치되는것을의미한다. 인터벌 (I) 은첫엔트리와마지막엔트리가매칭되는일정한시간간격 (ms) 을의미한다. 즉, 트래픽발생시간을기준으로해당패턴이적용되는기간을의미한다. 엔트리 (E) 은목적지 IP(ip), 목적지포트번호 (port), 전송계층프로토콜 (prot), 첫 N 바이트페이로드 (payload) 로구성된다. 목적지 IP와포트번호는는해당엔트리가전송되는목적지 IP 주소와포트번호를의미하며, IP의경우 CIDR 표기법을이용하여표기한다. 전송계층프로토콜은해당엔트리가전송될때사용되는전송계층프로토콜 (TCP, UDP) 를의미한다. 페이로드전체를엔트리구성요소로사용하지않고, 페이로드의최소첫 N 바이트만사용한다. HTTP 를사용하는트래픽의경우트래픽의첫부분에위치하는 Method(GET, POST, PUT 등 ) 를구별하기위해 371

한국통신학회논문지 '13-05 Vol.38B No.05 { { { interval t(ms) E 1 E 2 E n A T I X Seq t ip 2.2.2.2 port 80 prot TCP payload "ab" ip 2.2.2.26 port 80 prot TCP payload "te" ip 2.2.2.27 port 80 prot TCP payload "qw" 그림 4. 행위기반시그니쳐추출알고리즘 Fig. 4. Extraction Algorithm of Behavior Signature 그림 2. 시그니쳐예시 Fig. 2. Example of Signature 고정된순서의질의패킷이발생되는것을확인하였다. Ⅳ. 추출알고리즘 그림 3. Nateon 응용로그인시발생트래픽 Fig. 3. Nateon Login Traffic 페이로드의첫 10 바이트이상을사용하고 Non-HTTP인경우, 페이로드의첫 2바이트이상을사용한다. 그림 2는앞서제안한시그니쳐의예를나타낸다. 특정응용 (X) 를사용할때, 인터벌 t(ms) 이내에발생하는플로우가 n개인경우, 해당시그니쳐는 n 개의엔트리를가진다. 각각의엔트리들은각플로우의첫질의패킷의트래픽특징들을가지고있다. 앞서정의한행위기반시그니쳐의적용가능성여부를파악하기위해국내에서많이사용하는응용 2 종 (Nateon, Skype) 을선정하여로그인시발생하는트래픽을관찰하였다. 그림 3은 Nateon 응용이로그인할때발생하는플로우들의질의패킷을보인다. 서로다른두개의호스트에발생하는트래픽이지만, 동일한특징 ( 목적지포트번호, 전송계층프로토콜, 페이로드의첫 2 바이트 ) 을보여준다. Nateon의경우로그인을실행할때 본장에서는행위기반시그니쳐추출알고리즘을첫질의패킷추출모듈, 후보시그니쳐추출모듈, 그리고시그니쳐선택모듈로구분하여각각의모듈에대한알고리즘을기술한다. 그림 4는각세부모듈과입출력데이터를보여준다. 최초, 입력받은트래픽에서첫질의패킷에서엔트리를추출하여리스트형태로구성하고, 해당리스트에서모든엔트리조합을후보시그니쳐로추출한다. 추출된후보시그니쳐중에서 2대이상의호스트에서공통으로발생된후보시그니쳐를행위기반시그니쳐를추출한다. 4.1. 첫질의패킷추출모듈 본절에서는첫질의패킷추출모듈에대해기술한다. 본모듈은플로우단위로구분된패킷들을입력받아각플로우의첫질의패킷에서행위시그니쳐모델에서정의한엔트리를추출하여리스트로구성한다. 그림 5는첫질의패킷추출모듈의입출력데이터를나타낸다. 그림 5. 첫질의패킷추출모듈입출력데이터 Fig. 5. Input-Output Data of First Request Packet Extraction Module 372

논문 / 인터넷응용트래픽분석을위한행위기반시그니쳐추출방법 그림 6. 후보시그니쳐추출모듈입출력데이터 Fig. 6. Input-Output Data of Candidate Signature Extraction Module 입력받은모든플로우에서첫질의패킷을통해엔트리리스트를구성하고시간의순서로정렬한다. 정렬된리스트는본모듈의출력으로다음모듈에전달된다. 4.2. 후보시그니쳐추출모듈 본절에서는후보시그니쳐추출모듈에대해기술한다. 본모듈은앞서첫질의패킷추출모듈의출력인엔트리리스트를입력받아추출가능한모든후보패턴을생성한다. 그림 6은후보패턴추출모듈의입출력데이터를보여준다. 모든가능후보시그니쳐를추출하는것은매우높은계산복잡도를가지기때문에최대인터벌 (MAX_INTERVAL) 과최대엔트리개수 (MAX_SIZE) 를임계값으로설정하여해당인터벌이내에최대엔트리개수이내로후보시그니쳐를추출한다. 즉, 입력받은엔트리리스트의첫번째엔트리를시작으로최대인터벌 (MAX_INTERVAL) 크기만큼구간을설정하고해당구간의엔트리들을대상으로최대엔트리개수 (MAX_SIZE) 이내의추출가능한모든후보시그니쳐를추출한다. 후보시그니쳐는본모듈의출력으로다음모듈에전달된다. 4.3. 시그니쳐선택모듈 본절에서는시그니쳐선택모듈에대해기술한다. 앞서추출된후보패턴중에서최소호스트개수 (MIN_PEER) 을초과한패턴들에한해시그니쳐로선택한다. 그림 7은시그니쳐선택모듈의입출력데이터를보여준다. 행위기반시그니쳐는특정호스트에종속되지않고모든호스트에서특정응용을사용할때공통으로발생하는패턴을의미한다. 본모듈에서사용하는임계값 (MIN_PEER) 은 2이상의값으로설정한다. 그림 7. 시그니쳐선택모듈입출력데이터 Fig. 7. Input-Output Data of Signature Selection Module 즉, 2대이상의호스트에서특정응용을사용할때공통으로발생한후보시그니쳐를선택한다. 임계값이증가하면, 시그니쳐의정확도는증가하지만, 시그니쳐개수가감소하여분석률이감소하므로정답지생성시사용된호스트의개수를감안하여적절한임계값을설정한다. 또한, 적은개수의엔트리개수를가지는시그니쳐가엔트리개수가많은시그니쳐에포함될가능성이있기때문에추출된시그니쳐의포함관계를확인하여포함관계가있는경우에는시그니쳐선택에서제외한다. Ⅴ. 실험 본장에서는행위기반시그니쳐의타당성을증명하기위해국내외응용 5종을선정하여시그니쳐를추출하고평가한결과를기술한다. 5.1. 실험환경 국내외에서많은사람들이사용하는응용 5종 (Nateon: 메신져, DropBox: 웹저장소, UTorrent: P2P 파일전송, Skype: 메신져, Teamviewer: 원격제어 ) 을선정하였다. 정확한성능평가를위해 4대의서로다른호스트에서다른날짜에 2회에걸쳐응용트래픽을수집하였다. 특정응용의트래픽을정확하게수집하기위해수집대상호스트에소켓정보를수집하는에이젼트를설치하여트래픽을수집하였다 [11]. 본실험에서사용한임계값은 MAX_INTERVAL 5000ms, MAX_SIZE 10, MIN_PEER는 4로설정하였다. 표 2 는실험에사용한응용트래픽의정보를나타낸다. 5.2. 시그니쳐추출및정확도측정 본논문에서제안하는알고리즘을통해추출된시그니쳐는표 3과같다. 373

한국통신학회논문지 '13-05 Vol.38B No.05 표 2. 응용트래픽정보 Table 2. Traffic Trace Information Application Trace Name Start Nateon DropBox Duration (min) Host Flow Packet Byte(K) Function nateon_#01(na1) 2012:11:16 02:46 17 2 589 224,334 204,069 nateon_#02(na2) 2012:11:22 14:10 6 2 152 58,389 50,040 dropbox_#01(db1) 2012:11:08 03:53 19 2 231 42,241 34,362 dropbox_#02(db2) 2012:11:22 14:56 2 2 16 1,497 1,346 login chatting login UTorrent Skype Teamviewer utorrent_#01(ut1) 2012:11:08 01:35 23 2 16,573 3,879,615 3,913,652 utorrent_#02(ut2) 2012:11:22 14:21 3 2 1,546 259,074 268,789 skype_#01(sk1) 2012:11:13 01:45 49 2 1,862 158,859 98,736 skype_#02(sk2) 2012:11:22 14:26 4 2 350 8,972 4,606 teamviewer_#01(tv1) 2012:11:15 11:25 24 2 339 238,562 201,094 teamviewer_#02(tv2) 2012:11:22 14:41 4 2 47 19,361 14,750 login chatting login remote access Nateon의경우, 총 48개의시그니쳐가추출되었다. 로그인시다른응용에비해다양한서버 ( 인증서버, 업데이트서버, pop-up 서버, 메인서버등 ) 와통신하는구조로인해실험에서설정한최대엔트리개수 (10) 보다많은플로우를패턴으로가지는경우에서해당패턴의모든부분집합 (subset) 이시그니쳐로추출되었다. 최대엔트리개수임계값은시그니쳐생산성 ( 추출시간 ) 측면과관련있기때문에최적의임계값을설정하여시그니쳐개수를줄이는연구가필요하다. 표 3에기술된 Nateon시그니쳐예시는총 10개의엔트리들로구성되어있다. Nateon 응용은서버- 클라이언트형태로동작하고고정포트번호를사용하기때문에모든속성을사용하였다. 제시한시그니쳐예시는특정인터벌 (4324ms) 이내에 10개의엔트리를각각첫질의패킷으로가지는플로우들이순차적 (Seq) 으로발생하는경우해당모든플로우를 Nateon으로분석한다. UTorrent의경우, 총 7개의시그니쳐가추출되었으며, P2P 형태와임의포트번호를사용하기때문에목적지 IP와목적지포트번호를 "any" 로표기했다. 제시한시그니쳐예시는특정인터벌 (5000ms) 이내에 2 개의엔트리가각각첫질의패킷으로가지는플로우에임의 (Set) 의순서로발생하는경우모든해당모든플로우를 UTorrent로분석한다. 시그니쳐추출대상트래픽이특정날짜및특정버전을사용할경우, 날짜정보와버전정보가엔트이의 Payload 속성값에포함되는경우가있다. Nateon 시그니쳐의첫엔트리 "1.4.1.2485", Skype 시그니쳐의첫엔트리 "5.10" 은클라이언트프로그램의버전을나 타낸다. 날짜정보와버전정보가시그니쳐에포함되면해당날짜가아니거나버전이아닌경우분석되지않는다. 따라서시그니쳐에포함된변동가능한 payload 정보는관리자의의해삭제되어야하며, 해당정보를자동으로인지하고삭제하는모듈은좀더자세한연구가필요하다. 해당시그니쳐의정확도를측정하기위해 5종트래픽을혼합하여검증트래픽을구성하고개별응용별로정확도 (Precision, Recall) 를측정하였다. 정확도를측정하는수식은다음과같다. Pr (3) (4) TP(True Positive) 는특정응용 X의시그니쳐가해당응용 X를정확하게분석된양을의미한다. FP(False Positive) 는 X의시그니쳐가X가아닌응용을 X라분석한양을의미하고, FN(False Negative) 는 X의시그니쳐가 X를 X가아니라고분석한양을의미한다. 즉, Precision은해당응용으로분석된트래픽중에정확하게분석된비율을의미하고, Recall은해당응용의전체트래픽중에정확하게분석된비율을의미한다. 표4는응용 5종의행위기반시그니쳐정확도를보여준다. 추출된모든시그니쳐는정확하게해당응용을분석하였다. 즉, 모든응용별 Precision의값은 이었다. Recall의경우, 플로우단위평균 0.18, 바이트 374

논문 / 인터넷응용트래픽분석을위한행위기반시그니쳐추출방법 표 3. 추출시그니쳐개수및예시 Table 3. Number and Example of Extracted Signature Application Num. of Signature Example Nateon 48 {Nateon, Seq, 4324, (203.xxx.xxx.91/32, 5004, 6, "PVER 1 4.1.2485 5.0"), (120.xxx.xxx.0/24, 5004, 6, "NCPT 1"), (117.xxx.xxx.17/32, 80, 6, "GET /keyword37_u2.op"), (203.xxx.xxx.117/32, 80, 6, "POST /client/club/ge"), (211.xxx.xxx.0/24, 80, 6, "GET /upload/notice/"), (211.xxx.xxx.0/24, 80, 6, "GET /upload/"), (211.xxx.xxx.0/24, 80, 6, "GET /upload/"), (211.xxx.xxx.0/24, 80, 6, "GET /upload/"), (117.xxx.xxx.12/32", 80, 6, "GET /nateon/ticker H"), (120.xxx.xxx.20/32, 80, 6, "POST /client/countme")} DropBox 1 {DropBox, Seq, 3258, (any, 443, 6, "0x16 0x03 0x01 0x00 0x5B 0x01 0x00 0x00 0x57 0x03 0x01 0x50"), (any, 80, 6, "GET /subcribe?host_")} UTorrent 7 {UTorrent, Set, 5000, (any, any, 17, "d1:ad2:id20:"), (any, any, 17, "A."), (any, any, 17, "d1:ad2:id20:")} Skype 3 {Skype, Seq, 5000, (any, any, 6, "GET /ui/0/5.10."), (any, any, 6, "0x16 0x03 0x01 0x00")} Teamviewer 1 {Teamviewer, Seq, 4991, (any, 5938, 6, ".$"), (any, 5938, 17, "0x00 0x00 0x00 0x00 0x00 0x00 0x00 0x00")} 표 4. 행위기반시그니쳐의정확도측정결과 Table 4. Accuracy of Behavior Signature Applicat ion Nateon DropBox UTorrent Skype Teamvie wer Total Unit Precision Recall (447/447) (5,064/5,064) (193/193) (5,303/5,303) (2,999/2,999) (2,741,745/2,741,745) (127/127) (1,589/1,589) (239/239) (8,237/8,237) (4,005/4,005) (2,761,938/2,761,938) 0.60 (447/741) 0.02 (5,064/254,110) 0.78 (193/247) 0.15 (5,303/35,708) 0.17 (2,999/18,106) 0.66 (2,741,745/4,182,441) 0.06 (127/2,088) 0.02 (1,589/103,342) 0.63 (239/385) 0.04 (8,237/215,845) 0.18 (4,005/21,487) 0.57 (2761938/4,791,446) 단위평균 0.57로응용과측정단위에따라큰차이를보였다. 이는분석된트래픽의통계적특성 (Heavy 또는 Light 플로우 ) 이응용마다상이하기때문이다. 여러호스트에서공통으로발생하는패턴을시그니쳐로사용하기때문에낮은 Recall 값을가지지만시그니쳐의정확도는매우높았다. 따라서, 응용트래픽분석 (monitoring) 측면보다는응용트래픽탐지및제어 (detection and control) 측면에서활용이가능하다. 행위시그니쳐가분석한트래픽의통계적특성은향후추가적인연구가필요하다. Ⅵ. 결론및향후연구 응용트래픽분석은다양한네트워크관리정책을수행하기위해반드시선행되어야하는작업이다. 하지만, 네트워크에서발생하는트래픽이복잡다양해지 고있고, 그에따라전통적인트래픽분석방법으로는모든트래픽을분석하기어려워졌다. 본논문에서는복수플로우의첫질의패킷에서트래픽특징을추출하여행위기반시그니쳐를추출하는방법을제시하였다. 이는기존패킷단위및플로우단위트래픽분석의한계점을보완한다. 제안한행위기반시그니쳐의타당성을증명하기위해국내외응용 5종을선정하여시그니쳐를추출하고정확도를추출하였다. 비록 Recall 측면에서는낮은값을보이는응용도존재하였지만, 모든응용에서 100% Precision 을보였다. 이는분석된트래픽은해당응용으로정확하게분석되었다는의미이다. 향후연구로써는추출된시그니쳐가응용의어떤기능을탐지하는지확인하는 "Function Naming" 모듈과, 추출된시그니쳐에날짜정보와버전정보를삭제하는 "Signature Arrangement" 모듈을추가하고자한다. 또한, 기존페이로드, 통계기반시그니쳐와비교를통해행위시그니쳐의타당성을증명하고암호화트래픽의분석가능성에관한연구를진행할계획이다. References [1] S.-H. Yoon and M.-S. Kim, A study of performance improvement of internet application traffic identification using correlation, J. KICS, vol. 36, no. 6, pp. 600-607, May 2011. [2] S. Sen and J. Wang, Analyzing peer-to-peer traffic across large networks, in Proc. Internet Measurement Conf. (IMC), pp. 137-150, Marseille, France, Nov. 2002. [3] IANA, IANA port number list, Retrieved 5, 24, 2013, from http://www.iana.org/assignments/service-names- 375

한국통신학회논문지 '13-05 Vol.38B No.05 port-numbers/service-names-port-numbers.xml. [4] J. Zhang and A. Moore, Traffic trace artifacts due to monitoring via port mirroring, in Proc. End-to-End Monitoring Techniques and Services (E2EMON), pp. 1-8, Munich, Germany, May 2007. [5] F. Risso, M. Baldi, O. Morandi, A. Baldini, and P. Monclus, Lightweight, payload-based traffic classification: an experimental evaluation, in Proc. IEEE Int. Conf. Commun (ICC) 08, pp. 5869-5875, Beijing, China, May 2008. [6] J.-S. Park, S.-H. Yoon, and M.-S. Kim, Software architecture for a lightweight payload signature-based traffic classification system, in Proc. 3 rd Int. Conf. Traffic Monitoring and Analysis (TMA) 11, pp. 136-149, Vienna, Austria, Apr. 2011. [7] K. Xu, Z.-L. Zhang, and S. Bhattacharya, Profiling internet backbone traffic: behavior models and applications, in Proc. ACM SIGCOMM 2005, pp. 169-180, Philadelphia, U.S.A., Aug. 2005. [8] A. W. Moore and D. Zuev, Internet traffic classification using bayesian analysis techniques, in Proc. ACM SIGMETRICS, pp. 50-60, Banff, Canada, June 2005. [9] T. Karagiannis, K. Papagiannaki, and M. Faloutsos, BLINC: multilevel traffic classification in the dark, in Proc. ACM SIGCOMM 2005, pp. 229-240, Philadelphia, U.S.A., Aug. 2005. [10] A. Callado, C. Kamienski, G. Szabo, B. Gero, J. Kelner, S. Fernandes, and D. Sadok, A survey on internet traffic identification, IEEE Commun. Surveys Tutorials, vol. 11, no. 3, pp. 37-52, July 2009. [11] B.-C. Park, Y. J. Won, M.-S. Kim, and J. W. Hong, Towards automated application signature generation for traffic identification, in Proc. IEEE NOMS 2008, pp. 160 167, Salvador, Brazil, Apr. 2008. 윤성호 (Sung-Ho Yoon) 2009년고려대학교컴퓨터정보학과졸업 2011년고려대학교컴퓨터정보학과석사 2011년~현재고려대학교컴퓨터정보학과박사과정 < 관심분야 > 네트워크관리및보안, 트래픽모니터링및분석김명섭 (Myung-Sup Kim) 1998년포항공과대학교전자계산학과졸업 2000년포항공과대학교컴퓨터공학과석사 2004년포항공과대학교컴퓨터공학과박사 2006년 Post-Doc. Dept. of ECE, Univ. of Toronto, Canada 2006년~현재고려대학교컴퓨터정보학과부교수 < 관심분야 > 네트워크관리및보안, 트래픽모니터링및분석, 멀티미디어네트워크 376