林 海 彰 敎 授 指 導 碩 士 學 位 論 文 본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템 A Comment Spam Filter System based on Inverse Chi- Square Using of Co-occurr

Size: px
Start display at page:

Download "林 海 彰 敎 授 指 導 碩 士 學 位 論 文 본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템 A Comment Spam Filter System based on Inverse Chi- Square Using of Co-occurr"

Transcription

1 碩 士 學 位 論 文 본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템 A Comment Spam Filter System based on Inverse Chi- Square Using of Co-occurrence Feature between Comment and Blog Post 高 麗 大 學 校 컴퓨터 情 報 通 信 大 學 院 미디어 工 學 專 攻 田 喜 元 2007 年 12 月

2 林 海 彰 敎 授 指 導 碩 士 學 位 論 文 본문과 덧글의 동시출현 자질을 이용한 역 카이제곱 기반 블로그 덧글 스팸 필터 시스템 A Comment Spam Filter System based on Inverse Chi- Square Using of Co-occurrence Feature between Comment and Blog Post 이 論 文 을 工 學 碩 士 學 位 論 文 으로 提 出 함 2007 年 12 月 高 麗 大 學 校 컴퓨터 情 報 通 信 大 學 院 미디어 工 學 專 攻 田 喜 元

3

4 요 약 최근 대표적인 1 인 미디어의 형태인 블로그(Blog)는 개인 기록의 수단뿐만 아니라 기업의 홍보에까지 널리 사용되는 인터넷 미디어이다. 그러나 누구 나 글을 쓸 수 있다는 자유로움 이면에 이를 이용한 덧글 스팸이 성행하고 있다. 일반적인 스팸 필터의 경우 그 해당 덧글만을 가지고 스팸 필터링을 한다. 그러나 특성상 스팸인 덧글이 정상인 덧글보다 상대적으로 짧기 때문에 일 반적인 덧글 자체만의 필터링 방법으로는 높은 정확도를 기대하기 힘든 단 점이 있다. 본 논문에서는 정상인 덧글과 본문간의 내용상의 유사도가 있음을 가정해 이런 정보를 역 카이제곱 분류기에 동시출현(co-occurrence) 정보로 부여함 으로써 스팸 필터의 정확도를 높이고자 했으며, 실제 그러한 정보를 추가함 으로 단순한 확률기반 스팸 필터링 방법을 사용하는 것보다 스팸 필터의 전 반적인 성능이 상승되었음을 실험 결과를 통해 알 수 있었다. xlvi

5 Abstract Blog is the best media that can be used in individual purpose what is more can be used in corporate communication. Beside of free writing, there is abusing of blog comment spam. In case of common spam filter, it only use comment feature. But it is hard to gain high accurate rate, because spam comment is shorter than ham comment that cause shortage of features using in spam filter algorithm. This paper suggests a similarity assumption between main post and comment, and using spam filter algorithm added co-occurrence information feature with current term probability feature. Actually after adding this feature, we gain more accuracy than common filter that only use term probability feature. xlvii

6 요 목 차 약 i Abstract ii 그림 목차 v 표 목 차 vi 1 서 론 연구의 배경 연구의 목적 연구의 구성 5 2 관련 연구 문서 분류 나이브 베이지언(Naive Bayesian) SVM 카이 제곱(Chi-Square) 휴리스틱(Heuristic) 방법들 역 카이제곱 분류 알고리즘 18 3 스팸 필터의 설계 및 구현 설계 방향 시스템 구조 동시출현 단어 자질 정보 26 4 실험 및 결과 실험 환경 실험 결과 33 xlviii

7 4.3 결과 분석 동시 출현 자질의 유효성 오류 분석(Hm, Sm) Grey Area에 대한 고찰 주제어를 포함한 스팸 덧글인 경우 39 5 결론 및 향후 연구 과제 41 참고 문헌 42 xlix

8 그림 목차 [그림 1-1] 스팸 덧글과 정상 덧글간의 Abuse 통계... 3 [그림 2-1] 선형 SVM [그림 2-2] 차원 공간으로 사상시키는 2 차원 데이터 [그림 2-3] 자유도에 따른 카이제곱 분포 [그림 3-1] 학습 데이터 포맷 [그림 3-2] 단어 확률 정보 저장 구조 [그림 3-3] 테스트 데이터 포맷 [그림 3-4] 테스트 데이터 포맷 구조 [그림 3-5] 시스템 구조 l

9 표 목 차 [표 4-1] 실험 환경 [표 4-2] 학습 데이터와 테스트 데이터 [표 4-3] hm, sm, lam 결과 [표 4-4] 리콜(Recall), 정밀도(precision), F 1 -measure 결과 [표 4-5] 에러율(Error rate)과 정확도(Accurate rate) 결과 [표 4-6] 종합적인 비교 실험 결과표 [표 4-7] Sm(False Negative)분석 결과적 li

10 1. 서 론 1.1 연구의 배경 블로그(Blog)란 사전적의미로 인터넷을 뜻하는 웹(Web)과 항해일지를 뜻하 는 로그(Log)의 합성어로 웹로그(Weblog)를 의미하는 것으로 점차 대중화 되 어 블로그 라는 말로 줄여서 사용하고 있다. 로그의 의미에서 알 수 있듯이 블로그는 웹에 기록하는 개인의 일기를 뜻한다. 블로그가 대중화 되면서 점 차 개인의 신변잡기적인 내용이 주된 주제가 되기 보다는 좀더 전문적인 분 야로 주제가 다양화 되고 있는 상황이다. 예를 들어 칼럼, 기사 등의 글의 형태뿐만 아니라 음성, 동영상에 이르기까지 그 형태도 다양하다. [21] 또한 이런 블로그를 가지고 기업의 홍보를 하거나 특정 유명인이 자신의 생각과 여론을 알아보기 위한 그러한 마케팅적인 용도로까지 그 쓰임새가 다양해 지고 있다. 게다가 블로그의 무한한 잠재적인 가능성을 기반으로 많 은 국내외 검색엔진 업체들이 그들만을 검색할 수 있는 검색 서비스를 제공 하고 있는 실정이다. 실제 블로그 전문 검색서비스인 technorati 의 설립자 데이브(Dave Sifry)는 통계 결과 매일 1 만 2 천 개의 블로그가 생겨나고 40 만개의 글이 올라온다고 밝혔다. 자료에 의하면 미국의 1 억 2 천만 성인 인터넷 사용자중 27%인 3200 만 명이 블로그를 정기적으로 구독하고 있다고 한다. 이처럼 블로그는 전 인터넷 영역에 걸쳐 가장 영향력 있는 인터넷 미디어 의 한 형태가 되어 가고 있다

11 블로그라는게 자유롭게 글을 쓸 수 있다는 기능이 주된 기능이지만 이것 을 이용한 스팸이 블로그 스피어가 발전함에 따라 성행하고 있다. 블로그에 보면 트랙백(trackback)과 덧글(comment) 기능이 있다는 이 기능은 블로그 운 영자라 불리는 블로거(Blogger)를 위한 기능이라기 보다는 블로그 방문자를 위한 의견 제시 창구로 활용이 되고 있는데, 이 기능을 역이용해서 특정 업 체로 트래픽을 유도하거나 상품에 대한 홍보를 하는 등 블로그와 전혀 상관 없는 스팸들이 난무해서 블로거나 블로그 방문자로 하여금 정보에 대한 혼 란을 유도하고 있다. 아래의 그림 1-1 은 Akismet( 조사한 스팸 덧글과 정 상 덧글간의 통계를 나타낸 표이다. 실제 시간이 지나면 지날수록 정상덧글 (Legit comments)에 비해 스팸덧글의 비율이 늘어나는 것을 볼 수 있다. 이 문제는 실제 국내 여러 포털에서나 특정 검색엔진 업체에서 문제점을 자각해 여러 방법을 동원해서 사용자들이 불편없이 블로그를 운영하게끔 상 당한 리소스를 투입하고 있는 실정이지만 스팸이 날로 지능화 됨에 따라 이 에 대한 요구와 리소스를 더 늘어갈 전망이다

12 그림 1-1 스팸 덧글과 정상 덧글간의 Abuse 통계 1.2 연구의 목적 현재 덧글 스팸을 효율적으로 차단하는 여러 방법이 존재하며[4] 한가지 방법으로는 한계가 있어 여러 방법을 복합적으로 적용해 스팸 필터링을 하고 있다. 그들 방법 중에서 스팸에 존재하는 단어와 정상인 문서에 존재하는 단어간의 출현 빈도의 차이가 있다는 가정하에 제안된 베이지언 확률 기반 필터링 방법이 블로그 덧글 스팸처리에서도 쓰이고 있다[16]. 하지만 이런 확률 기반의 스팸 처리 방법을 쓰기에는 스팸인 덧글이 정상 덧글에 비해 짧아 단어 정보를 모으기에는 힘들다는 단점이 있고, 또한 실제 판정을 할 때 짧은 덧글만으로 필터링을 하면 오류율이 높아져 정확도가 떨어지는 단점이 있다. 이는 스팸 기반으로 스팸 처리 - 3 -

13 방법론이 발전된 베이지언 확률 기반 필터링 방법이 보다 상대적으로 짧은 덧글 스팸을 처리하는 데는 한계가 있음을 의미한다. 따라서 덧글 스팸 처리에서 이런 부족한 판정 자질에 대해 보강할 다른 자질에 대한 발굴이 필요했다. 본문과 덧글은 매우 관련성이 높은 글이다. 대부분 본문에 나온 내용을 기반으로 덧글 사용자들이 의견을 제시하기 때문에 덧글과 본문은 상당한 유사도의 가능성이 있다. 하지만 이런 연관성이 없이 무분별하게 채택된 단어로 이루어진 스팸 덧글은 이런 유사성을 보이기 힘들다. 이런 덧글과 본문의 유사도에 대한 가정을 기반으로 확률 기반의 필터링 방법을 보강하고자 한다. 본문과 덧글간 유사도에 대한 가정을 주제어에 대한 동시출현(co-occurrence) 확률 자질로 구현을 하고 이를 역 카이제곱 분류기에 적용을 하여 실험을 했다. 역 카이제곱을 이용한 이유는 베이지언 방법이 독립성 가정, 희소 단어 처리, 비대칭적 관계 등에 취약하다고 알려져 있고, 필터에서 중요한 성능 평가 요소로 판단되는 False Positive 부분에서 베이지언에 비해 나은 결과를 보여주는 것으로 알려져 있기 때문이다[17]. 이러한 장점은 본 논문의 실험 중간 결과에서도 재 증명 되고 있다

14 1.3 연구의 구성 본 연구의 구성은 다음과 같다. 제 1 장에서는 본 연구를 수행하게 된 배경과 목적을 살펴보고 본 연구 의 구성을 제시한다. 제 2 장에서는 관련 연구로서 기존의 기술과 관련 연구에 대한 조사를 실시하고, 역 카이제곱을 이용한 스팸필터에 대한 소개를 하겠다. 제 3 장에서는 역 카이제곱 방법과 동시출현 자질을 적용한 실험 시스템 에 대한 설명과 학습 데이터와 테스트 데이터에 대한 소개를 한다. 제 4 장에서는 실험 결과를 바탕으로 분석을 실시한다. 마지막으로 제 5 장에서는 결론을 도출하고 향후 연구 과제에 대한 고 민을 해보도록 하겠다

15 2. 관련 연구 관련 연구의 소개는 본인이 교사(supervised) 기반의 스팸 필터링 방법을 사용했기 때문에 기존의 교사기반의 문서분류 방법들에 대한 소개와 더불어 블로그 덧글 스팸을 처리하기 위한 휴리스틱한 방법들에 대한 소개를 나눠 서 하도록 하겠다. 2.1 문서 분류 문서 분류란 많은 양의 서로 다른 문서들을 미리 정의된 여러 가지 카테 고리 중 하나에 속하도록 분류하는 것을 말한다. 이런 의미에서 스팸 분류 도 문서분류에서 하나의 중요한 카테고리에 속한다고 말할 수 있겠다. 문서 분류의 과정은 기 분류된 다양한 카테고리의 문서셋을 가지고 학습 기를 통해 학습을 시킨 다음에 그 학습 정보를 기반으로 미 분류된 입력 문 서들에 대한 카테고리를 판단하게 된다. 이러한 문서 분류의 과정에서 필수적인 과정을 꼽으라 하면 바로 문서를 수치로 표현하는 것이 되겠다. 일반적으로 문서의 수치화는 문서에 포함된 단어를 기반으로 하게 된다. 그 단어들을 기반으로 벡터를 만들고 그 문서 벡터를 기반으로 문서를 학습 및 분류하게 된다. 학습 기반 문서 분류 방법은 여러 가지 방법론이 존재한다. Naive Bayesian, Support Vector Machine(SVM), Decision Tree, Boosting Tree, k-nearest neighbor(k-nn) 등 많은 학습 방법들이 채택되고 현재도 연구중에 있다. 이 - 6 -

16 중에서 나이브 베이지언(Naive Bayesian)과 SVM, 카이제곱(chi-square)방법에 대해서 설명하도록 하겠다 나이브 베이지언(Naive Bayesian) 나이브 베이지언(Naive Bayesian) 모델은 문서 분류에서 가장 보편적으로 사용되는 방법이다. 베이즈 정리를 이용하여 개발된 이 알고리즘은 텍스트 분류에서 신경망이나 결정트리 학습에 비교되는 성능을 보여주며, 자료량이 많아질수록 정확도가 높다.[8] 기본적인 아이디어는 주어진 문서를 입력 받은 뒤 그것이 각 카테고리에 할 당될 확률을 계산하는 방법으로 분류한다. 문서가 특정 카테고리에 속하는 확률을 계산하기 위하여 식 (1)과 (2)의 베이즈 정리를 이용한다. P( c) P( x c) P ( c x) = (1) P( x) ( x) = P( c) P( x c) P (2) c C 여기에서 x는 임의의 문서를 의미하고 c는 임의의 카테고리를 의미한다. 식(1)의 P(x)는 전확률 공식(total probability formula)에 의해 식 (2)와 같이 정 의된다. 그런데 P(x)는 모든 카테고리에 대하여 같은 값을 가지므로 확률을 계산하는데 고려하지 않아도 된다. 따라서 식 (1)의 분모에 위치한 P(c)와 - 7 -

17 P(x c)만 추정하면 문서 x가 카테고리 c에 할당될 확률을 계산할 수 있다. P(c)는 모든 카테고리 중 카테고리 c가 뽑힐 확률이다. 따라서 이는 모든 학 습 문서들의 수인 X L 와 카테고리 c에 속하는 학습 문서들의 수인 X L, C 의 비율로 추정할 수 있다. 따라서 다음과 같은 식 (3)이 성립한다. P ( c) X X L, c = (3) L P(c x)를 계산하기 위해서는 P(x c)를 계산해야 한다. 문서 x는 단어들의 벡 터인 <w 1, w 2,..., w x > 로 나타낼 수 있다. 따라서 P(x c)는 다시 P(<w 1, w 2,..., w x >/c)로 나타낼 수 있다. 나이브 베이지언 알고리즘 은 P(<w 1, w 2,..., w x >/c)의 계산을 좀 더 쉽게 하기 위해, 베이즈 독립성 을 적용한다. 베이 즈 독립성 가정은 문서 내에 존재하는 모든 단어들인 w 1, w 2,..., w x 가 서로 독립이고, 문서 내의 단어 위치와 그 단어의 출현확률 사이에도 독립성이 존재한다는 것이다. 단어의 결합을 사용하지 않기 때문에 지수 복잡도의 다 른 방법들보다 나이브 베이지언 분류를 더 효과적이게 한다. 이 가정에 따 르면 P(x c)는 다음과 같은 식으로 표현된다. P x ( x c) = P( w k c) (4) k= 1 n c 를 카테고리 c에 출현하는 모든 단어들의 빈도수의 합이라고 하고, n c,w 를 카테고리 c에 출현하는 단어 w의 빈도수라 할 때, P(w c)의 추정치를 - 8 -

18 n c, w 라 한다. 그러나 이 추정치를 식 (4)에 그대로 적용하면, 이 전체 식 n c 의 값을 0으로 만들 확률이 높다. 왜냐하면, 분류하려는 문서 내에 존재하는 단어가 확률을 계산하려는 카테고리 내에 존재하지 않을 수도 있기 때문이 다. 이러한 문제를 해결하기 위해서 일반적으로 식 (5)와 같이 m-estimate 개 념을 응용한 기법을 이용한다. 여기에서 vocabulary 는 모든 학습문서 내에 포함되어 있는 서로 다른 단어의 개수이다. P ( w c) = n c + n c, w + 1 vocabulary (5) LEARN_NAIVE_BAYES_TEXT(Examples,V) 1. Example에 나타난 모든 단어와 토큰을 모은다. Vocabulary : Example에 나타난 모든 상이한 단어 및 토큰들 2. 필요한 확률 P(v j )와 P(w k v j )를 계산 For 각 타겟값 V에서 v j do - docs j : 타겟값이 v j 인 Example의 부분집합 docs j - P(v j ) : Examples - Text j : docs j 의 모든 요소를 나열하여 만든 하나의 문서 - n : Text j 에 있는 전체 단어의 수(중복된 단어는 중복된 횟수 만큼 계산) - For Vocabulary에 있는 w k do n k : Text j 에 나타난 w k 의 횟수 P(w k v j ) : CLASSIFY_NAIVE_BAYES_TEXT(Doc) n k +1 n+ Vocabulary - 9 -

19 position : Vocabulary에서 발견된 토큰들의 Doc내의 모든 단어들의 위치 다음 식에서 계산된 V NB v NB = argmax P( v j v j V ) P( a v i j ) SVM Support Vector Machine(SVM)은 Vladimir Vanpnik과 그의 AT&T Bell 연구소 의 팀이 개발한 식별 방법으로 최근 몇 년 동안 이론적인 발전뿐만 아니라, 실제 구현되어 데이터 마이닝 분야는 물론 얼굴인식과 같은 패턴인식 응용 분야에도 널리 사용되고 있다.[23] SVM은 다항식(polynomial), 방사 기저함수(Radial Basis Function), 그리고 다층 퍼셉트론 분류기(Multi-Layer Perceptron classifier)의 대안적인 학습 방법으로 패턴을 고차원 특징 공간으로 사상시킬 수 있다는 점과 대역적으로 최적의 식별이 가능한 특징을 가진다. 여기서 네트워크의 가중치(weight)는 비볼록 (non-convex), 제약 조건이 없는 최소화 문제를 해결함으로써 구해지는 일반 적인 신경망과는 달리 선형 부등 조건을 가진 QP(Quadratic Programming)문 제를 해결함으로써 얻어진다. 또한 신경망을 포함하여 통계적 패턴인식 방 법 등 전통적인 대부분의 패턴인식 기법들이 학습 데이터의 수행도를 최적 화 하기 위한 경험적인 위험 최소화(Empirical Risk Minimization) 방법에 기초 하는데 반해, SVM은 고정되어 있지만 알려지지 않은 확률 분포를 갖는 데 이터에 대해 잘못 분류하는 확률을 최소화하는 구조적인 위험 최소화 (Structural Risk Minimization) 방법에 기초하고 있다. SVM의 가장 간단한 형태는 그림 2-1과 같이 최대 마진(Maximize Margin)을

20 가지고 최적 분류 초평면(OSH)을 결정해 선형 분류기로 사용하는 것이다. 즉, SVM은 학습 집단에서 마진을 최대화 하는 결정면을 찾아내는 알고리즘 이라 할 수 있다. Support vectors Maximize margin 그림 2-1 선형 SVM 기본적으로 SVM은 선형 분리가 가능한 문제에서 출발하지만 모든 문제가 선형적으로 분리 될 수는 없다. 이처럼 입력 데이터의 선형 분리가 불가능 할 경우 입력 공간을 분리하는 비선형 결정면을 이용하게 되는데, 비선형 결정면의 식을 분석적으로 계산해 낸다는 것은 매우 어려운 일이다.. 이런 경우 SVM에서는 그림 2-2과 같이 고차원의 속성공간을 효율적으로 처리하

21 기 위해서 커널함수를 이용하여 입력 벡터 x를 고차원 속성공간에서의 벡터 로 변형 후 선형의 경계선을 찾는 문제로 전환하게 된다. Φ: x φ(x) 그림 2-2 차원 공간으로 사상시키는 2차원 데이터 커널 함수엔 RBF, Polynomial 등 여러 가지가 있으나 문서분류에는 일반적으 로 선형 커널 함수가 사용이 간편하고 성능도 우수하다고 알려져 있다.[24], [25] 카이 제곱(Chi-Square) 카이제곱은 변수의 범주에 따라 관측 빈도와 기대 빈도간의 차이를 근거 로 한 통계량이다. 두 빈도 값의 차이를 이용하여 독립성 혹은 관련성의 여 부를 판단하게 되는데, 차이가 클수록 카이제곱의 값은 커진다

22 먼저 n개의 독립적인 임의의 변수 χ i 가 이론적 평균 µ i 와 표준편차를 가 지고 가우시안 형태로 분포되어 있다고 가정하면, 그 합은 식(6)과 같은 카 이제곱이 된다. X 2 = k i= 1 ( x i µ i ) σ i 2 (6) 특성으로는 독립된 표본으로부터 계산된 카이제곱 통계량을 더하면 그 합도 카이제곱 통계량이 되고, 자유도는 각 자유도들의 합이 된다. 또한 카이제곱 통계량을 계산하는데 만약 모수의 추정치를 사용하였다면 그 통계량의 자유 도는 추정된 모수의 개수만큼 감소하게 된다. 즉 모수를 알고 있을 경우의 자유도에서 추정된 모수의 수를 뺀 값이 자유도가 된다. Z 1, Z 2, 가 표준 정규분포를 따르는 확률 변수일 때, k C k = Z 2 i 는 카이제 i= 1 곱분포를 따르는데, 이때 자유도(degree of freedom)는 k이다. C k 의 밀도함수는 감마분포의 특수한 경우인데, 식(7)과 같은 식으로 표현할 수 있다. f(x;k) = 2 k / 2 1 k / 2 1 x / 2 Γ ( k 0 / 2 ) x e, x >, x 0 0 (7) 카이제곱 분포의 모양은 자유도에 의존한다. 카이제곱 분포를 따르는 확률 변수는 양의 값만 가지며 원점인 0에서 시작하여 축의 양의 방향으로 곡선 을 가진다. 자유도가 작으면 왼쪽으로 치우친 모양으로 비대칭이며, 자유도 가 커짐에 따라 곡선이 대칭에 가까워지며 자유도가 큰 경우 정규곡선과 같

23 은 모양을 가진다. 자유도가 1, 2인 경우 분포의 최고점은 0에서 일어나며, 자유도가 3이상인 경우 최고점은 (자유도-2)이다. 그림 2-3는 자유도에 따른 카이제곱 분포를 나타낸다. 그림 2-3 자유도에 따른 카이제곱 분포 카이제곱 분포를 이용한 검증은 두 범주형 변수가 서로 관계가 있는지 독립 인지를 판단하는 통계적 검증 방법이다.이 검증의 목적은 적합도 검증,독립 성 검증, 동일성 검증으로 나뉜다. 적합도 검증은 조사에서 얻은 자료가 어떤 특정한 분포를 얻는가를 알고자 할 때이다. 이것은 관찰된 분포가 모집단에 대해 기대하는 분포와 어느 정 도 일치하는가를 검증하는 것이다.독립성 검증은 자료의 두 개의 변수에 따 라 분류시켜 표를 만들었을 때 두 변수간의 관계가 있는지를 검증하는 것으 로,분할표의 행과 열의 합계에 의한 기대치와 각 칸 안의 실제 값을 비교하 여 검정하는 것이다. 동일성 검증은 두 개 이상의 다항분포가 동일한지를

24 검증하는 것이다. 실험결과를 측정하거나 통계조사를 할 때 나타난 관측 값들이 어떤 속성에 따라 분류되어 도수로 주어지는 경우 이러한 자료를 범주형 자료(categorical data)라고 한다. 물론 이런 형태의 자료는 명목척도에 의해서 측정된다. 카이 제곱 검증은 이런 명목 척도를 검증하는데 사용되는데, 피어슨(Pearson)에 의해서 제안되었기 때문에 피어슨의 카이제곱 적합도 검정이라고도 한다. 2000년 Oakes등은 문서 분류에 카이제곱 모델을 사용하였다[22]. 그들의 연 구에서 카이제곱은 특별한 주제의 어휘 특성을 구분하는데 이용되었다.특성 에 의해 구분되는 서로 상반되는 말뭉치(Corpus)를 하나의 큰 일반적인 말 뭉치라 한다면, 그 말뭉치에 속하는 단어들은 해당되는 말뭉치의 특성을 가 진다. 일반적인 말뭉치 에서의 모든 단어에 대한 계산을 한 뒤, 각 단어는 상반되는 두 말뭉치의 어느 한쪽 특성을 가지게 되고 이 특성을 기준으로 단어 리스트를 만든다. 각각의 단어들은 특성이 어느 말뭉치에 속하는가에 대한 태그를 할당 받아 단어 리스트에 저장된다. 시스템은 새로운 문서를 읽게 되고,문서 내의 각각의 단어들은 단어 리스트 에 의해 어느 한쪽 말뭉치의 특징에 가깝게 나타난다.만약 그 단어가 특정 말뭉치에 가깝다면 그 말뭉치를 나타내는 태그를 할당 받고,문서 점수에 1 을 더한다. 그렇지 않으면 상반되는 말뭉치를 나타내는 태그를 할당 받는다. 그리고 문서 점수는 1점을 감한다. 그 단어가 키워드 리스트에 있지 않으면 그것은 무시된다. 최종 점수에 의해 정렬된 문서의 리스트를 생산한다. 마지막으로 한계값는 일반적인 말뭉치에서 범주 내 문서 비율의 결정에 의 해 계산된다. 한계 값은 리스트에서 얼마나 많은 문서가 범주 내에 있고,얼 마나 많은 문서가 범주 밖에 있는지를 결정하는데 이용된다.같은 비율의 새 로운 문서가 정렬된 리스트에서 높은 점수를 가지면 범주 내의 문서로 분류

25 하고,그렇지 않으면 범주 밖의 문서로 분류한다. 2.2 휴리스틱(Heuristic) 방법들 기존의 덧글 스팸 방지를 위한 여러 방법들을 소개하면 아래와 같다. [4] 덧글을 위한 로그인 절차. Capcha를 이용한 Turing test[7]. HTML 태그 제한. 오래된 블로그 글에 덧글을 제한. IP 블랙리스트를 유지[11]. 외부 링크를 내부 링크로 리다이랙트(redirect). 동일한 덧글이 한꺼번에 올라오는 것을 제한. ( throttling ) rel= nofollow 태그를 사용[12]. 블로그 글과 동일한 언어로 덧글 제한. Language Model을 이용한 방법[2] 덧글을 이용한 스팸 로봇을 차단하기 위한 방법은 효율적인 방법처럼 보 이나 실제 포털 블로그에서 무작위로 ID를 만들어 스팸을 올리는 것을 보 면 확실한 해결책은 되지 못하는 것 같다. Capcha는 스팸 로봇인지 사람인지 확인하고자 하는 일종의 Turing test이다. 하지만 사람이 덧글을 쓰고자 할 때 Capcha에 의해 신경을 다른 곳으로 쏠리게 함으로 덧글의 신선도에 악영 향을 끼칠 수도 있어서 실제 포털이나 블로그에서 그리 즐겨 쓰이지 못하고 있다. 또한 이상한 영어나 숫자를 잘 못 읽는 장애인이나 노약자에게는 상 당한 인터넷 진입장벽이 될 수 있다

26 덧글에 Html 태그를 쓰지 못하게 할 경우 일단 스팸성 데이터를 업로드 가 가능하기 때문에 스팸이 난무할 가능성은 충분하고 IP로 인한 제한도 proxy를 이용하면 충분히 스팸 로봇을 돌리 수 있기 때문에 완벽한 해결책 은 되지 못한다. 현재 많은 검색엔진은 html의 a 태그에서 rel = nofollow 옵션을 주어 링크 에 대해서 링크 점수를 무작위로 올리는 것을 방지하고 있다. 이는 덧글 스 팸이 랭킹을 올리기 위한 덧글일 경우 검색엔진 랭킹에만 효과적인 방안이 다. 실제로 블로그를 사용하는 사용자들은 스팸 방지 효과를 전혀 못보고 검색엔진 사용자들만이 그 효과를 보게 되므로 근본적인 스팸방지 대책은 되지 않는다. 블로그와 동일한 언어로 덧글을 제한하는 옵션은 한때 한글 블로그에 영 어 스팸 덧글이 난무할 때 유행하던 것으로 초기 상당한 효과를 봤지만 영 어 블로그일 경우 거의 쓸모가 없던 기능이다. 덧글 스팸이 스팸과 다른 점이 있는데, 그것은 바로 덧글 스팸은 스팸 판정 결과를 스패머가 바로 알 수 있다는 것과 스팸의 경우는 결과를 바로 알 수 없다는 것이다. 따라서 위에서 나열된 방법은 스패머를 일시적으로 막을 수 있는 임시 방편이 될 수 밖에 없다. 2005년 www 컨퍼런스에서 덧글 스팸 제거를 위한 지금까지와 다른 접근 방법을 제시한 논문이 발표되었는데 이것이 바로 Language Model을 이용한 본문과 덧글 그리고 덧글이 링크된 페이지간의 유사도를 비교해 스팸 유무 를 판단하는 논문이다[2]. 하지만 이 논문은 같은 내용의 덧글이 동시 다발 적으로 올라오는 현실적인 스팸 덧글 특성에 대해서 필터를 학습하지 못하 는 한계가 있다. 덧글 자체만으로 스팸인 것에 대해서 기본적인 스팸 가중 치를 부여하지 못하고 단지 상호간에 유사성에 기반을 두고 덧글 스팸 판정

27 을 하기 때문이다. 이는 비교사(non-supervised) 기반의 필터링 시스템의 한계 라 생각한다. 2.3 역 카이제곱 분류 알고리즘 역 카이제곱 알고리즘은 Paul Graham 의 베이지언 스팸 필터의 단점을 보 완하고자 나온 알고리즘이다.[17] 역 카이제곱을 이용한 스팸 필터 역 카이제곱 스팸 분류 방법은 Paul Graham의 베이지언 확률을 이용한 스 팸 필터[8]를 보완하기 위해 나온 개념으로서 베이지언 확률에서 나온 독립 성 가정의 문제, 희소 단어 처리, 단어의 확률의 오류에 대한 문제점을 보완 하기 위해 Robinson이 제시한 알고리즘이다[5]. Paul Graham은 주어진 단어의 확률을 구하기 위해 아래와 같은 식을 제안했 다. P( W S) P( S W ) = (8) P( W S) + P( W H ) S : Spam collection H : Ham collection, W : word Paul Graham 방법에서 문제점으로 지적된 희소한 단어에 대한 확률 계산 의 문제점을 개선하기 위한 방법이 추가 되는데, 예를 들어 정확히 한 개의 스팸 메일이 입력이 되었고 그 메일에서 처음 나오는 하나의 단어의 스팸

28 확률은 100%가 되게 된다. 처음 나온 단어가 한번 스팸에 나왔다는 이유 하나만으로 앞으로 판단될 모든 메일에서 그 단어가 나왔을 때 스팸 확률이 100%로 계산되게 될 것이다. 사실 그 단어는 정확한 확률적인 정보를 가지 기에는 미약한 근거를 가지고 있는 셈이다. 사람은 미래에 받을 이메일에서 위에서 판단된 단 한번만 나온 단어가 존재한다고 해서 100%의 신뢰도를 주지는 않는다. 그러한 이유는 우리가 다른 배경적인 지식을 이용하기 때문 인데, 이러한 배경적인 지식 덕분에 한번만 스팸에 나온 단어에 대해서 100% 의 신뢰를 주지 않는 것이다. 이러한 배경에 의해서 Robinson 은 아래와 같은 확률의 신뢰도 식을 제안 했다. f ( W) ( s x) + ( n P( S W )) = s+ n (9) s : 배경 지식에 대한 신뢰 강도 x : 배경 지식을 기반으로 한 단어의 초기 확률 n : 수신 문서 중 단어 W를 포함하는 문서의 수 이렇게 구한 단어의 확률 값들을 결합하기 위해 피셔(Fisher)의 역 카이제 곱(inverse Chi-square) 검증을 적용한 후 하나의 척도 H 를 구한다. 이렇게 구 한 확률의 결합은 본질적으로 스팸에 큰 영향을 미치는 단어들의 확률을 1 에 가까운 값으로 계산하는 것이 아니고, 햄에 큰 영향을 미치는 단어들의 확률 결합을 0 에 가깝게 만들기 때문에 또 다른 척도 S 를 계산하게 된다. 이 척도 S 역시 단어들의 확률을 결합하지만,이번에는 단어들의 확률을 (1 - f(w) )로 적용한다. 마지막으로 주어진 메일이 스팸인지 아닌지를 판단하기 위해 두 가지 척도를 결합한 제 3 의 척도 I 를 사용하게 된다. 앞에서 지적 한 문제점의 해결책으로 단어의 독립성 가정은 연관성을 찾기가 어렵기 때

29 문에 베이지언 방법에서 사용된 가정을 그대로 적용한다. 희소단어의 처리 는 사용자의 배경 지식에 대한 입력 값인 신뢰의 강도 s 와 어떤 단어가 처 음으로 스팸에 나타날 확률 x 를 이용하여 처리하였고, 단어의 확률 계산은 위에서 설명한 것처럼 확률의 결합 H 의 역 확률인 S 를 구하여 해결한다. 마지막으로 비대칭은 확률 H 와 확률 S 를 결합한 새로운 확률 I로서 해결을 한다. 아래의 3 가지 식은 위에서 언급한 H, S, I 식을 의미한다. 1 H C ( 2ln f ( W ),2n) (10) = W 1 C : 카이제곱 함수의 역함수 n : 문서 내 단어의 총 개수 1 S C ( 2ln (1 f ( W )),2n) (11) = W I ( 1+ H S) = (12) 2 위에서 구한 I 는 문서가 스팸에 가까울수록 1 에 가까운 값, 정상에 가까 울수록 0 에 가까운 값을 가지는 스팸 및 정상 표시자가 된다. 물론 0.5 의 값을 가지는 문서는 결정 불가능한 메일을 의미한다. 이러한 gray area 를 표현하는 것이 가능한 것이 역 카이제곱 알고리즘의 장점 중에 하나이다

30 3. 스팸 필터의 설계 및 구현 본 논문에서는 나이브 베이지언 분류기와 역 카이제곱 분류기, 그리고 동 시출현 자질을 이용한 역 카이제곱 분류기를 구현했다. 단순히 구현에만 관 점을 두자면 3 가지 알고리즘이 코드상으로 크게 다른 점은 없다. 따라서 이 장에서는 동시출현 자질을 이용한 역 카이제곱 분류기에 중점을 두고 설명 을 하겠다. 2 장에서는 다양한 문서 분류 알고리즘과 실제 본 논문에서 제안하고자 하 는 역 카이제곱 알고리즘에 대해서 알아보았다. 본 장에서는 실제 본인이 제안한 동시출현 자질을 이용한 역 카이제곱 방법을 사용해 실제 덧글 스팸 을 필터링하는 시스템에 대해서 설명하고자 한다. 3.1 설계 방향 분류기는 학습과정을 거치고 그 학습 결과를 메모리와 파일에 동시에 저 장하는 구조로 했다. 왜냐면 나중에 다시 학습하는데 걸리는 시간을 단축하 기 위해서이다. 직접 분류한 덧글 데이터를 이용해 학습을 시켜 단어에 대한 확률 정보를 수집하는 것으로 학습단계는 일단락 되고 실제 본문과 덧글이 들어왔을 때 여러 전처리 단계를 거쳐 문장의 중요 단어에 대한 확률 정보를 추출해 판 정 자질로 활용해 덧글의 스팸 유무를 판단하게 된다. 하나의 완벽한 시스템으로 구축되는 것을 목적으로 구현을 했고 실제 소

31 켓 통신을 위한 테스팅 환경도 구축하였다. 3.2 시스템 구조. 시스템은 크게 학습 단계와 테스트 전처리 그리고 테스트 단계로 나눠진 다. 학습 단계에서는 덧글의 스팸성 판정 데이터들이 입력으로 들어가서 스팸 필터를 학습하게 된다. 이때 POS Tagger[9]를 이용해 명사만 추출한다. 테스트 셋의 경우는 그림 3-1 과 같은 형식으로 한 레코드당 한 줄씩 입력을 받게 된다. 그림에서와 같이 <comment: * > 형식의 comment 자체를 의미하 는 문장이 들어가고, 그 뒤에 그 해당 comment 가 스팸덧글인지 정상덧글인 지 확인하는 <spam: 1 또는 0,> 테그가 들어가게 된다. 값에 대한 정의는 아래와 같이 하기로 하겠다. 정상덧글 = 0 스팸덧글 = 1 따라서 아래의 3-1 에서의 그림의 첫 번째 레코드는 스팸덧글이다. <comment:71772 Title of washington va real estate><spam:1> 스팸덧글

32 그림 3-1 학습 데이터 포맷 이러한 학습 데이터를 이용해 학습을 완료하고 그 데이터를 아래와 그림 3-2 와 같은 포맷의 파일구조로 저장을 하였다. 그림 3-2 단어 확률 정보 저장 구조

33 이제부터 테스트 단계에 대해서 설명을 하겠다. 먼저 데이터 입력 포맷 구조는 아래와 같다. 그림 3-3 테스트 데이터 포맷 <post: "본문글"> <comment: "덧글1"><spam:1> 스팸덧 <comment: "덧글2"><spam:0> 정상덧글 그림 3-4 테스트 데이터 포멧 구조

34 테스트 데이터의 포맷은 위와 같이 한 개의 본문 글에 여러 개의 덧글이 붙는 구조로 입력되어 있으며 기 판정 결과들은 학습 데이터의 경우와 같 다. 테스트 전처리 단계에서는 덧글과 덧글과 관련된 본문을 입력으로 받는다. 이때 덧글은 명사만 추출해서 P(W) 값이 가장 큰 총 5 개의 중복을 1 번만 허용하는 리스트를 각 덧글 확률 정보로 유지하며, 본문은 tf-idf 단어 가중치를 계산하기 위해 (13)식을 이용 본문에서 핵심어로 판단되는 단어리 스트를 내림차순 정렬해서 유지한다. tf N idf t, d = tf t, d log (13) df t 이 식에서 tf, t d 는 문서 내 특정 단어의 빈도수를 의미하고, N 은 코퍼스 내의 총 문서 수, 그리고 dft 는 코퍼스 내에서 단어의 출현 횟수를 의미한 다. 덧글에서 확률의 영향력이 큰 단어 5 개(판정 자질 명사)만 유지하는 이유 는 수집한 스팸의 평균 길이가 40 char 즉 8 단어 내외였고 실제로 스팸판정 에 가장 영향을 많이 끼치는 단어를 포함하는 작업을 함으로서 덧글 길이의 영향을 최소화 하려고 한 것이다. 그리고 빈도수에 대한 정보를 수용하기 위해 1 번 반복된 단어는 허용했다[6]. 10 개로 제한한 본문의 주제어를 뽑는 작업은 주제어가 덧글에 포함 유무 에 대한 확률 값을 계산하기 위한 선 작업(Pre-Processing)이다. 테스트 단계에서는 덧글의 5 개의 판정 자질 명사 집합에 대해서 (2)번 식 을 이용한 확률을 구하고 덧글과 본문에 동시에 존재하는 전처리 단계에서

35 뽑은 주제어가 있을 경우 이들에 대해 아래(3.3)에서 소개될 식을 이용한 추 가 확률을 구하는 것이다. 이들 단어들의 확률을 기반으로 (10), (11), (12)번 식을 사용해 문서의 스팸 유무를 판별한다. 시스템의 전체적인 구조는 아래 그림 3-2 과 같다. 그림 3-5 시스템 구조 3.3 동시출현 단어 자질 정보 덧글과 본문에 동시 존재하는 주제어에 대한 확률 값을 알아야 하는데 이 는 (9)번 식을 이용하면 유도할 수 있다

36 (9)식을 다시 쓰면 아래의 (14)번식과 같이 쓸 수 있는데. P( W S) P( S) P( S W ) = (14) P( W S) P( S) + P( W H ) P( H ) 여기서 추가된 P(S), P(H)는 각 스팸, 정상 문서 컬렉션에서 단어의 확률을 의미하는 P(W S), P(W H)의 신뢰 강도를 의미하기도 한다. Graham 의 경우[8] 에서 스팸과 정상문서의 비율을 동일하게 두고 실험을 하였기에 생략된 확 률들이다. 동시 출현하는 단어들에 대해서 신뢰강도(degree of belief)를 주어 단어 확 률을 추가해 주는 작업을 할 수 있는데 아래와 같은 식을 이용해 동시 출현 하는 주제어들의 확률을 추가한다. 단어들의 신뢰강도는 본문 내에서 주제 어 빈도수에 비례할 것이다. t. f d. b= (15) dl 여기서 dl 은 모든 주제어의 총 빈도수를 의미하고 t.f 는 동시 출현한 주 제어의 빈도수를 의미한다. 이렇게 구현된 동시출현 주제어들에 대한 스팸 확률은 아래와 같다. PCOW (.. S) (1 db. ) P( S COW.. ) = (16) PCOW (.. S) (1 db. ) + PCOW (.. H) db. 미지의 값인 P(C.O.W H)과 P(C.O.W S)은 각각 동시출현 단어의 스팸 코퍼 스와 정상 코퍼스에 나올 확률을 의미하는데 동시출현 단어에 대해서 정상 코퍼스에 나올 확률을 올려주는 것이 이 확률식의 목적이기 때문에 본 논문

37 에서는 아래와 같이 정의한다. P(C.O.W S) = 0.1 (17) P(C.O.W H) = (1- P(C.O.W S)) (18) 이러한 (17), (18)번 식을 사용해 도출된 동시출현 자질 확률들을 기반으로 (12)번식을 사용 최종적인 덧글 스팸 필터링을 하게 된다

38 4. 실험 및 결과 4.1 실험 환경 본 논문에서 제안한 실험 시스템은 아래 표 4-1 과 같은 환경에서 3 가지 필터를 직접 모두 구현하여 실험하였다. CPU AMD Turion64 x 2 Dual-core MEMORY 2GB HDD 120GB OS Ubuntu Linux COMPILER gdc v0.24 표 4-1 실험 환경 3 가지 필터를 모두 D language 를 이용해서 Linux 기반에서 개발했고, 알고 리즘상 베이지언 필터와 역 카이제곱 필터의 유사성으로 인해 그렇게 많은 개발 리소스는 들어가지 않았다. 직접 개발함으로써 3 가지 필터의 여러 파 라메터상의 동일성과 환경적인 조건을 모두 동일하게 할 수 있었던 장점이 있었다. 제안한 방법의 유효성을 검증하기 위해 직접 덧글 데이터를 수집해서 분 류 후 학습데이터로 사용을 하였고 테스트 데이터 셋으로는 [2]에서 쓰인 본문과 덧글, 그리고 판정데이터까지 포함된 toy corpus[3]를 사용했다. 수집 대상이 되었던 대상이 되는 블로그는 에서 IT 분 야의 영문 블로그 30 개와 정치, 경제 분야의 영문 블로그 30 개를 무작위 선

39 택해 직접 구현한 웹 크롤러를 사용하여 덧글 데이터를 수집, 분류했다. 이렇게 수집한 학습 덧글과 테스트 덧글에 대한 정보는 아래와 표 4-2 와 같다. 컬렉션 개수 학습 덧글 (스팸/정상) 19,586 / 10,000 테스트 덧글 (스팸/정상) 612 / 329 테스트에 사용된 본문 47 총 덧글 20,198 / 10,329 표 4-2 학습 데이터와 테스트 데이터 제안하는 필터 시스템은 덧글만을 대상으로 기본적인 베이지언 스팸 필터 와 역 카이제곱 필터에 대한 성능 측정을 했고, 마지막으로 동시출현 자질 정보가 포함된 역 카이제곱 필터의 성능 측정 결과를 상호 비교하였다. 여 러 베이지언이나 역 카이제곱의 확률 계산시 들어가는 여러 파라메터는 모 두 동일한 조건하에 두고 실험을 하였다. 따라서 알고리즘상 차이점만 제외 하고 모두 동일한 환경에서 실험을 하였다. 성능 평가 방법으로는 일반적으로 스팸 필터 성능을 평가할 때 주로 쓰이 는 아래와 같은 평가 방법을 사용하였다

40 a: ham (correctly classified) [true negative] b: spam (correctly classified) [true positive] c: ham misclassification [false positive] d: spam misclassification [false negative] e: total number of spam(real) f: total number of ham(real) hm% : ham misclassification rate sm% : spam misclassification rate lam% : average misclassification rate 거짓 긍정률(false positive rate)라고도 일컬어 지는 hm 은 긍정적 클래스로 예측된 부정적 사례의 비율로 정의된다. 스팸일 경우에는 정상덧글을 스팸 덧글로 판정한 비율을 의미한다. 또한 거짓 부정률(false positive rate)라고 불리는 sm 의 경우는 부정적 클래 스로 예측된 긍정적 사례의 비율로 정의된다. 본 논문의 경우에는 스팸 덧 글을 정상덧글로 오분석한 비율을 의미한다. hm Sm (19) (20)

41 평균적인 오분류율을 의미하는 lam 값의 계산은 아래와 같이 할 수 있다. 1 lam = logit (logit( hm)/ 2+ logit( sm)/ 2) (21) where: logit( x) = log( x /(1 x)) x logit ( x) = e /(1+ e 1 x ) error accurate (22) (23) 리콜(recall)과 정밀도(precision)는 어떤 특징 클래스의 성공적인 검출이 다 른 클래스들의 분류에 비해서 훨씬 중요한 응용에서 널리 사용되는 두 가지 측정 기준이다. 이 기준들의 공식적인 정의는 다음과 같다. recall precision (24) (25) 정밀도는 분류기가 긍정적 클래스로 선언한 그룹에서 실제 긍정적 사례로 판명되는 항목들의 비율을 결정한다. 정밀도의 값이 클수록 분류기에 의하 여 검출되는 거짓 부정(false negative) 오류의 수는 적어진다. 리콜은 분류기 에 의하여 정확하게 예측되는 긍정적 사례의 비율을 측정한다. 리콜 수치가 큰 분류기는 부정적 클래스로 잘못 분류되는 긍정적 사례의 수가 매우 적다

42 사실상 리콜의 값은 참 긍정률(true positive rate)과 같다. 정밀도와 리콜 수치를 모두 최대화 시키는 모델을 구축하는 것은 분류 알 고리즘의 중요 도전과제이다. 정밀도와 리콜은 f 1 -measure 라고 알려진 또 다른 기준으로 요약될 수 있 다. 2 precision recall f1 measure= (26) precision+ recall 이론적으로 f 1 -measure 는 리콜과 정밀도의 조화 평균을 의미한다. 즉, F (27) 이다. 두 숫자 x, y 의 조화 평균은 두 수 중 적은 숫자에 가까운 경향이 있 다. 따라서 F 1 -measure 치가 높다는 것은 정밀도와 리콜 모두가 상당히 크다 는 것을 보장한다. 4.2 실험 결과 위에서 제시한 실험 환경과 측정 척도를 기준으로 3 가지 필터를 비교 실 험해 봤다. 특히나 이런 분류기의 비교에서는 에러에 상당히 민감한데, 특히 나 여기서 제시한 방법인 Hm, 일반적으로 False Positive 에러라고 알려진 척 도가 필터의 성능측정에 중요한 기준이 되기도 한다

43 hm sm lam 0 베이지언 역카이제곱 역카이제곱 + 동시출현 표 4-3 hm, sm, lam 결과 3 가지 필터 중에서 역카이제곱 + 동시출현자질 로 구현한 필터가 hm, sm, lam 부분에서 가장 좋은 성능을 보여주는 것을 알 수 있다. 이곳에서 보면 스팸덧글을 정상덧글이라고 분류해주는 sm 수치가 3 가지 필터가 모두 높은 것으로 보여지는데, 이런 원인이 되는 것이 이러한 스팸 덧글의 평균 텀 개수가 8 텀 이하라서 판정에 쓰일 자질이 거의 없는 덧글 이 대부분 이였다는데 문제점이 있었다. 물론 이 부분은 제안한 방법을 써 서 조금 줄어들기는 했지만 본 논문에서 제시한 방법 말고 다른 추가 자질 을 발굴의 필요성을 역설하는 부분이 아닐까 한다. 오분석 되었던 예제를 보자면 Just a test 라는 덧글이 과연 스팸덧글일까 아닐까 하는 판정의 문 제도 있는 걸로 보인다. 내가 쓴 테스트 셋의 판정은 본문과 무관한 동문서

44 답의 경우에 스팸덧글로 판정한 것으로 보인다 Recall Precision F1-measure 0 베이지언 역카이제곱 역카이제곱 + 동시출현 표 4-4 리콜(Recall), 정밀도(Precision), F 1 -measure 결과 Error Accurate 10 0 베이지언 역카이제곱 역카이제곱 + 동시출현 표 4-5 에러율(Error rate)과 정확도(Accurate rate) 결과

45 평가방법(%) 베이지언 역 카이제곱 동시출현 자질 + 역 카이제곱 Hm Sm Lam Error Recall Precision F 1 -measure Accurate 표 4-6 종합적인 비교 실험 결과표 스팸 필터의 성능을 평가하는 본 논문에서 제공한 모든 방법에 대해서 동 시출현 자질을 추가한 역 카이제곱 필터가 가장 좋은 성능을 보여주는 것을 실험 결과 데이터를 통해 알 수 있다. 4.3 결과 분석 동시 출현 자질의 유효성 실제 역 카이제곱 필터와 비교할 때 Hm, Sm, Lam, Error, Recall, Precision 등 모든 측정 결과에서 동시출현 자질을 추가한 역 카이제곱 필터가 좋은 결과 를 보여준다. 이는 본문과 덧글간 주제어 동시출현 정보가 덧글의 스팸 확

46 률을 평가하는데 중요한 요소로 쓰일 수 있다는 것을 보여준다 오류 분석(Hm, Sm) 분류 필터는 Hm(False positive)가 성능 평가에 중요한 요소로 쓰인다. 실제 정상적인 덧글이 스팸으로 판단되는 손실이 스팸이 정상으로 판단되는 손실 에 비해 크기 때문이다. 하지만 동시출현 정보를 포함한 필터가 가장 낮은 오류율을 보여주고 있어 오류에 강한 필터임을 보여주고 많은 정상덧글들이 주제어를 포함하고 있다는 것을 보여준다. 이러한 오류율이 동시출현 정보를 사용함으로써 낮아진 이유는 드물게 출 현해서 단어의 스팸 확률이 초기값 0.4 에 근접하게 평가되어 덧글의 스팸 평가에 영향을 거의 미치지 않는 단어들이 동시출현 확률 계산식에 의해서 중요 단어로 계산식에 포함되면서 나온 결과이다. 덧글에 본문에서 주로 쓰 이는 주제어가 포함이 됨으로 인해 이 덧글의 스팸 확률은 현격하게 낮아지 게 되어 오류율이 적어지게 된 것이다. 하지만 Sm(False Negative)가 세가지 필터에 대해서 매우 높은 것에 대해서 생각해볼 필요가 있음을 실감해서 직접 제안한 동시 출현 정보를 추가한 역 카이제곱 필터의 Sm 결과를 가지고 오류 분석을 해보았다. 오류 분석 방법은 오류로 출력된 덧글에 대해서 단어를 추출해 그것들을 빈도수에 대해서 정렬을 했다. 데이터의 특성상 long tail 형식으로 특정 단 어에 집중하는 현상이 있어서 지면관계상 그래프는 상위 30%를 차지하는 단어에 대해서만 넣었다

47 8.00% 7.00% 6.00% 5.00% 4.00% 3.00% 2.00% 1.00% 0.00% http www clickmove guanggao html sports phentermine com sex cialis people bettingsports pochta 표 4-7 Sm(False Negative) 분석 결과 위 표를 보면 가장 많은 비율을 차지하는 단어가 http, www, html 등 URL 관련 단어인 것을 알 수 있다. 물론 테스트 도중에 이런 단어의 확률을 확 인해본 결과 http 는 의 스팸 확률을 가지고 있었던 단어로 나왔으며, www 의 경우는 의 스팸 확률을 가지고 있던 것으로 나온다. 이러할 결 과가 나온 이유는 URL 들을 구성하는 단어 자체가 스팸성 임에도 불구하고 다른 정상인 텀과 같이 출연함으로써 상쇄가 된 경우로 볼 수 있다. 또한 URL 주소들에 대해서 www, http 같은 텀을 추출해서 확률 정보에 넣는 횟수 또한 2 회로 제한을 했던 결과였음을 알 수 있다. 221 개의 오분석 덧글 중에 33 개의 덧글이 http 를 포함하고 있었고, 특정 덧글에 집중되어서 남발된 것으로 확인 되었다. 따라서 URL 자체에 대한

48 www, http, html 같은 텀에 대해서 페널티를 무조건 주기 보다는 특정 횟수 이상의 남용에 대한 페널티로 접근을 하는 것이 바람직한 방법이지 않을까 한다. 물론 스팸 판정을 위해서 남발 횟수를 자질로 넣을 경우 학습 기반으 로 학습셋에서 도출될 수 있어야 하는 부분일 것이다. 오류 분석을 통해서 스팸을 판정하는데 URL 이 중요한 자질로 선택될 수 있다는 것을 보여주는 결과라 생각한다 Grey Area 에 대한 고찰 제안한 방법으로 전체적인 성능향상은 있었으나 필터에서 grey area 로 판 단되는 전체의 8.6%의 덧글에 대한 판단 기준과 방법에 대한 과제가 남게 된다. 이런 경향의 덧글들은 대체적으로 짧고 본문에서 나온 주제어들이 전 혀 포함되어 있지 않아 본문에 대한 의견에 관한 덧글이라기 보다는 다분히 형식적인 덧글임에 판단의 모호함이 따른다. 실제 실험에서 grey area 영역을 좁혀서 판단률을 높여보려 했지만 거꾸로 정확도가 떨어지는 현상이 있는 것으로 봐서 grey area 에 대한 다른 고민들 이 필요할거라 생각한다. 실험 결과 로그를 분석하면 Nice Site! 라는 덧글이 grey area 로 판단이 되었고 그 덧글에 포함된 링크는 포르노(porn) 사이트로 연결이 되어 있었음 이 확인 되었다. 따라서 그 덧글과 본문과의 연관성을 판단하기 힘든 이런 종류의 덧글일 경우 추가적인 자질을 발굴함으로 grey area 영역을 좁히면서 성능을 높일 수 있을 것이라 생각한다 주제어를 포함한 스팸 덧글인 경우

49 무분별하게 본문에 나온 주제어를 포함한 스팸 덧글을 스팸로봇이 배포하 게 된다면 이 알고리즘의 성능은 장담하지 못한다. 하지만 로봇이 본문의 데이터를 분석해 주제어를 정확하게 뽑아내야 된다 는 숙제가 남게 된다. 본지에서는 tf.idf 를 사용해 전체 컬렉션에서 빈도수를 기반으로 뽑아냈는데 로봇이 컬렉션을 다른걸 쓴다면 전혀 다른 주제어가 나올 가능성이 있어 로봇 자체의 스팸 덧글 게재 성공률도 그리 높지 않으 리라 본다

50 5. 결론 및 향후 연구 과제 본 논문에서는 단편적인 확률기반 스팸 필터의 필터링 대상 위주 의 처리 방식을 탈피한 추가 자질을 발굴 함으로써 스팸 필터의 성능을 개 선할 수 있다는 것을 밝혔다. 본문과 덧글의 주제어 동시출현 자질정보를 필터 확률정보에 추가함으로써 전체적인 성능 향상을 실험 결과로 보여준 다. 제안한 방법은 단편적인 블로그 덧글 필터링에만 한정된 방법이 아니다. 본문과 덧글의 연관성이 보장된 어느 연결된 미디어의 스팸 필터 자질로 쓰 일 수 있다. 따라서 일반적인 게시판이나 위키의 덧글 필터링 시스템에도 이러한 자질이 성능을 발휘하리라 생각한다. 본지에서는 역 카이제곱 방법의 필터와 동시출현 정보를 조합하였지만 여 타 다른 분류 알고리즘과도 동시출현 정보를 결합 할 수 있을 것이다. 추후 SVM(Support Vector Machine)과 같은 다른 분류 알고리즘들을 기반으로 이러 한 자질을 추가한 성능 상호 평가를 해보는 것은 추후 과제로 남겨두었다. 또한 고찰에서 제시한 grey area 부분 문제를 해결 할 수 있는 또 다른 추 가 자질을 발굴하는 연구도 의미가 있을 거라 생각한다

51 참고 문헌 [1] Aaaron Emigh, Automatically Detecting Textual Blog Spam at MIT Spam Conference (2007) [2] Mishne, G., D. Carmel, et al. Blocking Blog Spam with Language Model Disagreement. Proceedings of the 1st International Workshop on Adversarial Information Retrieval on the Web (2005). [3] Gilad Mishne, Toy corpus of spam in blog comments (2005), [4] Spam in blogs, Wikipedia, [5] Gary Robinson, A Statistical Approach to the Spam Problem (2003), [6] Jonathan A. Zdziarski, Ending Spam, pages 63-83, NO STARCH PRESS,(2005) [7]L.vonAhn,M.Blum,andJ.Langford.Telling Humans and computers apart automatically. Commun.ACM,47(2):5660(2004) [8] Paul Graham, A Plan for Spam, (2002) [9] Brill, Eric, Some Advances In Rule-Based Part of Speech Tagging. In Proceedings of AAAI(1994), [10] M. Sahami, S. Dumais, D. Heckernab, and E, Horvits. A baysian approach to filtering junk . In learning for text Categorization: Papers from the

52 Workshop, Madison, Wisconsin, AAAI Technical Report WS [11] Movable Type Black Filter, with content filtering, [12] Preventing comment spam using nofollow tag(2005), [13] comment spam statistics in Project Honey Pot, [14] comment and trackback spam statistics, [15] MIT Spam Conference (2007), [16] James Seng's MT-Bayesian, [17] Gray Robinson, Spam Detection, [18] Little, Rarmond C., J. Leroy Folks (1971) Asymptotic Optimality of Fisher's Method of Combining Independent Tests. Journal of the American Statistical Association, 336(66), Pp [19] Chang, yong seok, A Design and implementation of an improved Baysian spam filter using Chi-square statistics, Department of Computer Engineering Graduate School Keimyung University (2004) [20] Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, chapter 5, (2005)

53 [21] Blog, Wikipedia, [22] Michael Oakes, Robert Gaizauskas, Helene Fowkes, Anna Jonsson, Vincent Wan & Micheline Beaulieu (2001) A method based on the chi-square test for document classification. Proceedings of the ACM Special Interest Group on Information Retrieval (SIGIR 01) , New Orleans. [23] Vapnik, Vladimir N.,The Nature of Statistical Learning Theory, Springer-Verlag, [24] Bekkerman R., El-Yaniv R., Tkshby N., Winter Y., "On Feature Distributioanl Clustering for Text Categorization",Proceedings of SIGIR 2001, thetwenty-fourth AnnualInternationalACM SIGIR Conference,pp ,2001 [25] Tao Li,Shenghuo Zho,MitsunoriOrkhara,"Topic Hierarchy Generation via Linear Discriminant Projection",ProceedingsofSIGIR 2003,theTwenty-Sixth AnnualInternationalACM SIGIR Conference,pp ,

54 감사 드립니다. 군대를 전역하고 바로 사회에 나와 일을 시작한지 4 년이 이제 막 넘었습니다. 정말 열심히 살았다고 자부하는 그 4 년 동안 그 중심에 있었던 것은 바로 대학원 생활이었습니다. 처음 정보검색일을 하면서 검색에 무지함을 느껴 무작정 임해창 교수님에게 이력서를 보내며 조언을 구한다는 첫 메일로 인연이 시작되어 자상하게 길을 가르쳐 주셨던 3 년 전 그때를 저는 잊지 못합니다. 아마도 교수님이 직접 걸으셨던 그 당시 전화 한통이 없었다면 지금 이 시간은 없었을지 모른다는 생각이 듭니다. 그런 교수님의 관심아래 대학원 생활을 시작했고 주어진 시간에 주경야독으로 열심히 살면서 대학원 내내 장학생으로 생활할 수 있었고, 누구에게 보여줘도 부끄럽지 않을 성적과 논문 한편을 만들었습니다. 그 처음 교수님 전화하셨을 때부터 대학원 내내 관심 가져주시고 가르침 주셨던 것에 대해서 정말 이 지면으로 빌어 말하기 부족할 정도로 감사 드린다고 전해드리고 싶습니다. 교수님 정말 감사 드립니다. 그리고 논문실험시작을 어려워하던 저에게 쉽게 접근할 수 있도록 수업 과제를 통해 시작 할 수 있게 지도해 주신 육동석 교수님께도 감사의 말씀 전해 드립니다. 회사를 다니면서 학교를 다니는 것에 대해서 물심 양면으로 배려를 많이 해주신 Yahoo! Korea Search Eng.팀 우경창 차장님과, 박승 과장님 그리고 우리 Search Eng. 팀 선배님들께 감사의 말씀 전해 드립니다. 그리고 논문 쓸 때 개인적으로 많은 조언 해주셨던 Yahoo! Asia Region 의 정후중 박사님과 지금 이 시간에도 책 쓰시고 계실 이문호 박사님 모두 감사 드립니다

55 또한 같은 대학교 일반 대학원에 다니면서 많은 격려와 칭찬, 조언을 아끼지 않았던 단짝 R.O.T.C 39 기 동기이자 Best Friend 인 김한식, 너도 내가 고맙겠지만 나도 네가 정말 자랑스럽고 고마웠단다. 너와 같은 날 같은 시각에 함께 졸업을 할 수 있다는 게 꿈만 같구나. 무엇보다 나 자신에게 충실하고 열심히 하는 모습에 진심 어린 박수와 격려, 사랑을 보내주신 부모님에게 감사의 말씀 드리고 싶습니다. 항상 책 읽는 모습을 보여주시면서 나에게 독서하는 소중한 습관을 길러주신 아버지, 무엇이 진정 열심히 사는 것이고 더불어 사는 삶인지 행동으로 가르쳐 주신 어머니 항상 고맙습니다. 당신의 인생이 곧 나의 인생이라는걸 한시도 잊어본 적이 없답니다. 사랑합니다. 그리고 마지막으로, 내년 2 월이면 나의 가족이 될 보현이에게 이 대학원 생활에 들인 노력과 과정, 그리고 결과의 기쁨을 함께하고 싶습니다

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770> 한국지능시스템학회 논문지 2010, Vol. 20, No. 3, pp. 375-379 유전자 알고리즘을 이용한 강인한 Support vector machine 설계 Design of Robust Support Vector Machine Using Genetic Algorithm 이희성 홍성준 이병윤 김은태 * Heesung Lee, Sungjun Hong,

More information

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

Software Requirrment Analysis를 위한 정보 검색 기술의 응용 EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템 김석환 * 이청재 정상근 이근배 포항공과대학교 컴퓨터공학과 지능소프트웨어연구실 {megaup, lcj80, hugman, gblee}@postech.ac.kr An Example-Based Natural Language System for EPG Information Access Seokhwan Kim

More information

Microsoft Word - 김창환.doc

Microsoft Word - 김창환.doc 포커스 포커스 악성댓글의 실태와 대응 방안 김창환* 인터넷은 전 세계적으로 다양한 계층이 사용하고 있는 대표적인 서비스로 다양한 사건 사고와 핫이슈들 을 실시간으로 접할 수 있고, 사용자들에게는 즐거움을 준다. 하지만 해킹을 비롯한 사이버 테러는 수법이 날로 교묘해지고 군사ㆍ행정ㆍ금융 등 한 국가의 주요 정보를 파괴하고 있으며, 최근에는 악성댓글이 익명 성을

More information

정보기술응용학회 발표

정보기술응용학회 발표 , hsh@bhknuackr, trademark21@koreacom 1370, +82-53-950-5440 - 476 - :,, VOC,, CBML - Abstract -,, VOC VOC VOC - 477 - - 478 - Cost- Center [2] VOC VOC, ( ) VOC - 479 - IT [7] Knowledge / Information Management

More information

Y 1 Y β α β Independence p qp pq q if X and Y are independent then E(XY)=E(X)*E(Y) so Cov(X,Y) = 0 Covariance can be a measure of departure from independence q Conditional Probability if A and B are

More information

김기남_ATDC2016_160620_[키노트].key

김기남_ATDC2016_160620_[키노트].key metatron Enterprise Big Data SKT Metatron/Big Data Big Data Big Data... metatron Ready to Enterprise Big Data Big Data Big Data Big Data?? Data Raw. CRM SCM MES TCO Data & Store & Processing Computational

More information

0125_ 워크샵 발표자료_완성.key

0125_ 워크샵 발표자료_완성.key WordPress is a free and open-source content management system (CMS) based on PHP and MySQL. WordPress is installed on a web server, which either is part of an Internet hosting service or is a network host

More information

<C0CCBDB4C6E4C0CCC6DB34C8A35F28C3D6C1BE292E687770>

<C0CCBDB4C6E4C0CCC6DB34C8A35F28C3D6C1BE292E687770> 근 과학기술은 거대화 및 융합화 추세와 더불어 그 수명 주기가 점차 짧아지고 있어 연 최 구개발 계획의 수립, 진행, 평가 등의 과정 전반에 보다 객관적이고 정밀한 자료의 중요 성에 제고되는 동시에 치열한 국제경쟁에서의 생존을 위해 속전속결식의 투자와 성장전략보 다는 엄밀한 투자타당성 평가에 기반한 객관적이고 장기적인 투자전략 수립이 요구되고 있다. 이러한

More information

접근성과 웹 The power of the Web is in its universality. Access by everyone regardless of disability is an essential aspect. Tim Berners-Lee, the inventor

접근성과 웹 The power of the Web is in its universality. Access by everyone regardless of disability is an essential aspect. Tim Berners-Lee, the inventor 웹 접근성 : 최근 동향 신정식 jshin@i18nl10n.com 2006-06-29 웹 접근성 : 최근 동향 2 / 30 신정식 접근성과 웹 The power of the Web is in its universality. Access by everyone regardless of disability is an essential aspect. Tim Berners-Lee,

More information

<4D6963726F736F667420576F7264202D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

<4D6963726F736F667420576F7264202D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5> 주간기술동향 2016. 5.18. 컴퓨터 비전과 인공지능 장혁 한국전자통신연구원 선임연구원 최근 많은 관심을 받고 있는 인공지능(Artificial Intelligence: AI)의 성과는 뇌의 작동 방식과 유사한 딥 러닝의 등장에 기인한 바가 크다. 이미 미국과 유럽 등 AI 선도국에서는 인공지능 연구에서 인간 뇌 이해의 중요성을 인식하고 관련 대형 프로젝트들을

More information

<4D6963726F736F667420506F776572506F696E74202D2030342E20C0CEC5CDB3DD20C0C0BFEB20B9D720BCADBAF1BDBA20B1E2BCFA2831292E70707478>

<4D6963726F736F667420506F776572506F696E74202D2030342E20C0CEC5CDB3DD20C0C0BFEB20B9D720BCADBAF1BDBA20B1E2BCFA2831292E70707478> 웹과 인터넷 활용 및실습 () (Part I) 문양세 강원대학교 IT대학 컴퓨터과학전공 강의 내용 전자우편(e-mail) 인스턴트 메신저(instant messenger) FTP (file transfer protocol) WWW (world wide web) 인터넷 검색 홈네트워크 (home network) Web 2.0 개인 미니홈페이지 블로그 (blog)

More information

#Ȳ¿ë¼®

#Ȳ¿ë¼® http://www.kbc.go.kr/ A B yk u δ = 2u k 1 = yk u = 0. 659 2nu k = 1 k k 1 n yk k Abstract Web Repertoire and Concentration Rate : Analysing Web Traffic Data Yong - Suk Hwang (Research

More information

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for 2003 Development of the Software Generation Method using Model Driven Software Engineering Tool,,,,, Hoon-Seon Chang, Jae-Cheon Jung, Jae-Hack Kim Hee-Hwan Han, Do-Yeon Kim, Young-Woo Chang Wang Sik, Moon

More information

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F32303134303531362E687770>

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F32303134303531362E687770> 미디어 경제와 문화 2014년 제12권 2호, 7 43 www.jomec.com TV광고 시청률 예측방법 비교연구 프로그램의 장르 구분에 따른 차이를 중심으로 1)2) 이인성* 단국대학교 커뮤니케이션학과 박사과정 박현수** 단국대학교 커뮤니케이션학부 교수 본 연구는 TV프로그램의 장르에 따라 광고시청률 예측모형들의 정확도를 비교하고 자 하였다. 본 연구에서

More information

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월 지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., 2004 5 2009 12 KOSPI200.,. * 2009. 지능정보연구제 16 권제 1 호 2010 년 3 월 김선웅 안현철 社 1), 28 1, 2009, 4. 1. 지능정보연구제 16 권제 1 호 2010 년 3 월 Support

More information

untitled

untitled Math. Statistics: Statistics? 1 What is Statistics? 1. (collection), (summarization), (analyzing), (presentation) (information) (statistics).., Survey, :, : : QC, 6-sigma, Data Mining(CRM) (Econometrics)

More information

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석 ,, Even the short history of the Web system, the techniques related to the Web system have b een developed rapidly. Yet, the quality of the Webbased application software has not improved. For this reason,

More information

04(785-791) SA14-18.hwp

04(785-791) SA14-18.hwp ISSN 2383-630X(Print) / ISSN 2383-6296(Online) Journal of KIISE, Vol. 41, No. 10, pp. 785-791, 2014. 10 http://dx.doi.org/10.5626/jok.2014.41.10.785 관계 기반 특징을 이용한 트위터 스패머 탐지 (Spammer Detection using Features

More information

DIY 챗봇 - LangCon

DIY 챗봇 - LangCon without Chatbot Builder & Deep Learning bage79@gmail.com Chatbot Builder (=Dialogue Manager),. We need different chatbot builders for various chatbot services. Chatbot builders can t call some external

More information

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI:   : Researc Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp.251-273 DOI: http://dx.doi.org/10.21024/pnuedi.27.2.201706.251 : 1997 2005 Research Trend Analysis on the Korean Alternative Education

More information

45-51 ¹Ú¼ø¸¸

45-51 ¹Ú¼ø¸¸ A Study on the Automation of Classification of Volume Reconstruction for CT Images S.M. Park 1, I.S. Hong 2, D.S. Kim 1, D.Y. Kim 1 1 Dept. of Biomedical Engineering, Yonsei University, 2 Dept. of Radiology,

More information

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770> 327 Journal of The Korea Institute of Information Security & Cryptology ISSN 1598-3986(Print) VOL.24, NO.2, Apr. 2014 ISSN 2288-2715(Online) http://dx.doi.org/10.13089/jkiisc.2014.24.2.327 개인정보 DB 암호화

More information

歯1.PDF

歯1.PDF 200176 .,.,.,. 5... 1/2. /. / 2. . 293.33 (54.32%), 65.54(12.13%), / 53.80(9.96%), 25.60(4.74%), 5.22(0.97%). / 3 S (1997)14.59% (1971) 10%, (1977).5%~11.5%, (1986)

More information

38이성식,안상락.hwp

38이성식,안상락.hwp 동영상UCC의 활성화에 따른 영상디자인의 대중화 현상에 관한 연구 A Study on Development of Public Relationship of UCC Animation in Social Network 주저자: 이성식 (Lee, Sung Sik) (주)펄슨앤커뮤니케이션 공동저자: 안상락(An, Sang Lak) 한국재활복지대학 광고홍보과 논문요약 Abstract

More information

R을 이용한 텍스트 감정분석

R을 이용한 텍스트 감정분석 R Data Analyst / ( ) / kim@mindscale.kr (kim@mindscale.kr) / ( ) ( ) Analytic Director R ( ) / / 3/45 4/45 R? 1. : / 2. : ggplot2 / Web 3. : slidify 4. : 5. Matlab / Python -> R Interactive Plots. 5/45

More information

......

...... Life & Power Press P R E F A C E P R E F A C E P R E F A C E C O N T E N T S 01 02 03 01 04 05 06 07 08 09 02 C O N T E N T S C O N T E N T S 10 11 12 03 13 01 01 01 12 CHAPTER 01 O O O 13 PART 01 14

More information

2

2 에너지경제연구 Korean Energy Economic Review Volume 10, Number 1, March 2011 : pp. 1~24 국내화력발전산업에대한연료와자본의대체성분석 1 2 3 ~ 4 5 F F P F P F ln ln ln ln ln ln ln ln ln ln ln ln ln ln ln ln ln 6 ln ln ln ln ln 7 ln

More information

<333820B1E8C8AFBFEB2D5A6967626565B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

<333820B1E8C8AFBFEB2D5A6967626565B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770> Journal of the Korea Academia-Industrial cooperation Society Vol. 13, No. 1 pp. 306-310, 2012 http://dx.doi.org/10.5762/kais.2012.13.1.306 Zigbee를 이용한 실외 위치추정 시스템 구현 김환용 1*, 임순자 1 1 원광대학교 전자공학과 Implementation

More information

09권오설_ok.hwp

09권오설_ok.hwp (JBE Vol. 19, No. 5, September 2014) (Regular Paper) 19 5, 2014 9 (JBE Vol. 19, No. 5, September 2014) http://dx.doi.org/10.5909/jbe.2014.19.5.656 ISSN 2287-9137 (Online) ISSN 1226-7953 (Print) a) Reduction

More information

본문01

본문01 Ⅱ 논술 지도의 방법과 실제 2. 읽기에서 논술까지 의 개발 배경 읽기에서 논술까지 자료집 개발의 본래 목적은 초 중 고교 학교 평가에서 서술형 평가 비중이 2005 학년도 30%, 2006학년도 40%, 2007학년도 50%로 확대 되고, 2008학년도부터 대학 입시에서 논술 비중이 커지면서 논술 교육은 학교가 책임진다. 는 풍토 조성으로 공교육의 신뢰성과

More information

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a 조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a) b) 조사연구 주제어 패널조사 횡단면가중치 종단면가중치 선형혼합모형 일반화선형혼 합모형

More information

슬라이드 1

슬라이드 1 빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 9 주차 예측모형에대한평가 Assessment of Predictive Model 최종후, 강현철 차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들

More information

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770> Journal of the Korea Academia-Industrial cooperation Society Vol. 13, No. 2 pp. 866-871, 2012 http://dx.doi.org/10.5762/kais.2012.13.2.866 증강현실을 이용한 아동교육프로그램 모델제안 권미란 1*, 김정일 2 1 나사렛대학교 아동학과, 2 한세대학교 e-비즈니스학과

More information

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA The e-business Studies Volume 17, Number 4, August, 30, 2016:319~332 Received: 2016/07/28, Accepted: 2016/08/28 Revised: 2016/08/27, Published: 2016/08/30 [ABSTRACT] This paper examined what determina

More information

<31372DB9DABAB4C8A32E687770>

<31372DB9DABAB4C8A32E687770> 김경환 박병호 충북대학교 도시공학과 (2010. 5. 27. 접수 / 2011. 11. 23. 채택) Developing the Traffic Severity by Type Kyung-Hwan Kim Byung Ho Park Department of Urban Engineering, Chungbuk National University (Received May

More information

04김호걸(39~50)ok

04김호걸(39~50)ok Journal of Environmental Impact Assessment, Vol. 22, No. 1(2013) pp.39~50 Prediction of Landslides Occurrence Probability under Climate Change using MaxEnt Model Kim, Hogul* Lee, Dong-Kun** Mo, Yongwon*

More information

B-05 Hierarchical Bayesian Model을 이용한 GCMs 의 최적 Multi-Model Ensemble 모형 구축

B-05 Hierarchical Bayesian Model을 이용한 GCMs 의 최적 Multi-Model Ensemble 모형 구축 Hierarchical Bayesian Model 을 이용한 GCMs 의 최적 Multi-Model Ensemble 모형 구축 Optimal Multi-Model Ensemble Model Development Using Hierarchical Bayesian Model Based 권 현 한 * 민 영 미 **Saji N. Hameed *** Hyun-Han

More information

thesis-shk

thesis-shk DPNM Lab, GSIT, POSTECH Email: shk@postech.ac.kr 1 2 (1) Internet World-Wide Web Web traffic Peak periods off-peak periods peak periods off-peak periods 3 (2) off-peak peak Web caching network traffic

More information

<91E6308FCD5F96DA8E9F2E706466>

<91E6308FCD5F96DA8E9F2E706466> 㓙 ࡐ ࡓ 㧢 㧝 ޓ ㅢ 㓙 ࡐ ࡓ 㓙 ࡐ ࡓ Si 8th Int. Conf. on Si Epitaxy and Hetero- structures (ICSI-8) & 6th Int. Symp. Control of Semiconductor Interfaces 25 6 2 6 5 250 Si 2 19 50 85 172 Si SiGeC Thin Solid Films

More information

2 14:00-14:05 14:05-14:10 14:10-14:15 14:15-14:30 Seoul Culturenomics, Vision & Strategy 14:30-14:40 14:40-15:10 15:10-15:40 15:40-16:10 (Rebranding) 16:10-16:30 16:30 1 03 17 19 53 55 65 2 3 6 7 8 9 서울문화포럼

More information

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a low-resolution Time-Of- Flight (TOF) depth camera and

More information

歯제7권1호(최종편집).PDF

歯제7권1호(최종편집).PDF ********* (*, **, *** ).., 2002, 7, 1, 1-12. 2-5 80.,.,..,,... :,,. (naming).., (word finding), (lexical look- up), (lexical retrieval), (word recall) (Fried- Oken, 1987). (pause),,, (naming error) (Snyder

More information

Social Network

Social Network Social Network Service, Social Network Service Social Network Social Network Service from Digital Marketing Internet Media : SNS Market report A social network service is a social software specially focused

More information

<303720C7CFC1A4BCF86F6B2E687770>

<303720C7CFC1A4BCF86F6B2E687770> 1) < 論 文 > 라이프스타일 세분화를 통한 실버타운 수요자 분석 133 주택연구 제15권 4호 2007. 12/15(4) : 133~160 Housing Studies Review Vol. 15, No. 4 : 133~160 접수일 : 2007. 7. 9, 심사일 : 2007. 7. 16, 심사완료일 : 2007. 8. 29 라이프스타일 세분화를 통한 실버타운

More information

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( : 27 2, 17-31, 2009. -, * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** (: dminkim@cau.ac.kr) 18 한국교육문제연구제 27 권 2 호, 2009. Ⅰ. (,,, 2004). (,, 2006).,,, (Myrick,

More information

230 한국교육학연구 제20권 제3호 I. 서 론 청소년의 언어가 거칠어지고 있다. 개ㅅㄲ, ㅆㅂ놈(년), 미친ㅆㄲ, 닥쳐, 엠창, 뒤져 등과 같은 말은 주위에서 쉽게 들을 수 있다. 말과 글이 점차 된소리나 거센소리로 바뀌고, 외 국어 남용과 사이버 문화의 익명성 등

230 한국교육학연구 제20권 제3호 I. 서 론 청소년의 언어가 거칠어지고 있다. 개ㅅㄲ, ㅆㅂ놈(년), 미친ㅆㄲ, 닥쳐, 엠창, 뒤져 등과 같은 말은 주위에서 쉽게 들을 수 있다. 말과 글이 점차 된소리나 거센소리로 바뀌고, 외 국어 남용과 사이버 문화의 익명성 등 청소년의 개인, 가정, 학교변인에 따른 비교육적 언어 사용의 차이 229 한국교육학연구 제20권 제3호 The Korea Educational Review 2014. 10. Vol.20. No.3. pp.229-251. 1) 청소년의 개인, 가정, 학교변인에 따른 비교육적 언어 사용의 차이* 강기수 조규판(동아대학교) [요 약] 본 연구의 목적은 청소년의 개인변인인

More information

<3136C1FD31C8A35FC3D6BCBAC8A3BFDC5F706466BAAFC8AFBFE4C3BB2E687770>

<3136C1FD31C8A35FC3D6BCBAC8A3BFDC5F706466BAAFC8AFBFE4C3BB2E687770> 부동산학연구 제16집 제1호, 2010. 3, pp. 117~130 Journal of the Korea Real Estate Analysts Association Vol.16, No.1, 2010. 3, pp. 117~130 비선형 Mankiw-Weil 주택수요 모형 - 수도권 지역을 대상으로 - Non-Linear Mankiw-Weil Model on Housing

More information

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석

부문별 에너지원 수요의 변동특성 및 공통변동에 미치는 거시적 요인들의 영향력 분석 에너지경제연구 Korean Energy Economic Review Volume 15, Number 1, March 2016 : pp. 33 ~ 67 부문별에너지원수요의변동특성및공통변동에 미치는거시적요인들의영향력분석 33 ~ < 표 1> 에너지소비량과주요변수들의연평균증가율 ~ ~ ~ ~ ~ 34 35 36 37 38 ~ 39 [ 그림 1] 부문별에너지원소비량의증가율

More information

PJTROHMPCJPS.hwp

PJTROHMPCJPS.hwp 제 출 문 농림수산식품부장관 귀하 본 보고서를 트위스트 휠 방식 폐비닐 수거기 개발 과제의 최종보고서로 제출 합니다. 2008년 4월 24일 주관연구기관명: 경 북 대 학 교 총괄연구책임자: 김 태 욱 연 구 원: 조 창 래 연 구 원: 배 석 경 연 구 원: 김 승 현 연 구 원: 신 동 호 연 구 원: 유 기 형 위탁연구기관명: 삼 생 공 업 위탁연구책임자:

More information

<31325FB1E8B0E6BCBA2E687770>

<31325FB1E8B0E6BCBA2E687770> 88 / 한국전산유체공학회지 제15권, 제1호, pp.88-94, 2010. 3 관내 유동 해석을 위한 웹기반 자바 프로그램 개발 김 경 성, 1 박 종 천 *2 DEVELOPMENT OF WEB-BASED JAVA PROGRAM FOR NUMERICAL ANALYSIS OF PIPE FLOW K.S. Kim 1 and J.C. Park *2 In general,

More information

DW 개요.PDF

DW 개요.PDF Data Warehouse Hammersoftkorea BI Group / DW / 1960 1970 1980 1990 2000 Automating Informating Source : Kelly, The Data Warehousing : The Route to Mass Customization, 1996. -,, Data .,.., /. ...,.,,,.

More information

공지사항

공지사항 상명사이버캠퍼스 군이러닝 강좌 학습안내 1. 사이버캠퍼스 접속방법 브라우저 주소창에서 직접 http://cyber.smu.ac.kr 입력하여 접속합니다. : 추천 2. 개설강좌 및 수업 안내 가. 개설과목 : 컴퓨터와정보사회(군인) 나. 수업시작 : 2015. 9.1(화) 10:00 이후부터 다. 평가방법 1) 중간, 기말고사는 off-line

More information

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션 Reasons for Poor Performance Programs 60% Design 20% System 2.5% Database 17.5% Source: ORACLE Performance Tuning 1 SMS TOOL DBA Monitoring TOOL Administration TOOL Performance Insight Backup SQL TUNING

More information

1217 WebTrafMon II

1217 WebTrafMon II (1/28) (2/28) (10 Mbps ) Video, Audio. (3/28) 10 ~ 15 ( : telnet, ftp ),, (4/28) UDP/TCP (5/28) centralized environment packet header information analysis network traffic data, capture presentation network

More information

264 축되어 있으나, 과거의 경우 결측치가 있거나 폐기물 발생 량 집계방법이 용적기준에서 중량기준으로 변경되어 자료 를 활용하는데 제한이 있었다. 또한 1995년부터 쓰레기 종 량제가 도입되어 생활폐기물 발생량이 이를 기점으로 크 게 줄어들었다. 그러므로 1996년부

264 축되어 있으나, 과거의 경우 결측치가 있거나 폐기물 발생 량 집계방법이 용적기준에서 중량기준으로 변경되어 자료 를 활용하는데 제한이 있었다. 또한 1995년부터 쓰레기 종 량제가 도입되어 생활폐기물 발생량이 이를 기점으로 크 게 줄어들었다. 그러므로 1996년부 大 韓 環 境 工 學 會 誌 特 輯 - Special Feature - 263~268. 2008. 인구구조변화에 따른 생활폐기물 발생량 현황 및 전망 서울대학교 보건대학원 Status and Forecast of the Municipal Solid Waste Generation by the Change of Population Structure Sa-rah

More information

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp RUF * (A Simple and Efficient Antialiasing Method with the RUF buffer) (, Byung-Uck Kim) (Yonsei Univ. Depth of Computer Science) (, Woo-Chan Park) (Yonsei Univ. Depth of Computer Science) (, Sung-Bong

More information

<49534F20323030303020C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D7204954534D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

<49534F20323030303020C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D7204954534D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770> ISO 20000 인증 사후심사 컨설팅 및 ITSM 시스템 고도화를 위한 제 안 요 청 서 2008. 6. 한 국 학 술 진 흥 재 단 이 자료는 한국학술진흥재단 제안서 작성이외의 목적으로 복제, 전달 및 사용을 금함 목 차 Ⅰ. 사업개요 1 1. 사업명 1 2. 추진배경 1 3. 목적 1 4. 사업내용 2 5. 기대효과 2 Ⅱ. 사업추진계획 4 1. 추진체계

More information

大学4年生の正社員内定要因に関する実証分析

大学4年生の正社員内定要因に関する実証分析 190 2016 JEL Classification Number J24, I21, J20 Key Words JILPT 2011 1 190 Empirical Evidence on the Determinants of Success in Full-Time Job-Search for Japanese University Students By Hiroko ARAKI and

More information

UML

UML Introduction to UML Team. 5 2014/03/14 원스타 200611494 김성원 200810047 허태경 200811466 - Index - 1. UML이란? - 3 2. UML Diagram - 4 3. UML 표기법 - 17 4. GRAPPLE에 따른 UML 작성 과정 - 21 5. UML Tool Star UML - 32 6. 참조문헌

More information

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re EMF Health Effect 2003 10 20 21-29 2-10 - - ( ) area spot measurement - - 1 (Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern

More information

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특 한국도시행정학회 도시행정학보 제25집 제4호 2012. 12 : pp.231~251 생활지향형 요소의 근린주거공간 분포특성 연구: 경기도 시 군을 중심으로* Spatial Distribution of Daily Life-Oriented Features in the Neighborhood: Focused on Municipalities of Gyeonggi Province

More information

<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770>

<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770> 2012학년도 2학기 중등과정 3학년 국어 수업 계획서 담당교사 - 봄봄 현영미 / 시온 송명근 1. 학습 목적 말씀으로 천지를 창조하신 하나님이 당신의 형상대로 지음 받은 우리에게 언어를 주셨고, 그 말씀의 능 력이 우리의 언어생활에도 나타남을 깨닫고, 그 능력을 기억하여 표현하고 이해함으로 아름다운 언어생활 을 누릴 뿐만 아니라 언어문화 창조에 이바지함으로써

More information

Problem New Case RETRIEVE Learned Case Retrieved Cases New Case RETAIN Tested/ Repaired Case Case-Base REVISE Solved Case REUSE Aamodt, A. and Plaza, E. (1994). Case-based reasoning; Foundational

More information

006 007 007 009 012 012 012 013 013 013 018 019 033 045 051 052 060 066 067 077 083 084 099 108 117 118 122 135 140 141 141 142 143 143 145 148 154 01 006 007 007 009 " # $ % 02 012 012 012 013 013 013

More information

인문사회과학기술융합학회

인문사회과학기술융합학회 Vol.5, No.5, October (2015), pp.471-479 http://dx.doi.org/10.14257/ajmahs.2015.10.50 스마트온실을 위한 가상 외부기상측정시스템 개발 한새론 1), 이재수 2), 홍영기 3), 김국환 4), 김성기 5), 김상철 6) Development of Virtual Ambient Weather Measurement

More information

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016)   ISSN 228 (JBE Vol. 1, No. 1, January 016) (Regular Paper) 1 1, 016 1 (JBE Vol. 1, No. 1, January 016) http://dx.doi.org/10.5909/jbe.016.1.1.60 ISSN 87-9137 (Online) ISSN 16-7953 (Print) a), a) An Efficient Method

More information

단위: 환경정책 형산강살리기 수중정화활동 지원 10,000,000원*90%<절감> 형산강살리기 환경정화 및 감시활동 5,000,000원*90%<절감> 9,000 4,500 04 민간행사보조 9,000 10,000 1,000 자연보호기념식 및 백일장(사생,서예)대회 10

단위: 환경정책 형산강살리기 수중정화활동 지원 10,000,000원*90%<절감> 형산강살리기 환경정화 및 감시활동 5,000,000원*90%<절감> 9,000 4,500 04 민간행사보조 9,000 10,000 1,000 자연보호기념식 및 백일장(사생,서예)대회 10 2013년도 본예산 일반회계 환경위생과 ~ 환경위생과 세 출 예 산 사 업 명 세 서 부서: 환경위생과 단위: 환경정책 환경위생과 8,231,353 3,622,660 4,608,693 국 2,472,543 기 144,000 도 976,102 시 4,638,708 자연환경보호(환경보호/환경보호일반) 5,910,247 1,462,545 4,447,702 국 1,817,800

More information

°í¼®ÁÖ Ãâ·Â

°í¼®ÁÖ Ãâ·Â Performance Optimization of SCTP in Wireless Internet Environments The existing works on Stream Control Transmission Protocol (SCTP) was focused on the fixed network environment. However, the number of

More information

<303833315FC1A4BAB8B9FDC7D02031362D325FC3D6C1BEBABB2E687770>

<303833315FC1A4BAB8B9FDC7D02031362D325FC3D6C1BEBABB2E687770> 개인정보보호법의 보호원칙에 대한 벌칙조항 연구 A Legal Study of Punishments in Terms of Principles of Private Informaion Protection Law 전동진(Jeon, Dong-Jin)*19) 정진홍(Jeong, Jin-Hong)**20) 목 차 Ⅰ. 들어가는 말 Ⅱ. OECD 개인정보 보호원칙과의 비교

More information

04서종철fig.6(121~131)ok

04서종철fig.6(121~131)ok Development of Mobile Applications Applying Digital Storytelling About Ecotourism Resources Seo, Jongcheol* Lee, Seungju**,,,. (mobile AIR)., 3D.,,.,.,,, Abstract : In line with fast settling trend of

More information

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770> 자연과학연구 제27권 Bulletin of the Natural Sciences Vol. 27. 2013.12.(33-44) 교통DB를 이용한 교통정책 발굴을 위한 통계분석 시스템 설계 및 활용 Statistical analytic system design and utilization for transport policy excavation by transport

More information

±è¼ºÃ¶ Ãâ·Â-1

±è¼ºÃ¶ Ãâ·Â-1 Localization Algorithms Using Wireless Communication Systems For efficient Localization Based Services, development of accurate localization algorithm has to be preceded. In this paper, research trend

More information

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2 FMX FMX 20062 () wwwexellencom sales@exellencom () 1 FMX 1 11 5M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2 FMX FMX D E (one

More information

내지4월최종

내지4월최종 내 가 만 난 7 0 년 대 죽은 언론의 사회 동아자유언론수호투쟁위원회 2008년 촛불집회가 한창일 때 정동익은 오래 전 자신이몸담았던 동아일 보사 앞에 서 있었다. 촛불을든시민들은 동아일보는 쓰레기다! 라며 야유 를 보냈다. 한때 국민들이 가장 사랑했던 신문 동아일보는 젊은 시절 그와동 료 기자들이 목숨을 걸고 외쳤던 자유 언론 이 아니었다. 그는 차마더바라

More information

PDF

PDF v s u e q g y vœ s s œx}s Enhancing the Night Time Vehicle Detection for Intelligent Headlight Control using Lane Detection Sungmin Eum Ho i Jung * School of Mechanical Engineering Hanyang University,

More information

歯4차학술대회원고(장지연).PDF

歯4차학술대회원고(장지연).PDF * 1)., Heckman Selection. 50.,. 1990 40, -. I.,., (the young old) (active aging). 1/3. 55 60 70.,. 2001 55 64 55%, 60%,,. 65 75%. 55 64 25%, 32% , 65 55%, 53% (, 2001)... 1998, 8% 41.5% ( 1998). 2002 7.8%

More information

분석결과 Special Edition 녹색건물의 가치산정 및 탄소배출 평가 이슈 서 민간분야의 적극적인 참여 방안의 마련이 필요하다. 또한 우리나라는 녹색건축의 경제성에 대한 검증에 대 한 연구가 미흡한 실정이다. 반면, 미국, 영국, 호주 등은 민간 주도로 녹색건축물

분석결과 Special Edition 녹색건물의 가치산정 및 탄소배출 평가 이슈 서 민간분야의 적극적인 참여 방안의 마련이 필요하다. 또한 우리나라는 녹색건축의 경제성에 대한 검증에 대 한 연구가 미흡한 실정이다. 반면, 미국, 영국, 호주 등은 민간 주도로 녹색건축물 기획특집Ⅱ 1 지속가능성 평가기반 에너지효율등급인증 건축물 가치산정에 관한 연구 지속가능성 평가기반 에너지효율등급인증 건축물 가치산정에 관한 연구 * 유 영 준 부연구위원 한국감정원 녹색건축센터 녹색건축연구단 신 성 은 연구원 한국감정원 녹색건축센터 녹색건축연구단 박 아 름 연구원 한국감정원 녹색건축센터 녹색건축연구단 윤 종 돈 부장 한국감정원 녹색건축센터

More information

04 형사판례연구 19-3-1.hwp

04 형사판례연구 19-3-1.hwp 2010년도 형법판례 회고 645 2010년도 형법판례 회고 2)오 영 근* Ⅰ. 서설 2010. 1. 1.에서 2010. 12. 31.까지 대법원 법률종합정보 사이트 1) 에 게재된 형법 및 형사소송법 판례는 모두 286건이다. 이 중에는 2건의 전원합의체 판결 및 2건의 전원합의체 결정이 있다. 2건의 전원합의체 결정은 형사소송법에 관한 것이고, 2건의

More information

http://www.kbc.go.kr/pds/2.html Abstract Exploring the Relationship Between the Traditional Media Use and the Internet Use Mee-Eun Kang This study examines the relationship between

More information

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017) ISSN

(JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, (JBE Vol. 22, No. 2, March 2017)   ISSN (JBE Vol. 22, No. 2, March 2017) (Regular Paper) 22 2, 2017 3 (JBE Vol. 22, No. 2, March 2017) https://doi.org/10.5909/jbe.2017.22.2.234 ISSN 2287-9137 (Online) ISSN 1226-7953 (Print) a), a), a) Real-time

More information

별지 제10호 서식

별지 제10호 서식 국립국어원 정보 보안 업무 처리 규정 제정 2013. 12. 26. 국립국어원 예규 제 95호 일부개정 2014. 3. 10. 국립국어원 예규 제111호 제 1 장 총 칙 제 1 조(목적) 이 규정은 국립국어원의 정보보안업무 수행에 필요한 사항을 규정함을 목적으로 한다. 제 2 조(정의) 이 규정에서 사용하는 용어의 정의는 다음 각 호와 같다. 1. 부서 라

More information

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770>

<30312DC1A4BAB8C5EBBDC5C7E0C1A4B9D7C1A4C3A52DC1A4BFB5C3B62E687770> Journal of the Korea Institute of Information and Communication Engineering 한국정보통신학회논문지(J. Korea Inst. Inf. Commun. Eng.) Vol. 19, No. 2 : 258~264 Feb. 2015 ID3 알고리즘 기반의 귀납적 추론을 활용한 모바일 OS의 성공과 실패에 대한

More information

<303330365FC3BBBCD2B3E2C1A4C3A5C0C720C8AEC0E5B0FA20B9DFC0FC28C3D6C1BE31292E687770>

<303330365FC3BBBCD2B3E2C1A4C3A5C0C720C8AEC0E5B0FA20B9DFC0FC28C3D6C1BE31292E687770> 세미나자료집 14-S07 제2차 2013년도 고유과제 연구성과 발표회 청소년정책의 발전과 전망 일시 : 2014년 3월 11일(화) 15:00-17:00 장소 : 한국교원단체총연합회 2층 단재홀 인사말 모든 만물이 긴 겨울잠에서 깨어나 다시 힘찬 도약을 준비하는 생명의 계절을 맞아, 한국청소년정책연구원에서는 지난 한 해 수행한 연구 성과들을 널리 공유하고

More information

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29 Web2.0의 EKP/KMS 적용 방안 및 사례 2008. 3. OnTheIt Consulting Knowledge Management Strategic Planning & Implementation Methodology 목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29 현재의

More information

서론 34 2

서론 34 2 34 2 Journal of the Korean Society of Health Information and Health Statistics Volume 34, Number 2, 2009, pp. 165 176 165 진은희 A Study on Health related Action Rates of Dietary Guidelines and Pattern of

More information

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770> 정보시스템연구 제23권 제1호 한국정보시스템학회 2014년 3월, pp. 161~184 http://dx.doi.org/10.5859/kais.2014.23.1.161 베이비붐세대의 디지털라이프 지수* 1) 권순재**, 김미령*** Ⅰ. 서론 Ⅱ. 기존문헌 연구 2.1 베이비붐세대의 현황과 특성 2.2 베이비붐의 세대이 정보화 연구 Ⅲ. 연구내용 및 방법 Ⅳ.

More information

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA 논문 10-35-03-03 한국통신학회논문지 '10-03 Vol. 35 No. 3 원활한 채널 변경을 지원하는 효율적인 IPTV 채널 관리 알고리즘 준회원 주 현 철*, 정회원 송 황 준* Effective IPTV Channel Control Algorithm Supporting Smooth Channel Zapping HyunChul Joo* Associate

More information

사회통계포럼

사회통계포럼 wcjang@snu.ac.kr Acknowledgements Dr. Roger Peng Coursera course. https://github.com/rdpeng/courses Creative Commons by Attribution /. 10 : SNS (twitter, facebook), (functional data) : (, ),, /Data Science

More information

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 2004. 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disability)..,,. (WHO) 2001 ICF. ICF,.,.,,. (disability)

More information

보건사회연구-25일수정

보건사회연구-25일수정 30(1), 2010, 220-241 Health and Social Welfare Review...... * :, (slee@kangnam.ac.kr) 220 ( ) 5.. (, 2005;, 2006;, 2006;, 2007), (, 2004;, 2005;, 2007;, 2007), (, 2005, 2009;, 2005;, 2005;, 2008).....

More information

한국성인에서초기황반변성질환과 연관된위험요인연구

한국성인에서초기황반변성질환과 연관된위험요인연구 한국성인에서초기황반변성질환과 연관된위험요인연구 한국성인에서초기황반변성질환과 연관된위험요인연구 - - i - - i - - ii - - iii - - iv - χ - v - - vi - - 1 - - 2 - - 3 - - 4 - 그림 1. 연구대상자선정도표 - 5 - - 6 - - 7 - - 8 - 그림 2. 연구의틀 χ - 9 - - 10 - - 11 -

More information

석사논문.PDF

석사논문.PDF ABO Rh A study on the importance of ABO and Rh blood groups information in Public Health 2000 2 1 ABO Rh A study on the importance of ABO and Rh blood groups information in Public Health 2000 2 2 ABO Rh

More information

레이아웃 1

레이아웃 1 i g d e d mod, t d e d e d mod, t e,0 e, n s,0 e,n e,0 Division of Workers' Compensation (2009). Iowa workers' compensation manual. Gamber, E. N. & Sorensen, R. L. (1994). Are net discount rates stationary?:

More information

보고서(겉표지).PDF

보고서(겉표지).PDF 11-13 10148-000092- 01 200 1 04 ( ) 2 0 0 1 ( ) E fficient Rules for Oper atin g the Det en tion B asin an d P umpin g St ation ( ) 2 0 0 1. 12 1 2 11-1310148- 000092-01 ( ) E fficien t Ru les for Oper

More information

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI:   A Study on Organizi Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp.441-460 DOI: http://dx.doi.org/10.21024/pnuedi.28.4.201812.441 A Study on Organizing Software Education of Special Education Curriculum

More information

Intra_DW_Ch4.PDF

Intra_DW_Ch4.PDF The Intranet Data Warehouse Richard Tanler Ch4 : Online Analytic Processing: From Data To Information 2000. 4. 14 All rights reserved OLAP OLAP OLAP OLAP OLAP OLAP is a label, rather than a technology

More information

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowon Lee 2 * 1 Program of Software Convergence, Soongsil

More information

BibLaTeX을 이용한 한국어 참고 문헌 처리의 가능성

BibLaTeX을 이용한  한국어 참고 문헌 처리의 가능성 공주대학교문서작성 워크숍 2014 2014. 10. 18. ( 토 ) 09:30~16:00 공주대 인문사회관 컴퓨터실 107호 L A T E X, 모던하게사용하기 A B 2014. BibL A TEX 공주대학교문서작성 워크숍 2014 11. 1. ( 토 ) 10:00~16:00 공주대 인문사회관 컴퓨터실 107호 책한권을레이텍으로조판해보자 2014.10.18

More information