Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Similar documents
Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

슬라이드 1

소성해석

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

(Microsoft PowerPoint - Ch6_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

슬라이드 1

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정


<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

Microsoft Word - Ch3_Derivative2.docx

= ``...(2011), , (.)''

23

G Power

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Artificial Intelligence: Assignment 5 Seung-Hoon Na December 15, Numpy: Tutorial 다음 자료를 참조하여 numpy기본을 공부하시오.

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

학습목표 함수프로시저, 서브프로시저의의미를안다. 매개변수전달방식을학습한다. 함수를이용한프로그래밍한다. 2

MATLAB for C/C++ Programmers

ASETAOOOCRKG.hwp

31. 을전개한식에서 의계수는? 를전개한식이 일 때, 의값은? 을전개했을때, 의계수와상수항의합을구하면? 을전개했을때, 의 계수는? 를전개했을때, 상수항을 구하여라. 37


第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

Microsoft Word - LectureNote.doc

Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft s Bing Search Engine Thore Graepel et al., ICML, 2010 P

歯TC프로그래밍매뉴얼

Microsoft Word - LectureNote.doc

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Microsoft PowerPoint - m05_Equation1(Print) [호환 모드]

탐색적데이터분석 (Exploratory Data Analysis) 데이터가지닌주요특성 / 개괄을 ( 우선적으로 ) 탐구함으로써 데이터분석을시도하려는형태 모델링이나가설을세우고이를검증하기보다데이터자체 가우리에게말하려고하는것을알아내는것의중요성을강 조하며시각화플롯을많이활용 J


산선생의 집입니다. 환영해요

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

statistics

제 3강 역함수의 미분과 로피탈의 정리

Microsoft PowerPoint - ch07ysk2012.ppt [호환 모드]

PowerPoint 프레젠테이션

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

함수공간 함수공간, 점열린위상 Definition 0.1. X와 Y 는임의의집합이고 F(X, Y ) 를 X에서 Y 로의모든함수족이라하자. 집합 F(X, Y ) 에위상을정의할때이것을함수공간 (function space) 이라한다. F(X, Y ) 는다음과같이적당한적집합과

쉽게배우는알고리즘 6장. 해시테이블 테이블 Hash Table

Java ...

<352EC7E3C5C2BFB55FB1B3C5EBB5A5C0CCC5CD5FC0DABFACB0FAC7D0B4EBC7D02E687770>

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

Microsoft PowerPoint - m22_ODE(Print) [호환 모드]

MATLAB for C/C++ Programmers

Lab - Gradient descent Copyright 2018 by Introduction [PDF 파일다운로드 ]() 이번랩은우리가강의를통해들은 Gradient descent 을활용하여 LinearRegression

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Microsoft PowerPoint - chap03-변수와데이터형.pptx

(Microsoft PowerPoint - Ch17_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

슬라이드 1

기본자료형만으로이루어진인자를받아서함수를결과값으로반환하는고차함수 기본자료형과함수를인자와결과값에모두이용하는고차함수 다음절에서는여러가지예를통해서고차함수가어떤경우에유용한지를설명한다. 2 고차함수의 예??장에서대상체만바뀌고중간과정은동일한계산이반복될때함수를이용하면전체연산식을간 단

PowerPoint 프레젠테이션

딥러닝 첫걸음

슬라이드 1

Vector Space Vector space : 모든 n 차원컬럼벡터의집합 : {, :, } (, 2), (2, 5), (-2.4, 3), (2.7, -3.77), (,), 이차원공간을모두채움 : {,, :,, } (2,3,4), (3,2,-5), Vector spa

λx.x (λz.λx.x z) (λx.x)(λz.(λx.x)z) (λz.(λx.x) z) Call-by Name. Normal Order. (λz.z)

제 4 장회귀분석

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

<3230B4EBBFA9BCBAC3EBBEF7C7F6BDC728C0CCBDB4BAD0BCAE292E687770>

public key private key Encryption Algorithm Decryption Algorithm 1

歯4차학술대회원고(장지연).PDF

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a


체의원소를계수로가지는다항식환 Theorem 0.1. ( 나눗셈알고리듬 (Division Algorithm)) F 가체일때 F [x] 의두다항식 f(x) = a 0 + a 1 x + + a n x n, a n 0 F 와 g(x) = b 0 + b 1 x + + b m x

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

미시경제학을위한기초수학 조남운 March 20, 함수 1.1 함수란무엇인가 여러분이미시경제학을배우면서미분을배우는이유는계산을통해함수의최대값이나최소값을구해야하기때문이다. 최대값이나최소값을구하기위해서는함수의미분을알

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

슬라이드 1

methods.hwp

<312E B3E2B5B520BBE7C8B8BAB9C1F6B0FC20BFEEBFB5B0FCB7C320BEF7B9ABC3B3B8AE20BEC8B3BB28B0E1C0E7BABB292DC6EDC1FD2E687770>

에너지경제연구 제13권 제1호

046~64

제 출 문 한국산업안전공단 이사장 귀하 본 보고서를 2002 년도 공단 연구사업계획에 따라 수행한 산 업안전보건연구수요조사- 산업안전보건연구의 우선순위설정 과제의 최종보고서로 제출합니다. 2003년 5월 연구기관 : 산업안전보건연구원 안전경영정책연구실 정책조사연구팀 연

경제수학강의노트 09 미분법 I: 미분법칙, 편미분, 전미분 Do-il Yoo PART III: Comparative-Static Analysis 비교정태분석 Chapter 7: Rules of Differentiation and Their Use in Comparat

Microsoft PowerPoint 다변수 방정식과 함수(1).ppt

5장. 최적화


에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 1~18 가격비대칭성검정모형민감도분석 1


02장.배열과 클래스

Probability Overview Naive Bayes Classifier Director of TEAMLAB Sungchul Choi

일반각과호도법 l 삼각함수와미분 1. 일반각 시초선 OX 로부터원점 O 를중심으로 만큼회전이동한위치에동경 OP 가있을때, XOP 의크기를나타내는각들을 ( 은정수 ) 로나타내고 OP 의일반각이라한다. 2. 라디안 rad 반지름과같은길이의호에대한중심각의 크기를 라디안이라한

강의10

<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

融合先验信息到三维重建 组会报 告[2]

untitled

untitled

<5B30385DC0D3BBF3C8ADC7D0B0CBBBE72DC0E5BBF3BFEC2E687770>

untitled

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

고 학년도 9월고수학 1 전국연합학력평가영역문제지 1 1 제 2 교시 수학영역 5 지선다형 3. 두다항식, 에대하여 는? [ 점 ] 1. 의값은? ( 단, ) [ 점 ] 다항식 이 로인수분해될때, 의값은? ( 단,,

RM hwp

1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속

Transcription:

Machine Learning Linear Regression siga α 2015.06.06. siga α

Issues siga α 2

Issues https://www.facebook.co/architecturearts/videos/ 1107531579263808/ 8 살짜리조카에게데이터베이스 (DB) 가무엇인지 3 줄의문장으로설명하시오 6 개월동안최대 25 번이나되는면접시험을거쳐구글러 ( 구글직원을일컫는말 ) 가될확률은 0.25%. 하버드대보다 25 배들어가기어렵다. 우리는 구글다운 (Being Googley) 인재들만뽑는다 회사에뭔가다른가치나재능을가져다줄수있는지 새로운지식을받아들일줄아는지적인겸손 유연함을갖췄는지 굴러다니는쓰레기를스스로줍는자발적인사람인지 망원경성능을개선하느니달에우주선을쏘는게낫다는식의 문샷싱킹 siga α 3 출처 : 중앙일보

Issues 실리콘밸리의스타트업 로코모티브랩스 이수인 (39) 대표는 기술기업에선모두가똑같은근무시간을채우는것보다최고의실력을가진 1 급개발자들이최고의성과를낼수있도록하는게더중요하다. 이들이이직하지않도록붙잡아두려면고액연봉외에, 자유 같은플러스알파의가치를더줘야한다는게실리콘밸리의보편적인분위기 출처 : 중앙일보 http://www.washingtonpost.co/graphics/business /robots/ siga α 4

Issues siga α 5

Linear Regression 임의의데이터가있을때, 데이터자질간의상관관계를고려하는것 친구 1 친구 2 친구 3 친구 4 친구 5 키 160 165 170 170 175 몸무게 50 50 55 50 60 siga α 6

Linear Regression 즉, 회귀문제란.. 수치형목적값을예측하는방법 목적값에대한방정식필요 회귀방정식 (Regression equation) 집값을알기위해아래와같은방정식을이용 Ex) 집값 = 0.125 * 평수 + 0.5 * 역까지의거리 평수 와 역까지의거리 입력데이터 집값 추정데이터 0.125 와 0.5 의값 회귀가중치 (Regression weight) 여자친구의몸무게를추정하기위하여.. Ex) 몸무게 = 0.05 * 키 키 입력데이터 몸무게 추정데이터 0.05 회귀가중치 siga α 7

Hypothesis Hypothesis y = wx + b x 입력데이터 : 키 y 추정데이터 : 몸무게 w 회귀가중치 : 기울기 siga α 8

Hypothesis y = wx + b 3 3 3 2 2 2 1 1 1 0 0 1 2 3 0 0 1 2 3 0 0 1 2 3 siga α 9 Andrew Ng

Hypothesis y = wx + b y = wx y i = w 0 + w T x i y i = w 0 1 + y i = i=0 (generalization) w i x i w i x i wx (generalization) Variable Description J(θ), r Cost function vector, residual(r) y Instance label vector y, h(θ) hypothesis w 0, b Bias(b), y-intercept x i Feature vector, x 0 = 1 W Weight set (w 1, w 2, w 3,, w n ) X Feature set (x 1, x 2, x 3,, x n ) siga α 10

Regression: statistical exaple 모집단 : 유통기간에따른비타민 C 의파괴량 유통기간 ( 일 ) : X 15 20 25 30 35 비타민 C 파괴량 (g) :Y 0 5 10 15 20 15 20 25 30 35 30 35 40 45 50 50 55 60 65 70 55 60 65 70 75 독립변수 X 가주어졌을때 Y 에대한기대값 y = wx + b + ε y = θx + ε ε: disturbance ter, error variable siga α 11

Regression: statistical exaple Rando variable of Y siga α 12

Residual r 5 r 1 r 2 r 3 r 4 아래의말은서로같은의미 정답데이터와추정데이터의차이 정답모델과추정모델의차이 y = wx + b, s. t. in(r) ㅡ정답모델ㅡ추정모델정답데이터추정데이터 Residual: r(= ε) siga α 13

Least Square Error (LSE) (residual) y r h θ (x) r = y h θ (x) r i = y y r 1 r 2 r 3 r 4 r 5 r i = y i y i in r = Least square (y i y i ) i r 2 = in y i y i 2 r = y i w T x i b 2 r = 1 y 2 i w T x i b 2 = J(θ) cost function siga α 14

Cost Function (for fixed, this is a function of x) (function of the paraeter ) y 3 2 1 3 2 1 0 0 1 2 3 x 0-0.5 0 0.5 1 1.5 2 2.5 f x 1 = h θ x 1 = θ 1 x 1 = 1 J θ 1 = y 1 f(x 1 ) f x 1 = h θ x 1 = w 1 x 1 = 1 siga α 15 J θ 1 = 1 1 = 0 = r in J(θ) == in r Andrew Ng

Training J(θ) = 1 2 y i w T x i b 2 Miniu!! Residual을줄여야함 LSE의값을최소화해야함 2차함수 하나의최소값 (iniu) 을가짐 각 w에대한선형함수 각차원의최소값을알수있음 즉, 전역최소값 (global iniu) 을알수있음 이최소값을찾기위해기울기하강 (gradient descent) 을사용 siga α 16

Training: Gradient 각변수에대한일차편미분값으로구성되는벡터 벡터 : f(. ) 의값이가파른쪽의방향을나타냄 벡터의크기 : 벡터증가, 즉기울기를나타냄 어떤다변수함수 f(x 1, x 2,, x n ) 가있을때, f 의 gradient 는다음과같음 f = ( f x 1, f x 2,, f x n ) Gradient 를이용한다변수 scalar 함수 f 는점 a k 의근처에서의선형근사식 (using Taylor expansion) f a = f a k + f a k a a k + o( a a k ) siga α 17

Training: Gradient Descent Forula a k+1 = a k η k f a k, k 0 η k : learning rate Algorith begin init a, threshold θ, η do k k + 1 a a η f a until η a k < 0 return a end 출처 : wikipedia siga α 18

Training: Gradient Descent r 을최소화하는 w 를찾아라!! in J(θ) = 1 2 y i w T x i 2 벡터에대한미분 J(θ) w = y i w T x i ( x i ) Weight update w w η r w a k+1 = a k η k f a k, k 0 siga α 19

Training: Gradient Descent (for fixed, this is a function of x) (function of the paraeters ) siga α 20 Andrew Ng

Training: Gradient Descent (for fixed, this is a function of x) (function of the paraeters ) siga α 21 Andrew Ng

Training: Gradient Descent (for fixed, this is a function of x) (function of the paraeters ) siga α 22 Andrew Ng

Training: Gradient Descent (for fixed, this is a function of x) (function of the paraeters ) siga α 23 Andrew Ng

Training: Gradient Descent (for fixed, this is a function of x) (function of the paraeters ) siga α 24 Andrew Ng

Training: Gradient Descent (for fixed, this is a function of x) (function of the paraeters ) siga α 25 Andrew Ng

Training: Gradient Descent (for fixed, this is a function of x) (function of the paraeters ) siga α 26 Andrew Ng

Training: Gradient Descent (for fixed, this is a function of x) (function of the paraeters ) siga α 27 Andrew Ng

Training: Gradient Descent (for fixed, this is a function of x) (function of the paraeters ) siga α 28 Andrew Ng

Training: Solution Derivation 분석적방법 (analytic ethod) J(θ) 를각모델파라미터들로편미분한후에그결과를 0 으로하여연립방정식풀이 f x = wx + b 인경우에는모델파라미터 w 와 b 로편미분 w 에대한편미분 r w = y i w T x i b ( x i ) = 0 b 에대한편미분 r b = y i w T x i b ( 1) = 0 siga α 29

Training: Solution Derivation b 에대한편미분 r b = y i w T x i b ( 1) = 0 r b = y i w T r b = y i w T x i b = 0 x i = b r b = y wt x = b siga α 30

Training: Solution Derivation w 에대한편미분 r w = y i w T x i b ( x i ) = 0 y w T x = b 0 = y i x i w T x i x i bx i ( xx i x i x i w T ) = y i x i yx i 0 = y i x i w T x i x i ( y w T x)x i w T = xx i x i x i 1 y i x i yx i 0 = y i x i w T x i x i yx i + w T xx i (w T xx i w T x i x i ) = y i x i yx i 0 의값을갖는이유는모든 instance 의값을더하는것과평균을 n 번더하는것은같은값을갖게하기때문 siga α 31

Training: Solution Derivation w 에대한편미분 r w = y i w T x i b ( x i ) = 0 1 solution b = y w T x w T = x i x)(x i x T 1 x i x (y i y) w T = xx i x i x i y i x i yx i 1 w T = x i x i T x T x i + ( x x T xx T i ) y i x i yx i + ( y x y i x) w T = x i x)(x i x T 1 x i x (y i y) 1 w T = var(x i ) cov(x i, y i ) siga α 32

Training: Algorith siga α 33

Regression: other probles siga α 34

Regression: Multiple variables 친구에대한정보가많은경우 Features Label i 1 i 2 i 3 i 4 i 5 키 나이 발크기 다리길이 몸무게 친구1 160 17 230 80 50 친구2 165 20 235 85 50 친구3 170 21 240 85 55 친구4 170 24 245 90 60 친구5 175 26 250 90 60 x 1 x 2 x 3 x 4 y Instance i Hypothesis: Paraeters: Features: h x = w 0 x 0 + w 1 x 1 + w 2 x 2 + w 3 x 3 + w 4 x 4 + w 5 x 5 w 0, w 1, w 2, w 3, w 4, w 5 x 0, x 1, x 2, x 3, x 4, x 5 siga α 35

Regression: Multiple variables Hypothesis: Paraeters: Features: Cost function: h x = w T x = w 0 x 0 + w 1 x 1 + w 2 x 2 + + w n x n w 0, w 1, w 2, w 3, w 4,, w n x 0, x 1, x 2, x 3, x 4,, x n Rn+1 R n+1 J w 0, w 1,, w θ = 1 y 2 i h(x i ) 2 x = x 0 x 1 x 2 x 3 x n R n+1 w = w 0 w 1 w 2 w 3 w n R n+1 siga α 36

Multiple variables: Gradient descent Gradient descent J(θ) w = y i w T x i ( x i ) Standard (n=1), n: nu. of features Repeat { w 0 = w 0 η w 1 = w 1 η } y i w T x i x ij x i0 = 1 y i w T x i x i1 siga α 37 Multiple (n>=1) Repeat { w j = w j η } y i w T x i w 0 = w 0 η y i w T x i w 1 = w 1 η w 2 = w 2 η y i w T x i y i w T x i x i0 x i1 x i2 x ij

Multiple variables: Feature scaling Feature scaling 키나이발크기다리길이몸무게 친구 1 160 17 230 80 50 친구 2 165 20 235 85 50 친구 3 170 21 240 85 55 친구 4 170 24 245 90 60 친구 5 175 26 250 90 60 각각의자질값범위들이서로다름 키 : 160~175, 나이 : 17~26, 발크기 : 230~250, 다리길이 : 80~90 Gradient descent 할때최소값으로수렴하는데오래걸림 siga α 38

Multiple variables: Feature scaling Feature scaling 자질값범위가너무커서그림과같이미분을많이하게됨, 즉 iteration 을많이수행하게됨 예를들어 이정도차이의자질들은괜찮음 0.5 x 1 0.5 2 x 2 3 이정도차이의자질들이문제 1000 x 1 2000 0 x 2 5000 siga α 39

Multiple variables: Feature scaling Feature scaling 따라서자질값범위를 1 x i 1 사이로재정의 Feature scaling Scaling: Exaple μ i = 240 x i μ i S i S i = 230 x i 250 range: 250 230 = 20 siga α 40 x i : feature data μ i : ean of feature datas S i : range of feature datas S i = ax feat. in(feat. ) x i 240 20 x 1 = 230 x 5 = 230 230 240 20 250 240 20 = 0.5 = 0.5

Multiple variables: Feature scaling Feature scaling Feature scaling을통하여정규화 간단한연산 결국에 Gradient descent가빠르게수렴할수있음 siga α 41

Linear Regression: Noral equation 앞에서다뤘던방법은다항식을이용한분석적방법 분석적방법은고차함수나다변수함수가되면계산이어려움 따라서대수적방법으로접근 Noral equation Such as, training exaples, n features 분석적방법 : Gradient Descent 필요 η와 any iteration 필요 n 이많으면좋은성능 대수적방법 : Gradient Descent 필요없음 η와 any iteration 필요없음 X T X 1 의계산만필요 O(n 3 ) n 이많으면속도느림 siga α 42

Linear Regression: Noral equation Exaples: Size (feet 2 ) Nuber of bedroos Nuber of floors Age of hoe (years) Price ($1000) 1 2104 5 1 45 460 1 1416 3 2 40 232 1 1534 3 2 30 315 1 852 2 1 36 178 W = w 0 w 1 w 2 w 3 w 4 WX = y siga α 43

Linear Regression: Noral equation Exaples: Size (feet 2 ) Nuber of bedroos Nuber of floors Age of hoe (years) Price ($1000) 1 2104 5 1 45 460 1 1416 3 2 40 232 1 1534 3 2 30 315 1 852 2 1 36 178 1 WX = y W = X T X 1 X T y siga α 44

Linear Regression: Noral equation W = X T X 1 X T y 가정말 residual 2 합을최소로하는모델인가? 어떻게유도하는가? r = y y Y WX 2 in( Y WX 2 ) 을만족하는 W 를구하라 W 을편미분한후 0 으로놓으면 2X T Y WX = 0 2X T Y + 2X T WX = 0 2X T WX = 2X T Y X T WX = X T Y W = X T X 1 X T Y siga α 45

References https://class.coursera.org/l-007/lecture http://deepcuen.co/2015/04/linear-regression- 2/ http://www.aistudy.co/ath/regression_lee.ht http://en.wikipedia.org/wiki/linear_regression siga α 46

QA 감사합니다. 박천음, 박찬민, 최재혁, 박세빈, 이수정 siga α, 강원대학교 Eail: parkce@kangwon.ac.kr siga α 47