PowerPoint 프레젠테이션

Similar documents
R-1: R intro. & Objects

R R ...

MySQL-.. 1

Chap 6: Graphs


Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

186최종

197

*Ãßõ¿©Çà

Index

2015 사회과학원여름수학캠프 : 컴퓨터활용실습 (1 일 ) 1 변수함수의그래프확인하기 - R을활용하여 sin 등의그래프확인하기 # 1. f(x)= sin(1/x) f = function(x) sin(1/x) par(mfcol=c(3,1)) x = seq(-2,2,0.

SW

1 SW

£01¦4Àå-2

½ºÅ丮ÅÚ¸µ3_³»Áö

272*406OSAKAÃÖÁ¾-¼öÁ¤b64ٽÚ

PART

Part Part

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx

170

006- 5¿ùc03ÖÁ¾T300çÃâ

PowerPoint 프레젠테이션

07 자바의 다양한 클래스.key

4. #include <stdio.h> #include <stdlib.h> int main() { functiona(); } void functiona() { printf("hihi\n"); } warning: conflicting types for functiona

Vector Space Vector space : 모든 n 차원컬럼벡터의집합 : {, :, } (, 2), (2, 5), (-2.4, 3), (2.7, -3.77), (,), 이차원공간을모두채움 : {,, :,, } (2,3,4), (3,2,-5), Vector spa

#KLZ-371(PB)


<322EBCF8C8AF28BFACBDC0B9AEC1A6292E687770>

adfasdfasfdasfasfadf

02장.배열과 클래스

R t-..

우루과이 내지-1

int main(void) int a; int b; a=3; b=a+5; printf("a : %d \n", a); printf("b : %d \n", b); a b 3 a a+5 b &a(12ff60) &b(12ff54) 3 a 8 b printf(" a : %x \

DeepDive_ R_1±³

4장. 순차자료구조

R

Á¦3ºÎ-6Àå

Microsoft PowerPoint - 3ÀÏ°_º¯¼ö¿Í »ó¼ö.ppt

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은

C# Programming Guide - Types

PowerPoint 프레젠테이션

chap 5: Trees

목차 포인터의개요 배열과포인터 포인터의구조 실무응용예제 C 2

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

강의 개요

PowerPoint 프레젠테이션



03장.스택.key

Visual Basic 반복문

<5BC6EDC1FD5DC0DABBECBFA120B4EBC7D120BBE7C8B8C0FB20C3A5C0D3B0FA20C7D8B0E1B9E6BEC828BAB8C0CCBDBABEC6C0CC292E687770>

dist=dat[:,2] # 기초통계량구하기 len(speed) # 데이터의개수 np.mean(speed) # 평균 np.var(speed) # 분산 np.std(speed) # 표준편차 np.max(speed) # 최대값 np.min(speed) # 최소값 np.me

Print

A Hierarchical Approach to Interactive Motion Editing for Human-like Figures

DocsPin_Korean.pages

PowerPoint 프레젠테이션

기초컴퓨터프로그래밍


<443A5C4C C4B48555C B3E25C32C7D0B1E25CBCB3B0E8C7C1B7CEC1A7C6AE425CC0E7B0EDB0FCB8AE5C53746F636B5F4D616E D656E74732E637070>

chap01_time_complexity.key

학습목표 함수프로시저, 서브프로시저의의미를안다. 매개변수전달방식을학습한다. 함수를이용한프로그래밍한다. 2


PowerPoint Presentation

PowerPoint Presentation

제 14 장포인터활용 유준범 (JUNBEOM YOO) Ver 본강의자료는생능출판사의 PPT 강의자료 를기반으로제작되었습니다.

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

Observational Determinism for Concurrent Program Security

03_queue

intro

02ÇãÀÎÇý ~26š

PowerPoint Presentation

PowerPoint Presentation

2015 경제ㆍ재정수첩

Let G = (V, E) be a connected, undirected graph with a real-valued weight function w defined on E. Let A be a set of E, possibly empty, that is includ

#KM560

untitled

untitled

8장 문자열

OCaml

PowerPoint 프레젠테이션


2 : (Juhyeok Mun et al.: Visual Object Tracking by Using Multiple Random Walkers) (Special Paper) 21 6, (JBE Vol. 21, No. 6, November 2016) ht

SNU =10100 =minusby by1000 ÇÁto0.03exÇÁto0.03exÇÁ=10100 =minusby by1000 ·Îto0.03ex·Îto0.03ex·Î=10100 =minusby by1000 ±×to0.

#KM-250(PB)

비긴쿡-자바 00앞부속

Python과 함께 배우는 신호 해석 제 5 강. 복소수 연산 및 Python을 이용한 복소수 연산 (제 2 장. 복소수 기초)

<C0D3BFEBB0EDBBE7C1D8BAF130382E687770>

Javascript.pages

#KM-340BL

Microsoft PowerPoint Predicates and Quantifiers.ppt

0. 표지에이름과학번을적으시오. (6) 1. 변수 x, y 가 integer type 이라가정하고다음빈칸에 x 와 y 의계산결과값을적으시오. (5) x = (3 + 7) * 6; x = 60 x = (12 + 6) / 2 * 3; x = 27 x = 3 * (8 / 4

untitled

Analytics > Log & Crash Search > Unity ios SDK [Deprecated] Log & Crash Unity ios SDK. TOAST SDK. Log & Crash Unity SDK Log & Crash Search. Log & Cras

Modern Javascript

1

MAX+plus II Getting Started - 무작정따라하기

Microsoft PowerPoint - Chapter_09.pptx

歯9장.PDF

untitled

PowerPoint Template

Transcription:

Lec. 2 : Introduction to R Part 2 Big Data Analytics Short Course 17. 07. 04

R 의데이터구조 : Factor factor() : factor 생성하기 > region = c("a","a","b","c","d") > region [1] "A" "A" "B" "C" "D" > class(region) [1] "character" > region.fac = factor(region) > region.fac [1] A A B C D Levels: A B C D > class(region.fac) [1] "factor" 자료의 class 가바뀌는것을확인

R 의데이터구조 : Factor levels() factor 의구성을바꾸고싶을때사용 > region.fac [1] A A B C D Levels: A B C D > levels(region.fac) = c(1,2,3,4) > region.fac [1] 1 1 2 3 4 Levels: 1 2 3 4

R 의데이터구조 : Factor cut() : 연속형자료를범주화할때사용, ex) 나이, 온도,... > a = 1:8 > a [1] 1 2 3 4 5 6 7 8 > cut(a, breaks=c(0,3,6,10)) [1] (0,3] (0,3] (0,3] (3,6] (3,6] (3,6] (6,10] (6,10] Levels: (0,3] (3,6] (6,10] 이자료의범주를바꾸기 > x = cut(a, breaks=c(0,3,6,10)) > x [1] Low Low Low Mid Mid Mid High High Levels: Low Mid High

R 의데이터구조 : Factor ordered() : 범주형자료에순서를부여 > x [1] Low Low Low Mid Mid Mid High High Levels: Low Mid High 이경우에는 Low, Mid, High 에순서가없다. ordered() 로범주에순서를부여 > ordered(x) [1] Low Low Low Mid Mid Mid High High Levels: Low < Mid < High > ordered(x, levels=c("high", "Mid", "Low")) [1] Low Low Low Mid Mid Mid High High Levels: High < Mid < Low

R 의데이터구조 : Matrix matrix() : matrix 생성 > matrix(1:6, nrow=2, ncol=3) [1,] 1 3 5 [2,] 2 4 6 > matrix(1:6, nrow=2, ncol=3, byrow=t) [1,] 1 2 3 [2,] 4 5 6 length()? > a = matrix(1:6, nrow=2, ncol=3) > length(a) [1] 6

R 의데이터구조 : Matrix dim() : 행렬의차원 > a [1,] 1 3 5 [2,] 2 4 6 > dim(a) [1] 2 3 t() : 행렬을전치 > t(a) [,1] [,2] [1,] 1 2 [2,] 3 4 [3,] 5 6

R 의데이터구조 : Matrix 의계산 단일숫자의덧셈 > a + 1 [1,] 2 4 6 [2,] 3 5 7 벡터의덧셈 > a + c(10,100) [1,] 11 13 15 [2,] 102 104 106 배수가다른벡터의덧셈 > a + c(1,10,30,50) [1,] 2 33 6 [2,] 12 54 16 Warning message: In a + c(1, 10, 30, 50) : longer object length is not a multiple of shorter object length

R 의데이터구조 : Matrix 의계산 곱셈도덧셈과비슷하다. > a * 2 [1,] 2 6 10 [2,] 4 8 12 > a * c(10,100) [1,] 10 30 50 [2,] 200 400 600 %*% : 행렬의곱셈 > a %*% matrix(rep(0,6),nrow=3,ncol=2) [,1] [,2] [1,] 0 0 [2,] 0 0

R 의데이터구조 : Matrix diag() : diagonal components > x = c(7,3,4,5,6,2,3,1,1) > a = matrix(x, ncol=3) [1,] 7 5 3 [2,] 3 6 1 [3,] 4 2 1 > diag(a) [1] 7 6 1 eigen() : eigen values, eigen vectors > eigen(a) $values [1] 11.6032778 3.0000000-0.6032778 $vectors [1,] -0.7823145-0.5656854-0.38748709 [2,] -0.4879469 0.7071068 0.03654409 [3,] -0.3871587-0.4242641 0.92115052

R 의데이터구조 : Matrix 의계산 solve() : 역행렬 > solve(a) [1,] -0.19047619-0.04761905 0.6190476 [2,] -0.04761905 0.23809524-0.0952381 [3,] 0.85714286-0.28571429-1.2857143 > solve(a) %*% a

R 의데이터구조 : Matrix 행렬의 index : vector 와비슷하게접근, [ 행, 열 ] > a[1,2] [1] 5 > a[1,4] Error in a[1, 4] : subscript out of bounds > a[1,3] = 100 > a [1,] 7 5 100 [2,] 3 6 1 [3,] 4 2 1 > a[,3] = c(0,0,0) > a [1,] 7 5 0 [2,] 3 6 0 [3,] 4 2 0

R 의데이터구조 : Data Frame 특징 : 여러가지속성의자료를묶을수있다. data.frame() : data frame 을생성 > age = c(13,14,5,3,40,50,55,32,27) > gender = factor( c("f","m","m","m","f","f","m","f","f") ) > mydata = data.frame(age, gender) > class(mydata) [1] "data.frame" str(), head(), tail() : data frame 의구조를파악하는데도움 > str(mydata) 'data.frame': 9 obs. of 2 variables: $ age : num 13 14 5 3 40 50 55 32 27 $ gender: Factor w/ 2 levels "F","M": 1 2 2 2 1 1 2 1 1 > head(mydata) > tail(mydata)

R 에서의데이터정리 : 예제 플레잉카드덱 ( 포커카드 ) 만들기 구성 : Spade, Heart, Diamond, Club의문양과 A, 2~10, J, Q, K 이문제에서는 (A, 2~10, J, Q, K) 를 (1~13) 으로, (Spade, Heart, Diamond, Club) 를 (S, H, D, C) 로대체 Hint : rep(), data.frame() S 1 S 2 S 3 S 4 S 5 S 6 S 7 S 8... S 1 H 1 D 1 C 1 S 2 H 2 D 2 C 2...

R 의데이터구조 : Data Frame 의 index [,] 으로찾는방법, vector 비슷하다. > mydata[1,] age gender 1 13 F > mydata[,1] [1] 13 14 5 3 40 50 55 32 27 (data frame 이름 )$( 열이름 ) 으로찾기 > head(mydata) > mydata$age [1] 13 14 5 3 40 50 55 32 27

R 의데이터구조 : Data Frame 의 name names() : data frame 의열이름 > names(mydata) [1] "age" "gender" > names(mydata) = c("age", "Gender") > mydata$age NULL > mydata$age [1] 13 14 5 3 40 50 55 32 27 * 대소문자구분

R 의데이터구조 : Data Frame 의 index 예제 R 의기본내장데이터셋, cars 사용 > str(cars) 'data.frame': 50 obs. of 2 variables: $ speed: num 4 4 7 7 8 9 10 10 10 11... $ dist : num 2 10 4 22 16 10 18 26 34 17... cars 의 speed 는평균보다크고, dist 는평균보다작은데이터셋은? speed dist 27 16 32 28 16 40 29 17 32 30 17 40 32 18 42 36 19 36 39 20 32

R 의데이터구조 : Data Frame attach(), detach() > mydata = data.frame(age, gender) > rm("age","gender") > age Error: object 'age' not found > attach(mydata) > search() [1] ".GlobalEnv" "mydata" "tools:rstudio... > age [1] 13 14 5 3 40 50 55 32 27 > detach(mydata) > search() [1] ".GlobalEnv" "tools:rstudio... > age Error: object 'age' not found

R 의데이터구조 : List list : 여러가지속성데이터의조합 > mylist = list(vec = 1:10, mat = a, df = mydata) > mylist $vec [1] 1 2 3 4 5 6 7 8 9 10 $mat [1,] 1 3 5 [2,] 2 4 6 $df age gender 1 13 F 2 14 M... > class(mylist) [1] "list" 결과정리에유용함. 다수의속성을가진결과를하나로묶음

R 에서의데이터정리 : 결측값처리 결측값 (NA) 처리하기 > age = c(13,14,5,3,40,50,55,32,27, NA) > gender = factor( c("f","m","m","m","f","f","m","f","f","m")) > age [1] 13 14 5 3 40 50 55 32 27 NA > mydata = data.frame(age, gender) > mydata$age[mydata$age == NA] = 30 > mydata$age [1] 13 14 5 3 40 50 55 32 27 NA > mydata$age == NA [1] NA NA NA NA NA NA NA NA NA NA > is.na(mydata$age) [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE NA 를 30 으로바꾸기, 단인덱스 10 을이용하지말것

R 에서의데이터정리 : 결측값처리 TRUE 와 FALSE 기본적으로 TRUE = 1, FALSE = 0 이다. > TRUE + TRUE [1] 2 > FALSE + FALSE + FALSE [1] 0 추가로 0 이아닌숫자는 TRUE 로인식한다 > as.logical( c(1,2,3,4,0,0,-1) ) [1] TRUE TRUE TRUE TRUE FALSE FALSE TRUE

R 에서의데이터정리 : 정렬하기 한행혹은여러행을기준으로정렬 나이가적은순서대로전체데이터를정렬 > sort(mydata) Error in `[.data.frame`(x, order(x, na.last = na.last, decreasing = decreasing)) : 정의하지않은열들이선택되었습니다 > mydata age gender 1 13 F 2 14 M 3 5 M... > # order() 사용 age gender 4 3 M 3 5 M 1 13 F...

R 에서의데이터정리 : 예제 iris dataset : R 에기본으로내장되어있는 dataset 붓꽃의종류에대해서꽃받침과꽃잎의너비와길이로이루어진자료 > str(iris) 'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9... $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1... $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4... $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2... $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1... 1. Sepal.Length을범주화 : sepal<6 경우 = 1, sepal>=6 경우 = 0 2. setosa종중에서 sepal.width, petal.width가작은순서대로나열 3. species의범주를변경 : setosa는 se, versicolor는 ve, virginica는 vi 4. 열이름 ( 변수명 ) 을변경 : SL, SW, PL, PW, Species으로

R 에서의데이터정리 : 예제 airquality: R 에기본으로내장되어있는 dataset Daily air quality measurements in NY, May to September 1973. > str(airquality) 'data.frame': 153 obs. of 6 variables: $ Ozone : int 41 36 12 18 NA 28 23 19 8 NA... $ Solar.R: int 190 118 149 313 NA NA 299 99 19 194... $ Wind : num 7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6... $ Temp : int 67 72 74 62 56 66 65 59 61 69... $ Month : int 5 5 5 5 5 5 5 5 5 5... $ Day : int 1 2 3 4 5 6 7 8 9 10... 1. Ozone 의결측값 (NA) 갯수는? 2. 6 개변수들의결측값이없는행의갯수는? 3. Ozone 의 NA 를 999 로변경하기