Kaggle 에서얻을수있는건? 이유한 카이스트생명화학공학과 Prof. Jihan Kim 분자시뮬레이션실험실 (Molecular Simulation Laboratory) 1
Kaggle 이란? 2010 년설립된빅데이터솔루션대회플랫폼회사 2017 년 3 월구글에인수 2
Data Race for 데이터과학자! 기업, 정부기관, 단체, 연구소, 개인 Dataset With Prize Dataset & Prize 개발환경 (kernel) 커뮤니티 (follow, discussion) 전세계데이터사이언티스트 3
참가하려면? 4
Kaggle 에서 competition 을주최한단체, 기업들 5
여러 competition 들 $25,000 $25,000 $1,500,000 $30,000 6
여지껏다뤄본것이 IRIS dataset, MNIST 뿐인데 저런걸어떻게분석해야하나? 7
공부해서함께나누자! 고수의발자취를 따라가자 모방은창조의시작 8
공부해서함께나누자! 캐글속선순환 다른이의커널 ( 소스코드와상세 한설명이담긴데이터분석 보고서 ) 을공부한다 내커널을 수정한다 내커널을만든다 Discussion 참고한다 피드백 받는다 9
커널을살펴봅시다! 10
My kaggle story 작년 7 월부터시작 커널 3 번씩따라하기시작 필사 ( 必死 ) 적으로필사 ( 筆寫 ) 하자!! 11
Titanic competition Can you predict survival? 12
Titanic competition Study with voted kernels! 13
My 1 st kaggle race 추석연휴와바꾼컴퍼티션! 약 60 만명의정보를가지고머신러닝알고리즘을만들어, 40 만명의개인이향후에보험을계속사용할것인지예측하라 14
My 1 st kaggle race Learning the kernels 15
My 1 st kaggle race Making my own kernel 16
My 1 st kaggle race Congratulation! 17
My 1 st kaggle race 따뜻한스승님 18
My 1 st kaggle race 은하계고수의가르침 19
My 1 st kaggle race 은하계고수의가르침 20
My 1 st kaggle race 1 st rank grandmaster! 21
My 1 st kaggle race Comment to authors 22
My 1 st kaggle race 친절한올리비에아저씨 23
My 1 st kaggle race Get insight from discussion 24
My 1 st kaggle race Submission 25
My 1 st kaggle race After competition 26
My 1 st kaggle race 결과물 41 개주피터노트북생성!!!! 27
My 1 st kaggle race 배운것들 v 데이터분석에서머신러닝모델생성및예측까지이어지는프로세스경험 v 각종데이터분석라이브러리사용법습득 v Visualization v Matplotlib, seaborn, plotly v Data analysis v Pandas v Numpy v Machine learning v Sklearn v 머신러닝노하우 v 학습방법 v Stratified, shuffle v Ensembling v Voting, average v 모델평가방법 v Precision, recall, f1-score, accuracy, AUC v 영어공부 v 커널쓰기, 질문, 응답하며 writing 공부 v 머신러닝모델습득 v Sklearn 내장알고리즘들 v Randomforest v Xgboost v Lightgbm v Hyper parameter tunning 방법 v Gridsearch v Randomsearch v Baysian optimization 28
My 2 nd kaggle race Tensorflow competition Dataset: 65,000 개의 word audio file Prize : 1 st - $8,000 2 nd $6,000 3 rd $3,000 + spectial price $8,000 Yes, no, up, down, left, right, on, off, stop, go, silence, others 로이루어진단어들을구별하는 AI 를만들어달라! 29
My 2 nd kaggle race Money is good motivation! 국내모기업에서후원하여 + prize 추가됨 친한사람들 3 명과팀을맺고시작 30
My 2 nd kaggle race 딥러닝한번공부해보자!! 그외여러깃허브들! stackoverflow 31
My 2 nd kaggle race 캐글에서공부하자! 기본 3 번, 내것으로될때까지반복 32
My 2 nd kaggle race 배운것들 v v v v Audio processing v Spectogram Deep learning v Convolutional neural network(cnn) v 1D, 2D v Recurrent neural network v LSTM v GRU Deep learning tools v Tensorflow v Keras Deep learning technique v Data augmentation v Parameter tunning v tensorboard 33
My first research topic using deep learning - Time series data 에특정 signal(outlier) 를판별하는 neural net 을만들어보자! Tensorflow competition 에서배운 spectrogram + 2D CNN 을사용해보자! 34
My first research topic using deep learning 잘! 안! 됨! ^^( 정신승리..) 35
My first research topic using deep learning Anomaly detection 문제로끌어가볼까? Credit card transaction data 에있는 Fraud(outlier) detection Time series 에있는 Outlier detection 커널공부시작 36
My first research topic using deep learning Autoencoder 를활용한 비지도학습 정상데이터만 Autoencoder 에학습시킴 학습된 neural network 에비정상데이터를주기 Error(reconstruction error) 가나옴. - How far an abnormal is from the normal regions 정상데이터와비정상데이터가잘구분되는 threshold 선택 37
My first research topic using deep learning 잘! 됨! For now ^^( 졸업.. 각?? ㅠㅠ ) 38
캐글에서뭘얻을수있나? MNIST 해보셨나요? 다른데이터는요? MNIST 처럼다될거 같죠?? 후훗? 39
캐글에서뭘얻을수있나? Story with graph 3 10 2 4 9 멘탈 1 5 7 8 6 시간 1. 지식 데이터사이언스전반, 머신러닝, 딥러닝 2. 경험 수많은분야의잘정리된데이터 3. 희망 머신러닝, 딥러닝이짱이다. 상금으로소고기 + GPU! 40
캐글에서뭘얻을수있나? Story with graph 3 10 2 4 9 멘탈 1 5 7 8 6 시간 4. 좌절 왜내 leaderboard 는안오르지? 왜항상모르는것만? 5. 실패 하.. 왜잘안되지? 문제는모델인가나인가? 6. 절망 내가잘모르나..? 괜히.. 시작했나? 41
캐글에서뭘얻을수있나? - 공부, 공부, 공ㅂㅜ.. 공.. 부.. 3 10 멘탈 1 2 4 5 7 8 9 6 시간 7. 해탈 아! 원래쉬운게아닌거구나. Abnormal is normal! 8. 노력 부지런하고, 부지런하고, 부지런히공부하자 9. 실력 이제커널도만들고, 랭킹도올라가네? 10. 취직, 졸업, 논문, 성과 소고기사먹자, GPU 사자! 42
데이터가모두를부요케하리라 월드컵우승어느나라가할까요? 데이터사이언스, 머신러닝 ( 딥러닝 ) 으로우승국예측해봅시다. 어떤정보가필요할까요? 대표팀선수평균신장 우승횟수 16 강진출횟수 프리미어리그선수숫자 평균패스성공율 축구협회청렴도 대표팀선수들비빔면선호도 대표팀선수들출신지역 대표팀선수들출신지역의운동장수 43
문제를내봅시다. 문제정하기 데이터수집 Domain knowledge 가장중요!!!! 데이터존재 문제정하기 데이터분석 데이터분석 모델만들기 ( 예측, 군집, 강화학습 ) 모델만들기 ( 예측, 군집, 강화학습 ) 44
왜캐글해야하는가? 캐글에서다양한 데이터셋을경험하며 문제의식을키우자! 45
부지런하고, 부지런하고, 부지런히공부하자! 캐글코리아 Kaggle Korea 함께공부해서, 함께나눕시다 Study Together, Share Together http://kaggle-kr.tistory.com/ https://www.youtube.com/channel/uc-- LgKcZVgffjsxudoXg5pQ 46
캐글합시다! 47