모 금융회사 오픈소스 및 머신러닝 도입 이야기 김 형 준
2 0 발표자소개 1 인터넷폐쇄망에서분석시스템구축 (feat. 엔지니어가없을때 ) 2 분석보고서자동화 3 Machine Learning 삽질기 ( 분석 & 개발 )
3 0 발표자소개 1 인터넷폐쇄망에서분석시스템구축 (feat. 엔지니어가없을때 ) 2 분석보고서자동화하기 3 Machine Learning 삽질기 ( 분석 & 개발 )
삽질의시작 4 (2005.3~2012.8) 심리학 / 인류학 이미지출처 : http://news.donga.com/more29/3/all/20160107/75770659/1
나는왜? 5 1999.2
그러나... 취미생활 6 2009 ~ 2010 2014 ~ 2015
삽질의진화 7 (2012.9~2015.2) 인지과학 We use empirical methods and formal tools to uncover the mechanisms of human learning and inference. 이미지출처 : http://cocosci.mit.edu/ ( 좌 ), http://www.research.ed.ac.uk/portal/files/10482724/crftut_fnt.pdf ( 우 )
삽질의 진화 (2015) MINDSCALE : 데이터분석 온라인 교육 사이트 컨텐츠 제작 http://mindscale.kr/ 8 (2015) R User Conference in Korea 2015 : R을 이용한 텍스트 감정분석 - 여론과 감성 발견하기
삽질의진화 학부 : 사회과학석사 : 공학 9 출처 : https://m.blog.naver.com/postview.nhn?blogid=nile_pa rents&logno=220510088317&categoryno=46&proxyre ferer=&proxyreferer=https%3a%2f%2fwww.google.c o.kr%2f 출처 :http://goos.wiki/index.php?title=%eb%82%98%eb %8A%94_%ED%96%89%EB%B3%B5%ED%95%A9% EB%8B%88%EB%8B%A4 ( 상 ) https://en.wikipedia.org/wiki/cognitive_science ( 하 )
10 0 발표자소개 1 인터넷폐쇄망에서분석시스템구축 (feat. 엔지니어가없을때 ) 2 분석보고서자동화 3 Machine Learning 삽질기 ( 분석 & 개발 )
SQL, EXCEL, SAS 11 이미지출처 : https://namu.wiki/w/%ec%82%bc%eb%8c%80%ec%9e%a5
R 과 Python 을하고싶어요.. 12 R 과 Python 을하고싶어요..
R 과 Python 을하고싶어요.. 13 R minicran 이용 모든패키지다운로드 https://github.com/qinwf/awesome-r - 크롤링 - minicran 이용의존성패키지목록추출 - 관련패키지다운로드
R 과 Python 을하고싶어요.. 14 Python conda 이용 pip 이용 pip show 이용 ( 의존성패키지추출 ) pip download 이용 ( 패키지다운로드 ) http://www.lfd.uci.edu/~gohlke/pythonlibs/ - windows binary 다운로드 conda의경우 R 연동문제로..
버전업데이트는요??? 15 Nobody knows 서버를주신다면.. 동기화를해서 관리는누가해요?? R 은 3.2.x Python 은 3.5.x ODBC / JDBC
16 0 발표자소개 1 인터넷폐쇄망에서분석시스템구축 (feat. 엔지니어가없을때 ) 2 분석보고서자동화 3 Machine Learning 삽질기 ( 분석 & 개발 )
보고서자동화 17 이미지출처 : https://www.slideshare.net/sungyonglee4/pycon2017-dances-with-the-last-samurai
SQL, EXCEL, SAS 18 이미지출처 : https://namu.wiki/w/%ec%82%bc%eb%8c%80%ec%9e%a5
SQL, EXCEL, (R or Python) 19 이미지출처 : https://namu.wiki/w/%ec%82%bc%eb%8c%80%ec%9e%a5
보고서자동화 20 이미지출처 : http://blog.naver.com/postview.nhn?blogid=djfdma8&logno=220124054628&parentcategoryno=&categoryno=&viewdate=&issho wpopularposts=false&from=postview
보고서자동화 21 - 내가엑셀파일을열면문서보안에걸려요 - 상사가문서보안걸린파일을줘요 An eye for an eye and a tooth for a tooth - COM Object 를활용하자 - 엑셀을열어서정보를얻자 - : excel.link : xlwings - 엑셀작업시보안이안걸리게할수도있음 ( 비밀 )
보고서자동화 22 한글이.. 이미지출처 : http://hashcode.co.kr/questions/1975/%ec%9b%b9%ed%81%ac%eb%a1%a4%eb%a7%81- %ED%95%9C%EA%B8%80-%EA%B9%A8%EC%A7%90-%EC%A7%88%EB%AC%B8%EC%9D%B4%EC%9A%94
보고서자동화 23
보고서자동화 24
보고서자동화 25
보고서자동화 26
보고서자동화 27
28 0 발표자소개 1 인터넷폐쇄망에서분석시스템구축 (feat. 엔지니어가없을때 ) 2 분석보고서자동화 3 Machine Learning 삽질기 ( 연구 & 개발 )
Machine Learning 연구 29 많은기능이지원되는 caret 에 새로운알고리즘추가 별도라이브러리생성 VS 장점 : - 타알고리즘비교가능 - 병렬처리등다양한기능구현쉬움단점 : - 기능구현시간이느려 장점 : - Tech 덜신경 - 특정알고리즘에맞는아키텍쳐단점 : - 알고리즘일반화가어려움 - 라이센스이슈 (GPL)
Machine Learning 연구 30 데이터이슈및고려점들 - 머신러닝에적합한데이터형태 (Input) : 6 개월내, 3 개월내, 1 개월내 à 거래별, 월별 - 그럼에도불구하고기존방법론대비변별력향상 - 머신러닝시경계할점들 : 상관높은변수들이많이선택될위험성시간이지남에따라변별력이낮아짐 ( 과거와미래의패턴이달라짐 ) 계산시간을어떻게줄일것인가 ( 하드웨어 VS 소프트웨어 )
Machine Learning 개발 31
Machine Learning 개발및배포 32 - 알고리즘확장성 - 호환성 - 가상 Windows 미지원 - 오류처리 - 라이센스 - 세션처리 - 웹프레임웍 - 서버좀
Machine Learning 개발 33 장점 : - 라이센스에비교적자유로움 - 개발관련지원라이브러리들 단점 : - 언어진입장벽 - Only Python만의한계 - 혼자서개발이가능한가?
Machine Learning 34 이미지출처 : https://twitter.com/ibeis_org/status/808591224873558017
Machine Learning 35 더생각해볼문제들 - 알고리즘연구도중요하지만데이터형태가더중요할수도 - 설명가능한모형 VS 예측에만중점인모형 - 서로장 단이존재하는모형을어떻게활용할것인가? - 변별력이높은모형이과연좋은모형인가? - Machine Learning 솔루션개발은바람직한가? - 모형연구와솔루션개발은꼭분리되어야하는가?
THANK YOU FOR WATCHING