인공지능사업화를위한 데이터과학추진전략 강정우상무이사
빅데이터에서스마트데이터로 2009 ~ 2014 2013 ~ 2017 2016 ~ 2020 빅데이터기술발전단계 Smart Level 1 Format and Schema 기계가독성데이터 Automated Cost Reduction Smart Level 2 Pattern with Volume 기계학습가능데이터 Predictable Proactive Service Smart Level 3 Context in Network 의미이해가능데이터 Reasonable Smart Behavior 2
기호적접근방법 ( 명시적지식, 연역추론 ) 인공지능 인공지능의미래 딥러닝 지식그래프 / 온톨로지 X 기계학습 비기호적접근방법 ( 암묵적지식, 귀납적추론 ) 인공신경망 / 딥러닝 3
데이터규모 매뉴얼모델링 기계학습 심층신경망 ( 딥러닝 ) 연산비용 1980 1985 1990 1995 2000 2005 2010 2015 2020 2025 2030 4
학습데이터의크기, 품질 데이터크기와 DNN 성능 (CNN Classification) 데이터품질과 DNN 성능 (CNN Classification) Errors(%) Errors(%) 14 14 12 12 10 10 8 8 6 6 4 4 2 2 0 N 2N 4N Volume 0 90% 95% 99% Data Accuracy 5
데이터분석에서데이터과학으로 소프트웨어컴퓨터공학 SW 개발 기계학습 데이터사이언스 모델연구 수학통계학 도메인및 절차지식 6
데이터과학의표준절차 노이즈포함원시데이터 기계학습용데이터준비 기계학습, 모델최적화 지능시스템품질평가 도메인과문제의이해 원시데이터수집 / 분석 원시데이터정제 / 필터링 데이터분석, 모델선정 모델최적화, 패턴추출 분석결과시각화 / 평가 7
데이터큐레이션 6 단계 품질평가, 검증 기계학습 품질평가 학습 / 분석최적화 학습 / 분석알고리즘 선정과실험, 최적화 학습 / 분석준비 데이터집계 / 통계분석, 데이터어노테이션, 학습준비 정제 / 변환 데이터정제, 오류 / 이상데이터식별, 분석, 학습을위한데이터변환 저장관리 / 통합 데이터의안전한저장과이질적데이터의 통합, 중복제거, 데이터셋버전관리 수집 / 구축 이미지, 음성, 텍스트, 센서, 웹, 소셜데이터등원시데이터수집 / 구축과기본메타데이터생성 8
데이터큐레이션사례 영상 / 이미지데이터어노테이션 음성인식 / 합성데이터구축 웹 / 소셜데이터수집, 정제 DNN 기반이미지, 영상인식서비스와자율자동차구현을위한고품질어노테이션 20 개국이상의다국어와지역별, 성별나이별음성인식과합성을위한데이터구축 수천개의웹 / 소셜데이터소스로부터하루수백만데이터수집, 추출과실시간분석 부산시솔트룩스관광공사 ETRI KT 솔트룩스 현대자동차삼성전자국방부 자연어처리코퍼스구축 지식그래프 / 베이스구축 다국어자동번역코퍼스구축 심층자연어처리, 의미이해를위한대규모고품질, 다국어코퍼스 ( 말뭉치 ) 구축 인공지능고객상담시스템, 심층질의응답, NLU 와의미분석을위한지식베이스구축 번역메모리, NMT 기반의자동번역엔진구현을위한다국어병렬코퍼스구축 삼성전자언론진흥재단신한은행 NH 은행우리은행삼성전자 IBM LG 전자김앤장 9
사람과기계의협력, Human-in-the-Loop 1. 학습용데이터셋 2. 기계학습 3. 품질 ( 신뢰도 ) 평가 + Human-in-the-loop ( 데이터추가수정 / 정제 ) ( 모델최적화 ) 문제와목표이해 시스템제약조건 기계학습전문지식 도메인전문지식 4. 휴먼큐레이션 5. 실용 AI 시스템 10
솔트룩스의이중나선방법론 11
프로세스, 도구그리고훈련된사람 수집 / 구축변환 / 저장연계 / 검색분석 / 지능화발견 / 예측시각화 / 결정평가 / 피드백 업 무 데이터소스관리 데이터수집 메타데이터추출 분석용데이터구축 텍스트 / 이미지래핑 / 변환 가비지제거 자동분류 주제추출 자연어처리 저장과색인 데이터연계 연계데이터검증 분석대상데이터검색 분석위한데이터전처리 통계, 연관, 시계열, 네트워크분석 분석 / 예측모델최적화 기계학습, 딥러닝수행 상황조기감지, 시계열, 공간패턴발견 의외성발견 분석 / 발견결과의해석 신뢰성검증 분석결과정리와시각화 대안추천과근거제시 위험분석 의사결정과실행지원 분석및의사결정효과 / 영향력평가 고객및전문가피드백 분석개안선도출 도 구 웹크롤러 빅데이터수집 / 관리엔진 언어자원구축도구 사전정체 / 통합도구 형태소, 개체명, 구문, 의미역분석 SVM 등자동분류기 사건 ( 이벤트 ) 및정보추출 색인시스템 의미기반데이터매핑 시맨틱검색 패싯필터링 데이터클러스터링 ETL 및 DBMS 도구들 통계분석패키지 (R 외 ) CRF, SVM, 베이지안넷외 감성 / 사회망분석, 추론 딥러닝예측, 회귀모델 이슈감지 (CEP), 랭킹도구 통계분석검증도구 샘플링정량, 정성평가 근거검색, 연관검증도구 Rainbow, R 등의시각화, 대시보드 의사결정지원시스템 Deep QA 시나리오수립도구 실시간소셜피드백수집, 분석 크라우드소싱, SNS 분석 포커스그룹인터뷰 ( 델파이외 ) 사람 수집데이터소스검토 수집및관리정책수립 데이터유용성정성평가 ( 전문가 ) 분석데이터구축 NLP, 분류위한사전, 학습데이터구축 필터링품질검증, 사전 / 규칙추가 저장 / 검색시스템의운용 검색주제, 필터링범위선정 검색결과평가와개선 데이터연계체계수립 ETL 규칙작성및관리 분석모델최적화수행 기계학습, 딥러닝품질개선 확대연관분석대상선정 / 적용 다양한조건의분석결과비교 분석결과정량 / 정성검증 분석정확성, 재현성확인 이슈 / 이벤트패턴도출, 설정 Middle-out 의외성발견 시각화목표, 개념설계 다양한그래프대시보드구성 지식베이스구축과질의응답 추천품질검증, 시나리오구성 분석결과및의사결정피드백분석 전문가 / 사용자인터뷰검증 프로젝트보고서작성, 평가 시사점, 개산안도출과반영 12
기업데이터지능화 문서중앙화 / 자동분류 ( 현대자동차 ) 정보허브 / 비정형분석 ( 포스코 ) 정보포털 / 군집 ( 삼성중공업 ) 신기술센싱 / 예측 ( 삼성전자,KISTEP) 개인맞춤추천 (KT IPTV) 차세대미디어플랫폼 (KBS) 13
고객데이터지능화 실시간고객목소리분석 (KT) 회사 / 상품평판분석 ( 한화그룹 ) 글로벌시장 / 경쟁자분석 ( 현대자동차 ) 14
고객데이터지능화 ( 현대차사례 ) 소셜빅데이터기반차량사용자경험분석 : 내수, 북미, 중국출시예정 10개차급 30 차종빅데이터약 100만건수집 빅데이터기반차급 / 지역별소비자담론조사 : 차량내이슈기술테마 3개에대한소셜미디어데이터약 6.5만건수집 ( 북미 ) 신차반응조사및당사사양경쟁력분석 : 6개차급 18 차종 ( 약 27만건 ) 에대한경쟁사및당사판매차량사양경쟁력분석 고객니즈분석및실시간리스크모니터링을위한멀티채널외부데이터수집 전세계다양한채널에대한 On-Demand 데이터수집 ( 고객사보유 1,500개사이트 + α), 커스텀데이터수집과분석 멀티채널외부데이터를활용한적극적마켓센싱으로고객만족도향상및시장경쟁력강화 15
안보 / 국방데이터지능화 북한정세분석 ( 통일부 ) 국방복합체계분석 ( 국방부 ) 첩보및징후분석 (ADD, 국방부 ) 16
국토 / 범죄데이터지능화 17
뉴스데이터지능화 18
대화형인공지능 챗봇의구성 ( 규칙기반 ) 서비스채널들 음성인식 텍스트 / UI 입력 음성합성 UX 생성 NLU ( 자연어이해 ) NLG ( 자연어생성 ) 대화매니저 대화모델대화학습선호추천사용자모델추론 지식베이스 지식관리매니저 심층질의응답엔진 톡봇의구성 ( 지식기반 ) 19
심층질의응답 Deep QA 경상도가고향인이사람은경희대재학중감옥에수감된바있으며, 같은대학출신의음악가와결혼후부산에서후에정치인이된유명인권변호사와같은직장에서근무했다. 4년전환갑이었던이사람의현직업은무엇인가? NLU 파편화된지식의학습과증강 정답타입 (X) = 직업 직업 (Y) = X???? 단순탐색 ( 그래프매칭 ) 대한민국 코어지식 서대문구치소 경희대 고향 (Y) = 경상도 출신대 (Y) = 경희대 경험 (Y) = 감옥수감 출신대 (Y. 아내 ) = 출신대 (Y) 직업 (Y. 아내 ) = 음악가 직업 (Y. 동료 ) = 인권변호사 나이 (Y) = 환갑 + 4 문재인 (90%) 박영선 (17%) 박근혜 (5%) 복합추론 시맨틱추론 공간추론 규칙추론 불확실확률추론 수반졸업수감숙명여고졸업대통령직업졸업아내직업문재인김정숙친구고향직업노무현근무거제도생일성악근무인권변호법무법인부산 1953.1.24 업무 20
솔트룩스아담어시스턴트 정체성질문과백과지식학습 / QA 지도, 이미지, 산술, 날씨플러그 인 복잡한질문의이해와강력한추론기전문지식학습을통한도메인확대
1. 지식학습단계 상담로그, 매뉴얼등각종 데이터수집 / 통합, NLP 와 딥러닝기반언어 / 지식학습 2. 심층 QA 단계 지식베이스구축과추론, 지식 / 검색 / 생성기반의 심층 QA 엔진들을앙상블 3. 대화모델링단계 심층대화모델링과의도 분석기를최적화, 앙상블 QA 시스템과통합 / 검증 4. 상담서비스단계 스마트폰, 전화등의다양한채널통한 AI 자동상담, 미처리상담에대한인간전문가연결 22
솔트룩스아담톡봇 23
컴퓨터는놀랍게빠르고, 정확하지만대단히멍청하다. 사람은놀랍게느리고, 부정확하지만대단히똑똑하다. 이둘이힘을합치면상상할수없는힘을가지게된다. - 알버트아인슈타인 -
We Communicate Knowledge for the People 솔트룩스는사람과사람, 사람과기계, 기계와기계가지식소통하는세상을꿈꿉니다.