Visual recognition in the real world SKT services

Similar documents
untitled

09권오설_ok.hwp

정보기술응용학회 발표

DIY 챗봇 - LangCon

김기남_ATDC2016_160620_[키노트].key

untitled

歯3-한국.PDF

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

Vertical Probe Card Technology Pin Technology 1) Probe Pin Testable Pitch:03 (Matrix) Minimum Pin Length:2.67 High Speed Test Application:Test Socket

Voice Portal using Oracle 9i AS Wireless

<65B7AFB4D7B7CEB5E5BCEEBFEEBFB5B0E1B0FABAB8B0EDBCAD5FC3D6C1BE2E687770>

untitled

BSC Discussion 1

SchoolNet튜토리얼.PDF

19_9_767.hwp

1. 서 론

歯이시홍).PDF

À±½Â¿í Ãâ·Â

Building Mobile AR Web Applications in HTML5 - Google IO 2012

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례


본문01

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관


融合先验信息到三维重建 组会报 告[2]

04_오픈지엘API.key

<372DBCF6C1A42E687770>

대우증권인_표지수정

Oracle Apps Day_SEM


Microsoft Word - 1-차우창.doc

15_3oracle

Yggdrash White Paper Kr_ver 0.18

1217 WebTrafMon II

APOGEE Insight_KR_Base_3P11

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

구로구민체육센터 여성전용 기구필라테스 강좌 신설 구로구시설관리공단은 신도림생활체육관에서 2014년도부터 시행하여 주민의 큰 호응을 얻고있는 기구필라 테스 강좌를 일자로 구로구민체육센터에 확대 시행하게 되었습니다. 구로구 관내 고객들의 니즈를 반영한 기

°í¼®ÁÖ Ãâ·Â

4 CD Construct Special Model VI 2 nd Order Model VI 2 Note: Hands-on 1, 2 RC 1 RLC mass-spring-damper 2 2 ζ ω n (rad/sec) 2 ( ζ < 1), 1 (ζ = 1), ( ) 1

좋은 사진 찍는 방법

istay

OVERVIEW 디트라이브는 커뮤니케이션 환경의 다변화에 대응하기 위한 고객들의 다양한 욕구를 충족시키기 위해, TV광고부터 온라인 광고 및 프로모션과 웹사이트 구축은 물론 뉴미디어까지 아우르는 다양한 IMC 기능을 수행하는 마케팅 커뮤니케이션 회사입니다. 대표이사 설

슬라이드 제목 없음

슬라이드 1

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

歯경영혁신 단계별 프로그램 사례.ppt

SKT - 0.0% SKT 9, % 7, % 2, % 3, % 13, % 11,273 15,970

PowerPoint 프레젠테이션

Mstage.PDF

PowerChute Personal Edition v3.1.0 에이전트 사용 설명서

Data Industry White Paper

UDP Flooding Attack 공격과 방어

untitled

2 : 3 (Myeongah Cho et al.: Three-Dimensional Rotation Angle Preprocessing and Weighted Blending for Fast Panoramic Image Method) (Special Paper) 23 2

Ⅰ. 서 론 2016년 초에 열린 ICT 관련 행사의 주요 테마는 가상현실(VR: Virtual Reality)이 었다. 2016년 1월 5~8일 미국 라스베이거스에서 열린 세계 최대 가전 전시회인 CES 에서는 오큘러스, 삼성전자, HTC, 소니 등이 가상현실 관련


13 Who am I? R&D, Product Development Manager / Smart Worker Visualization SW SW KAIST Software Engineering Computer Engineering 3

보광31호(4)

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

0125_ 워크샵 발표자료_완성.key

Ä¡¿ì³»ÁöÃÖÁ¾

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

, Analyst, , 2

PCServerMgmt7


Service-Oriented Architecture Copyright Tmax Soft 2005

PowerPoint 프레젠테이션

Microsoft Word _반도체-최종

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

manual pdfÃÖÁ¾

생들의 역할을 중심으로 요약 될 수 있으며 구체적인 내용은 다음과 같다. 첫째. 교육의 대상 면에서 학습대상이 확대되고 있다. 정보의 양이 폭발적으로 증가하고 사회체제의 변화가 가속화 되면서 학습의 대상은 학생뿐만 아니라 성인 모두에게 확대되고 있으며 평생학습의 시대가

Microsoft PowerPoint - 6.CRM_Consulting.ppt

이제는 쓸모없는 질문들 1. 스마트폰 열기가 과연 계속될까? 2. 언제 스마트폰이 일반 휴대폰을 앞지를까? (2010년 10%, 2012년 33% 예상) 3. 삼성의 스마트폰 OS 바다는 과연 성공할 수 있을까? 지금부터 기업들이 관심 가져야 할 질문들 1. 스마트폰은

PowerPoint 프레젠테이션

슬라이드 1

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

DW 개요.PDF

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

년AQM보고서_Capss2Smoke-자체.hwp

슬라이드 1

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

PowerPoint 프레젠테이션


Macaron Cooker Manual 1.0.key

SLA QoS

14.이동천교수님수정

ETL_project_best_practice1.ppt

Disclaimer IPO Presentation,. Presentation...,,,,, E.,,., Presentation,., Representative...

02( ) SAV12-19.hwp

강의지침서 작성 양식

Intra_DW_Ch4.PDF

Microsoft PowerPoint - 7-Work and Energy.ppt

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

07-À̼º¼ööKŸ š

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

UPMLOPEKAUWE.hwp

Software Requirrment Analysis를 위한 정보 검색 기술의 응용


Transcription:

Visual recognition in the real world SKT services 박병관 SK Telecom AI Center / 영상인식기술 Cell 2019.07.02

SKT Services 2

Contents 1. T map 도로교통정보인식 a. 서비스개요 b. Core Engine Architecture c. Core Engine d. Multi Frame Integration e. Evaluation 2. NUGU nemo 영상인식 a. Hand Posture 게임 b. OksusuKids 시청가이드 3

T map 도로교통정보인식 4

1. Service Overview 5

Service Overview Goal 정보수집카메라영상에서도로안내표지판과과속카메라정보자동인식 도로데이터로변환하여기존데이터검증및신규데이터생성 기대효과 Agile 업데이트 VoC 및신규 / 변경도로정보의빠른반영 커버리지확대 촬영 Coverage ~= 검증 Coverage 6

Service Overview (Example) 7

2. Core Engine Architectures 8

Original Image mid-size Image Crop & Resize Crop, Warp & Resize Core Engine Architectures Road Sign Detector Text Detector Language Classifier Text Recognition 인천국제공항... 청중로봉오대로...... 9

Practical Issue #1 ( 다양한야외환경 ) Lighting Blur Occlusion 10

Practical Issue #2 ( 비규격표지판 ) 11

3. Core Engine 12

Road Sign Detection 도로영상에서의미있는표지판을잘검출 많은표지판중주요대상선별 제한속도 / 도로교통표지 / 과속카메라등 비슷한표지판까지학습에반영 Two-stage R-CNN 기반객체검출 검출대상 검출대상 검출대상아님 검출대상아님

Text Detection (I) 문자검출기술개요 4 DoF 5 DoF 8 DoF 2N DoF 로발전中 표지판내문자는정해진규격존재 (Arbitrary Shape X) but 차량 Motion에의한표지판회전발생 표지판내문자는 5 DoF 검출후 Warping하여문자인식 Engine에전달 TYPE RECT RBOX Polygon Degrees of Freedom 4 (x, y, w, h) 5 (x, y, w, h, θ) 2N (x1, y1,,xn. yn) Example 14

Text Recognition (I) 검출된문자를잘인식 CNN + RNN 기반 Text Recognition Engine 한글의복잡도를고려한 Customized CNN + Attentive RNN A B C D E F G... ( 영문 / 숫자 / 특수문자 : 80 여종, 음소문자 ) VS 닮닳쏘쪼개걔흥홍훙흉횽 ( 한글 / 영문 / 숫자 / 특수문자 : 2400 여종, 음소 / 음절문자 ) 15

Text Recognition (II) 검출된문자를잘인식 고가 + 다량의 Training DB 필요 한글의복잡도로인해다량의 Training DB 필요 But 한글 Labeling은굉장히비싼작업 5음절의한글 500만단어 Labeling 예상비용 500만 * 5 * 10 = 2.5억 (10원/ 음절typing) Target Customized 합성 DB 활용 생성 == Labeling Augmentation by 3D Effect Text Detection Box의 Jittering 모사가능등 16

3D Plate Modeling for Text Detection

4. Multi-frame Integration 18

Multi-frame Integration 한표지판을여러 Frame 에서인식하여표지판단위인식성능향상 다수 Frame 결과 Integration으로일부 Frame의오인식, 가림등에의한성능저하개선 여러 Frame에서등장하는표지판을하나의결과로 Integration 필요 Scene Splitting Tracking Word Integration Word Refining 19

5. Quantitative/Qualitative Evaluation 20

Quantitative/Qualitative Evaluation 평가 Set 을 Hard set 과 Normal set 으로분리하여평가 case back light hard set 21

Quantitative/Qualitative Evaluation 평가 Set 을 Hard set 과 Normal set 으로분리하여평가 case back light blur hard set 22

Quantitative/Qualitative Evaluation 평가 Set 을 Hard set 과 Normal set 으로분리하여평가 case back light blur occlusion hard set 23

Quantitative/Qualitative Evaluation 평가 Set 을 Hard set 과 Normal set 으로분리하여평가 case back light blur occlusion exposure hard set 24

Quantitative/Qualitative Evaluation 평가 Set 을 Hard set 과 Normal set 으로분리하여평가 case back light blur occlusion exposure hard set case Hard Normal Total E2E Acc. 90.32% 95.65% 95.18% 25

Quantitative/Qualitative Evaluation 26

NUGU nemo 영상인식 27

Smart Display Speaker (with Camera) 19 년 4 월 26 일출시 ( 국내최초 ) with 영상인식 28

Hand Posture 두뇌게임 29

반짝반짝두뇌게임 Hand - Natural User Interface 30

반짝반짝두뇌게임 Input : 2D image 2D key points Open Pose (CMU) 31

반짝반짝두뇌게임 Input : 2D image 2D key points Open Pose (CMU) 3D key points Learning to Estimate 3D Hand Pose from Single RGB Images (ICCV 2017) Generated hands for real-time 3d hand tracking from monocular rgb (CVPR 2018) 32

반짝반짝두뇌게임 Input : 2D image 2D key points Open Pose (CMU) 3D key points Learning to Estimate 3D Hand Pose from Single RGB Images (ICCV 2017) Ganerated hands for real-time 3d hand tracking from monocular rgb (CVPR 2018) Input : 3D depth image 3D key points Augmented Skeleton Space Transfer for Depth-based Hand Pose Estimation (CVPR 2018) Occlusion-aware Hand Pose Estimation Using Hierachical Mixture Density Network (ECCV 2018) 33

반짝반짝두뇌게임 Output : Posture Input : Static One Frame How many classes do you need to classify? Hard to label 34

반짝반짝두뇌게임 Output : Posture Output : Gesture Input : Static One Frame How many classes do you need to classify? Hard to label Input : Dynamic Varying Frames Real Time Processing with Tracking 35

반짝반짝두뇌게임 학습 어떤 class 를학습시킬것인가? 확실한손자세, 다른 class 와최대한 appearance 상으로겹치지않는 class 7 class + 1 negative = 8 classes negative hand class is important + 36

반짝반짝두뇌게임 선택 2d (r,g,b) image vs 3d depth image posture vs gesture key point vs detection rock, paper, scissors 3종 v pose, heart, palm, okay, thumbs up, thumbs down 6종 37

반짝반짝두뇌게임 문제점 경계를정하는일 어느회전각도까지허용할것인가? 38

반짝반짝두뇌게임 문제점 경계를정하는일 어느회전각도까지허용할것인가? Pose variation 39

반짝반짝두뇌게임 문제점 경계를정하는일 어느회전각도까지허용할것인가? Pose variation 40

반짝반짝두뇌게임 문제점 경계를정하는일 어느회전각도까지허용할것인가? Pose variation 어떤 pose까지허용할것인가? 41

반짝반짝두뇌게임 문제점 경계를정하는일 어느회전각도까지허용할것인가? Pose variation 어떤 pose까지허용할것인가? 42

반짝반짝두뇌게임 해결방법 Learning by Failure 완벽한 engine을초기에만들수없다. 쉬운 ( 평이한 ) 손자세 DB는학습에도움이되지않는다. 엔진의문제점은실사용자로부터얻는것이확실하다. CBT를통한실패 Case분석및엔진고도화의지속적인 Iteration (8차까지진행된 CBT) 43

반짝반짝두뇌게임 성능 4차까지의 CBT를통해 base-line엔진문제점파악 Pose Variation 아이들의다양한손동작 roll, pitch, yaw 방향 pose variation db 보강 6차테스트후 Scale Variation 가까운거리 (20 cm 이하 ) 에서인식률이상대적으로떨어짐 다양한 Scale DB 보강출시된이후에도 CBT 진행하며성능고도화中 44

얼굴검출 OKSUSU Kids 시청습관 45

OksusuKids 시청가이드서비스 어린이시청습관을위한영상인식서비스 15cm 이내거리에서디스플레이사용시 VoD를멈추고 뒤로가기 ' 안내 VoD 시작 1분후부터동작, 1회 뒤로가기 안내후 5분뒤다시서비스동작 46

OksusuKids 시청가이드서비스 Embedded 얼굴검출기술을활용한디스플레이와얼굴사이거리추정 Embedded 필요성 Privacy concerns Server cost Prompt response 47

Legacy Face Detector Legacy embedded face detector Shallow learning based (Runs 9fps @ NUGU nemo) We need to go deeper... 48

Limitation/Performance Nvidia GTX 1080 Ti vs NUGU nemo gpu 11.34 TFLOPS vs 0.007 TFLOPS 49

Current Face Detection @ NUGU 50

Wrap Up 51

Infra for Visual Recognition Training GPU Infra : DGX-1V Inference GPU Infra : V100 52

맺음말 서비스적용을위한길 출시전서비스에맞는Training DB와 Test DB 확보서비스출시후지속적인 Update 가능한구조 Beyond Open Source and Paper 공개된 Network 이상의 Adaptation / Modification 풍부한 GPU Infra 서비스에대한애정과열정 (VoC 마저사랑할수있는 Mind set) 53