DBPIA-NURIMEDIA

Similar documents
Ⅱ. Embedded GPU 모바일 프로세서의 발전방향은 저전력 고성능 컴퓨팅이다. 이 러한 목표를 달성하기 위해서 모바일 프로세서 기술은 멀티코 어 형태로 발전해 가고 있다. 예를 들어 NVIDIA의 최신 응용프 로세서인 Tegra3의 경우 쿼드코어 ARM Corte

19_9_767.hwp

01이국세_ok.hwp

3 : OpenCL Embedded GPU (Seung Heon Kang et al. : Parallelization of Feature Detection and Panorama Image Generation using OpenCL and Embedded GPU). e

À±½Â¿í Ãâ·Â

[ReadyToCameral]RUF¹öÆÛ(CSTA02-29).hwp

6.24-9년 6월

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 25(11),

45-51 ¹Ú¼ø¸¸

03홍성욱.hwp

Microsoft PowerPoint - 권장 사양

09권오설_ok.hwp

03이승호_ok.hwp

63-69±è´ë¿µ

1 : HEVC Rough Mode Decision (Ji Hun Jang et al.: Down Sampling for Fast Rough Mode Decision for a Hardware-based HEVC Intra-frame encoder) (Special P

(JBE Vol. 20, No. 5, September 2015) (Special Paper) 20 5, (JBE Vol. 20, No. 5, September 2015) ISS

MPEG-4 Visual & 응용 장의선 삼성종합기술원멀티미디어랩

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

08김현휘_ok.hwp

1. 서 론

08이규형_ok.hwp

Microsoft PowerPoint - NV40_Korea_KR_2.ppt

3. 클라우드 컴퓨팅 상호 운용성 기반의 서비스 평가 방법론 개발.hwp

DBPIA-NURIMEDIA

차분 이미지 히스토그램을 이용한 이중 레벨 블록단위 가역 데이터 은닉 기법 1. 서론 멀티미디어 기술과 인터넷 환경의 발달로 인해 현대 사회에서 디지털 콘텐츠의 이용이 지속적 으로 증가하고 있다. 이러한 경향과 더불어 디지털 콘텐츠에 대한 소유권 및 저작권을 보호하기

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

,. 3D 2D 3D. 3D. 3D.. 3D 90. Ross. Ross [1]. T. Okino MTD(modified time difference) [2], Y. Matsumoto (motion parallax) [3]. [4], [5,6,7,8] D/3

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

06( ) CPLV 페이지로수정.hwp

Microsoft PowerPoint - gpgpu_proximity.ppt

05( ) CPLV12-04.hwp

2 : (JEM) QTBT (Yong-Uk Yoon et al.: A Fast Decision Method of Quadtree plus Binary Tree (QTBT) Depth in JEM) (Special Paper) 22 5, (JBE Vol. 2

<31325FB1E8B0E6BCBA2E687770>

28 저전력복합스위칭기반의 0.16mm 2 12b 30MS/s 0.18um CMOS SAR ADC 신희욱외 Ⅰ. 서론 Ⅱ. 제안하는 SAR ADC 구조및회로설계 1. 제안하는 SAR ADC의전체구조

2005CG01.PDF

2 : (Jaeyoung Kim et al.: A Statistical Approach for Improving the Embedding Capacity of Block Matching based Image Steganography) (Regular Paper) 22

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

비디오 / 그래픽 아답터 네트워크 만약에 ArcGolbe를 사용하는 경우, 추가적인 디스크 공간 필요. ArcGlobe는 캐시파일을 생성하여 사용 24 비트 그래픽 가속기 Oepn GL 2.0 이상을 지원하는 비디오카드 최소 64 MB 이고 256 MB 이상을 메모리


Windows Embedded Compact 2013 [그림 1]은 Windows CE 로 알려진 Microsoft의 Windows Embedded Compact OS의 history를 보여주고 있다. [표 1] 은 각 Windows CE 버전들의 주요 특징들을 담고

룩업테이블기반비선형렌즈플레어실시간렌더링방법 (Real-Time Nonlinear Lens-Flare Rendering Method Based on Look-Up Table) 조성훈 정유나 이성길 (Sunghun Jo) (Yuna Jeong) (Sungkil Lee) 요

(JBE Vol. 23, No. 5, September 2018) (Special Paper) 23 5, (JBE Vol. 23, No. 5, September 2018) ISSN


APOGEE Insight_KR_Base_3P11

13김상민_ok.hwp

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

(JBE Vol. 7, No. 4, July 0)., [].,,. [4,5,6] [7,8,9]., (bilateral filter, BF) [4,5]. BF., BF,. (joint bilateral filter, JBF) [7,8]. JBF,., BF., JBF,.

04_오픈지엘API.key

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

DBPIA-NURIMEDIA

<B1D7B7A1C7C8C4ABB5E5BBE7BEE72E786C7378>

04 최진규.hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

06_ÀÌÀçÈÆ¿Ü0926

2 : HEVC (Young-Ho Seo et al.: H.265/HEVC Video Watermarking Method with High Image Quality) (Regular Paper) 24 1, (JBE Vol. 24, No. 1, January

(JBE Vol. 20, No. 6, November 2015) (Regular Paper) 20 6, (JBE Vol. 20, No. 6, November 2015) ISSN

07변성우_ok.hwp

<30312DC2F7BCBCB4EBC4C4C7BBC6C32DBED5BACEBAD B1C731C8A3292E687770>

untitled

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

Sequences with Low Correlation

19_9_767.hwp

05안용조.hwp

디지털TV솔루션 브로셔

2 : 3 (Myeongah Cho et al.: Three-Dimensional Rotation Angle Preprocessing and Weighted Blending for Fast Panoramic Image Method) (Special Paper) 23 2

À¯Çõ Ãâ·Â

방송공학회 논문지_최정아_심사용.hwp

Æ÷Àå½Ã¼³94š

1 : (Sunmin Lee et al.: Design and Implementation of Indoor Location Recognition System based on Fingerprint and Random Forest)., [1][2]. GPS(Global P

그림 2. 최근 출시된 스마트폰의 최대 확장 가능한 내장 및 외장 메모리 용량 원한다. 예전의 피쳐폰에 비해 대용량 메모리를 채택하고 있지 만, 아직 데스크톱 컴퓨터 에 비하면 턱없이 부족한 용량이다. 또한, 대용량 외장 메모리는 그 비용이 비싼 편이다. 그러므로 기존

<35335FBCDBC7D1C1A42DB8E2B8AEBDBAC5CDC0C720C0FCB1E2C0FB20C6AFBCBA20BAD0BCAE2E687770>

Â÷¼øÁÖ

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

02손예진_ok.hwp

8-VSB (Vestigial Sideband Modulation)., (Carrier Phase Offset, CPO) (Timing Frequency Offset),. VSB, 8-PAM(pulse amplitude modulation,, ) DC 1.25V, [2

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

1

°í¼®ÁÖ Ãâ·Â

SchoolNet튜토리얼.PDF

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

슬라이드 1

. 고성능마이크로프로세서 LU 와레지스터 파일의구조 (2.). 직접디지털주파수합성기 (FS) 의구조 3. 고성능마이크로프로세서부동소수점연산기 (Floating-Point Unit) 구조 (2) (2.) (2.) 2. 암호화를위한 VLSI 구조와설계의개요 (2.) 다음참

1_12-53(김동희)_.hwp

03-최신데이터

09È«¼®¿µ 5~152s

PowerPoint Presentation

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

<33312D312D313220C0CCC7D1C1F820BFB0C3A2BCB12E687770>

(JBE Vol. 23, No. 5, September 2018) (Regular Paper) 23 5, (JBE Vol. 23, No. 5, September 2018) ISSN

0125_ 워크샵 발표자료_완성.key

Microsoft PowerPoint Q AMD DT channel training Nov.ppt

서강대학교 기초과학연구소대학중점연구소 심포지엄기초과학연구소

Microsoft Word - KSR2012A021.doc

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jan.; 26(1),

07.045~051(D04_신상욱).fm

표지

04_이근원_21~27.hwp

Transcription:

2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 9 논문 2007-44SP-6-2 GPU 를이용한 DWT 및 JPEG2000 의고속연산 (Fast Computation of DWT and JPEG2000 using GPU ) 이만희 *, 박인규 **, 원석진 ***, 조성대 *** * (Man Hee Lee, In Kyu Park, Seok Jin Won, and Sungdae Cho ) 요 약 본논문에서는 GPU (Graphics Processing Unit) 를이용하여 JPEG2000 정지영상압축알고리즘의 DWT (Discrete Wavelet Transform) 연산을고속으로수행하기위한효율적인구조와방법을제안한다. DWT 연산은 JPEG2000 에서 EBCOT (embedded block coding with optimized truncation) 과더불어많은계산량을소모하는부분이기때문에, 본논문에서는 DWT 알고리즘을 GPU 의화소쉐이더에서고속으로수행하기위하여 Render-To-Texture (RTT) 를활용한구조를설계하였다. 실제구현을통해비슷한등급의 CPU 에서의처리에비해 DWT 자체는 10 배이상의수행속도의향상을, 기존의 JPEG2000 참조소프트웨어인 JasPer 의 DWT 를대치하였을때 2~16 배의수행속도의향상을보였으며해상도가증가할수록향상폭이크다. 본논문에서제시된프레임버퍼객체 (Frame Buffer Object) 를이용한 render-to-texture 수행구조는 GPU 기반영상처리의기본틀을제공하며, 이를응용하여일반적인영상처리와컴퓨터비전처리를 GPU 상에서고속수행할수있다. Abstract In this paper, we propose an efficient method for processing DWT (Discrete Wavelet Transform) on GPU (Graphics Processing Unit). Since the DWT and EBCOT (embedded block coding with optimized truncation) are the most complicated submodules in JPEG2000, we design a high-performance processing framework for performing DWT using the fragment shader of GPU based on the render-to-texture (RTT) architecture. Experimental results show that the performance increases significantly, in which DWT running on modern GPU is more than 10 times faster than on modern CPU. Furthermore, by replacing the DWT part of Jasper which is the JPEG2000 reference software, the overall processing is 2~16 times faster than the original JasPer. The GPU-driven render-to-texture architecture proposed in this paper can be used in the general image and computer vision processing for high-speed processing. Keywords : GPU, JPEG2000, DWT, 화소쉐이더, JasPer, 프레임버퍼객체 Ⅰ. 서론 최근그래픽가속기 (Graphics Processing Unit: GPU) 의성능이급격히발전하고 GPU 자체의프로그래밍가능한특성이점차확대됨에따라 3차원그래픽스이외의범용목적으로 GPU를활용할수있는가능 ** * 학생회원, 평생회원, 인하대학교정보통신공학부 (Inha University) *** 정회원, ( 주 ) 삼성전자정보통신총괄정보통신연구소 (Samsung Electronics) 본논문의초기결과는제19회영상처리및이해에관한워크샵 [15] 에서발표되었음. 본연구는 ( 주 ) 삼성전자의지원에의해수행되었음. 접수일자 : 2007년2월15일, 수정완료일 : 2007년10월31일 성이대두되었다. 최신 GPU의연산처리속도는대응되는최신 CPU의성능을수배능가한다. 예를들어, 최신 GPU 코어인 NVIDIA G80 (GeForce 8800GTX) 의경우 7억개의트랜지스터집적도와 350 GFLOPS 에근접하는초고속연산이가능한것에비하여, 최신 CPU 코어인 Intel Core2 Duo 3.0GHz는약 50 GFLOPS 가량의연산을처리할수있다 [1~2]. 또한, 최근 GPU의발전추세의다른하나는 GPU 내부파이프라인의기능을사용자가프로그래밍할수있도록허용한다는것이다. 이것은 GPU를범용으로사용할수있는가능성을제공하며, 현재는제한적이지만궁극적으로는 GPU를 CPU처럼사용할수있게한다 [3~ 4]. 이러한방법은정점쉐이더 (vertex shader) 와화소 (625)

10 GPU 를이용한 DWT 및 JPEG2000 의고속연산이만희외 [7, 10] 그림 1. JPEG2000의구조 Fig. 1. The structure of JPEG2000. [7, 10] 쉐이더 (pixel/fragment shader) 등의기법으로알려져있다. 최근 DirectX 9.0과 OpenGL 2.0 [5] 이발표되었고 HLSL (high-level shading language) 과 GLSL (GL shading language) [6] 이라는고급 shading 언어가표준사양에포함됨에따라 GPU의고성능연산을이용한범용어플리케이션의개발이보다가속화될전망이다. 범용목적 (general purpose) 으로의 GPU의응용, 즉 GPGPU를위해컴퓨터그래픽스이외에서최근가장각광을받는응용분야가영상처리와컴퓨터비전분야이다. 대부분의알고리즘은동일한명령의많은양의영상데이터로의동시실행, 즉 SIMD (single instruction multiple data) 방식의접근을필요로하며이들은 3차원그래픽알고리즘과의공통적인특징이기도하다. 또한, GPU가 PC뿐만아니라핸드폰, PDA와같은모바일기기용으로개발되고있고이러한것들이실제적용되는기술동향을볼때, 향후동영상처리등과같은멀티미디어프로세서의역할을 GPU가담당할수있을것으로기대된다. 본논문에서는고급 shading 언어를이용한 GPU의범용활용을통해 JPEG2000 정지영상의고속압축알고리즘을구현한다. 특히, JPEG2000 알고리즘의핵심모듈이되는 DWT 알고리즘을 GPU에서의 fragment shader에서수행하기위한 Render-to-Texture를활용한구조를설계하였으며, 이것이실제 JPEG2000에적용이가능한지를테스트하기위하여기존의 JPEG2000 을구현한 JasPer [7~8] 코드의해당부분을대치하여전체 JPEG2000 변환과정을테스트하였다. 본논문에서제시된프레임버퍼객체를이용한 Render-to-Texture 수행구조는 GPU 기반영상처리의기본틀을제공하며, 일반적인영상처리와컴퓨터비전처리를 GPU상에서고속수행을가능하게한다. 본논문의구성은다음과같다. 제Ⅱ장에서는 JPEG2000의구조를간략히설명한다. 제Ⅲ장에서는 DWT를 GPU가수행하도록하기위한 Render-to- Texture 수행구조를제시한다. 제 Ⅳ장에서는실험결과를보이고, 제Ⅴ장에서결론을제시한다. Ⅱ. JPEG2000 JPEG2000 [7, 9~10] 은기존의 JPEG 방식에비해점진적전송과관심영역코딩등의새로운기능을확보하고낮은전송률에서화질을향상시킨정지영상압축알고리즘이며 ISO/IEC 및 ITU의국제표준으로등록되어있다. 최근디지털카메라, 모바일기기, 의료영상기기, 원격탐사영상기기등다양한응용분야에서사용하기위한새로운영상포맷으로많은관심을받고있다. 그림 1에 JPEG2000의기본적인인코딩과정을제시하였다. 입력된원본영상에대하여타일링 (tiling) 과같은전처리 (preprocessing) 과정을거치게되고, RGB 영상을 YCrCb로변환하는컬러변환을수행하게된다. 그후 DWT 변환을수행하고, 양자화과정과 Tier-1, Tier-2 코딩과정을거치게되면최종적으로 JPEG2000 압축영상을얻을수있다. 한편, 디코딩과정은인코딩과정의역순으로생각할수있다. Ⅲ. GPU 에서의 DWT 알고리즘의구현 1. Discrete Wavelet Transform JPEG2000에서는 DWT를이용하여 intracomponent transform 을수행한다. 본논문에서는 DWT를구현하기위하여일반적으로잘알려져있는두가지방법인 convolution 기법과 lifting [11] 기법을구현하여성능의비교를수행한다. Convolution 기반의 DWT는일반적인신호처리에서의 convolution 방법과마찬가지로, 이미정해져있는저주파대역필터와고주파대역필터의값을입력신호에곱하여저주파성분과고주파성분을구분하게된다. 식 (1) 과 (2) 는 convolution 기반의 DWT의수행수식을나타낸다. 입 (626)

2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 11,, 그림 2. Lifting 기반의 DWT 수행구조 [10] Fig. 2. Structure of the lifting-based DWT [10]. 력신호 에대하여저주파필터 와고주파필터 를이용하여입력신호의저주파성분 과고주파성분 을구할수있다. (1) (2) 본논문에서는 DWT를수행하기위한보다효율적인방법으로 lifting 기반의 DWT를구현한다. Lifting 기반의 DWT는 convolution 기반의 DWT보다연산의수를줄임으로써좀더빠른수행시간을제공한다. 그림 2에 lifting 기반의 DWT 과정중분석부 (analysis part) 의신호흐름도를도시하였다. Irreversible transform 을의미하는 Daubechies 9/7 탭필터의 polyphase matrix는식 (3) 과같다 [11]. (3) 이때, 식 (3) 의연산을다음과같이 6단계의과정으로연산을수행할수있다. 표 1에 convolution과 lifting 기반의 DWT의연산수의비교하였다. 표1에제시된바와같이, lifting 기반의 DWT가 convolution 기반에비하여 1/3 정도의곱셈연산이감소하는것을확인할수있다. 2. GPU 기반의영상처리프레임워크그림 3은본논문에서제안하는 GPU와 fragment shader를이용한영상처리프레임워크의기본구조를나타낸다. 영상처리의대상이되는입력영상은채널당 32bit 부동소수점형식의텍스처데이터 [12] 로비디오메모리로로딩되며, fragment shader 에서는영상처리의특정알고리즘을입력영상에대해수행하여그결과를 Frame Buffer Object (FBO) [13] 라고불리는또다른텍스처메모리로출력한다. 이과정을 Off-Screen Rendering 또는 Render-To-Texture라고하는데, fragment shader의처리결과를기본출력대상인 frame buffer로전달하는것이아니고텍스처메모리로보내어재사용이가능하도록하는되먹임 (feedback) 구조이다. CPU가수행하는응용프로그램에서는화면전체와일치하는사각형의영역에대하여렌더링을수행하고 FBO의내용을텍스처로바인딩하게되면, 결국 fragment shader가수행한영상처리의결과가텍스처로렌더링되는것이다. 또한, 입력텍스처와출력텍스처를부동소수점형식으로지정하여영상처리과정에서생성되는중간결과를정확히표현할수있다. 그리고 FBO의유용한특징들중하나인입력텍스처와 단계 단계 단계 단계 단계 단계 여기서,,, 그림 3. GPU 기반영상처리프레임워크의기본구조 Fig. 3. Basic framework of GPU-based image processing framework. (627)

12 GPU 를이용한 DWT 및 JPEG2000 의고속연산이만희외 표 1. Convolution 기반의 DWT와 lifting 기반의 DWT 의연산수비교 Table 1. Comparison of computations between convolution-based and lifting-based DWT. Convolution Lifting Scheme Filter 곱셈수 덧셈수 곱셈수 덧셈수 5/3 4 6 2 4 9/7 9 14 6 8 출력텍스처를동일하게지정할수있는방법을이용하여부가적인과정없이출력결과를그대로입력으로이용함으로써수행시간을단축할수있으며비디오메모리의사용량또한감소시킬수있다. 3. GPU 에서의 DWT 구현 GPU를이용하여 convolution 기반의 DWT와 lifting 기반의 DWT 구현과정을살펴보았을때, 두개의과정모두입력영상은부동소수점형식의텍스처로지정된다. 우선 convolution의경우가로방향과세로방향의 DWT를위하여총두번의렌더링이수행이되고, 각각의렌더링과정중 J. Wang [14] 과유사한방법으로모든픽셀에대해서현재픽셀을기준으로인접한픽셀들의값을텍스처로부터얻어와곱셈과덧셈연산을수행한다. 반면 lifting의경우식 (3) 의여섯단계의과정중마지막세단계를한번의렌더링으로수행할수있으므로가로방향과세로방향에대하여각각네번씩의렌더링이이루어지게된다. 이때각각의렌더링과정에서 출력텍스처와입력텍스처를동일하게지정함으로써메모리간데이터이동에소요되는수행시간을감소시키고, 모든픽셀에대하여현재픽셀을기준으로좌우의두픽셀들의값을텍스처로부터얻어와곱셈과덧셈연산을수행한다. Ⅳ. 실험결과본논문에서는다양한환경에서의성능평가를위하여각각두가지의 GPU와 CPU상에서의실험을통하여수행속도차이를측정하였다. 즉, 본실험은 (1) (AMD Athlon 64 2.0GHz CPU + NVIDIA GeForce 8800GTX (G80) GPU (756MB)) (2) (Intel Pentium D 940 3.2GHz CPU + NVIDIA GeForce 8800GTS (G80) GPU (646MB)) 조합의컴퓨터환경에서수행되었다. 수행속도측정에있어 GeForce 8800 GTX는 128개의픽셀파이프라인을장착하고있고, GTS는 96개의파이프라인을가지고있으므로 GTX 모델에서의수행속도가전반적으로우수하게관측될것이다. 또한마찬가지로 Athlon 64에비해듀얼펜티엄프로세서가보다좋은성능을보일것이다. 1. DWT 실험결과그림 4에실험의수행순서도를나타내었으며, 표 2 에 convolution 기반의 DWT의수행속도를제시하였다. DWT의레벨은 1, 3, 5의 3단계에대해실험하였으 영상읽기 OpenGL 텍스처쉐이더 초기화과정 컬러변환 렌더링 n 단계 DWT 렌더링결과를시스템메모리로복사 그림 4. 실험에이용된 DWT 의수행순서도. GPU 가수행하는블록은음영으로표시. Fig. 4. Block diagram of experimental procedure of DWT. Shaded blocks are performed on GPU. 영상읽기 OpenGL및쉐이더초기화 영상을 JasPer의형식에맞추어변환 Preprocessing Color Transform JasPer 의자료구조를시스템메모리로복사 텍스처바인딩 렌더링 렌더링결과를시스템메모리로복사 시스템메모리의데이터를 JasPer 의자료구조로복사 JPEG2000 변환과정의나머지부분수행 파일로저장 그림 5. 실험에이용된 Jasper의 JPEG2000 인코딩순서도. GPU가수행하는블록은음영으로표시. Fig. 5. Block diagram of Jasper's JPEG2000 encoding procedure in the experiment. Shaded blocks are performed on GPU. (628)

2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 13 표 2. Convolution 기반 DWT의수행속도비교 Table 2. Comparison of DWT processing time using convolution. 해상도및결과분류 512 512 1024 1024 2048 2048 해상도및결과분류 512 512 1024 1024 2048 2048 프로세서 GPU (Level=1) GPU (Level=3) GPU (Level=5) CPU(Level=1) 8800GTS 8800GTX 8800GTS 8800GTX 8800GTS 8800GTX AMD Athlon64 INTEL Pentium D 수행시간 0.0019 0.0013 0.0027 0.0018 0.0028 0.0019 0.0715 0.0584 3% 2% 5% 3% 5% 3% - - 수행시간 0.0075 0.0050 0.0101 0.0068 0.0105 0.0071 0.2861 0.2330 3% 2% 4% 2% 4% 2% - - 수행시간 0.0294 0.0200 0.0397 0.0268 0.0408 0.0276 1.1753 0.9299 3% 2% 4% 2% 4% 2% - - 표 3. Lifting 기반 DWT의수행속도비교 Table 3. Comparison of DWT processing time using lifting. 프로세서 GPU (Level=1) GPU (Level=3) GPU (Level=5) CPU(Level=1) 8800GTS 8800GTX 8800GTS 8800GTX 8800GTS 8800GTX AMD Athlon64 INTEL Pentium D 수행시간 0.0017 0.0012 0.0023 0.0017 0.0024 0.0017 0.0400 0.0267 7% 3% 9% 4% 9% 4% - - Convolution 수행시간대비비율 89% 95% 85% 91% 84% 89% 56% 46% 수행시간 0.0069 0.0051 0.0091 0.0067 0.0094 0.0069 0.1662 0.1059 6% 3% 9 4% 9% 4% - - Convolution 수행시간대비비율 92% 101% 90 99% 89% 98% 58% 45% 수행시간 0.0278 0.0206 0.0368 0.0272 0.0376 0.0279 0.6377 0.4177 7% 3% 9 4% 9% 4% - - Convolution 수행시간대비비율 94% 103% 93 101% 92% 101% 54% 45% 표 4. JPEG2000의인코딩수행시간비교. 퍼센트수치는동일한 CPU로전체과정을수행하는경우에대한수행시간의비율을의미. Table 4. Comparison of JPEG2000 encoding time. Percent value denotes the ratio to the running time when the whole encoding is perform on the same CPU. Device GPU CPU Resolution 8800GTS (with INTEL Pentium D) 8800GTX (with AMD Athlon 64) AMD Athlon 64 INTEL Pentium D 512 512 0.0159 52% 0.0167 14% 0.1232 0.0305 1024 1024 0.0583 10% 0.0649 6% 1.0440 0.5553 2048 2048 0.2286 8% 0.2345 5% 4.5996 2.7816 (629)

14 GPU 를이용한 DWT 및 JPEG2000 의고속연산이만희외 며제시된바와같이고사양의 GPU 일수록, 그리고고사양의 CPU 일수록수행시간이단축되었음을알수있다. CPU와의수행시간비교는 DWT의분할레벨이 1 회인경우와수행하였고, CPU 수행시간대비 5% 이하로대폭감소하였음을알수있다. 다음으로 lifting 기반의 DWT에대한수행속도측정및비교분석을수행하였으며그결과는표 3에도시한바와같다. CPU에서 lifting을수행했을때와비교하였을때 90% 이상의수행시간이감소함을알수있다. Convolution 기반의 DWT 수행시간과비교해보았을때, GPU상에서의수행은 5~10% 내외로다소감소하였으나전반적으로유사한수행시간을보인다고할수있다. 이는 lifting을 GPU상에서 shader로구현하였을때발생하는렌더링회수가 convolution에비해 6 회많기때문인데, 현재 FBO를이용한렌더링에서는 fragment shader의병렬처리에서공유메모리가존재하지않는근본적인문제에기인한다. 다만, 추후새로운 GPU와 shader 모델에서는이와같은제한조건을완화시키려는요구를반영할예정이므로, lifting 기반의 DWT 수행속도는향후개선될수있다고할수있다. 2. JasPer와의통합본논문에서구현된 DWT가실제 JPEG2000에적용이가능한지의여부와성능평가를위하여본논문에서구현된영상처리프레임워크에기존의 JPEG2000 공개소프트웨어를통합하였다. 이때이용된공개소프트웨어는 JasPer 로불리는 JPEG 표준화단체의표준소프트웨어이다 [7~8]. 또한, 기존의 DWT 부분을본연구에서개발한 lifting 기반의 DWT 구현으로변경하여전체 JPEG2000의변환과정을테스트하였다. 그림 5에실험의수행순서도를나타내었다. 표 4에입력영상에대해 JPEG2000의비트열을생성하는인코딩과정에대한실험결과를제시하였다. 제안하는 GPU 기반의 DWT 수행이이용된경우, CPU로전체과정을수행하는것에비해 2048 2048의고해상도영상기준 5~8% 로계산량이대폭감소하였다. 이때, 상대적인성능비교는동일한 CPU가사용된경우에대해측정되었다. 또한, 8800GTX의수행시간이 GTS의수행시간보다다소크게측정된것은 DWT를제외한부분을수행한 CPU의성능차이에서기인한다. 표 4에제시된결과에의하면, 해상도가증가할수록전체인코딩과정에서 DWT가차지하는비중이증가하기때문에계산량감소폭이크다는것을알수있으며, 이는매우유용한결과라고할수있다. 즉, JPEG2000 이고해상도영상의압축에주로이용된다는점을생각하면, DWT 부분의 GPU 구현을통해얻어진상당한수준의계산량감소가큰의미를지닌다. Ⅴ. 결론 본논문에서는 GPU를사용하여 JPEG2000 정지영상압축알고리즘의 DWT 연산을고속으로수행하기위한효율적인구조와방법을제안하였다. 본논문에서는 DWT 알고리즘을 GPU에서의 fragment shader에서수행하기위한 Render-to-Texture 구조를설계하였으며, 실험결과 CPU에서의처리에비해 GPU에서구현된 DWT의경우 10배이상의수행속도의향상을보였다. 또한기존의 JasPer와성능을비교하였을때, 제안하는기법으로 DWT 부분을대치하는경우전체과정을 CPU로처리하는것에비하여수행시간이 52~5% 로감소함을보였다. 본연구에서이용된 GPU는 NVIDIA사의최신 GPU 를이용하였는데, GPU의성능은또한개발사가지원하는드라이버의성능에좌우된다고할수있다. 지속적으로 NVIDIA사는개선된드라이버를제공하므로본논문에서제시된결과는이에따라보다더개선될수있을것이다. 향후연구방향으로본논문에서개발된 GPU 기반의영상처리프레임워크를동영상으로확장하여실시간동영상및비전알고리즘처리를수행하는것을고려하고있다. 또한, NVIDIA 의차세대 GPU 구조인 CUDA (compute unified device architecture) 를이용하여, 보다자유로운병렬처리와다양한형태의메모리사용을통해 JPEG2000에서 DWT의다음단계인 BPC (bit-plane coding) 와 BAC (Binary arithmetic coding) 부분을 GPU로가속함으로써보다확장된 JPEG2000의가속을위한효율적인 GPU 기반의영상처리프레임워크의구축이필요하다고할수있다. 참고문헌 [1] http://developer.nvidia.com/page/documentation.ht ml [2] http://ati.amd.com/developer/index.html [3] R. Fernando (editor), GPU Gems: Programming Techniques, Tips, and Tricks for Real-Time Graphics, Addison-Wesley, 2004. (630)

2007 년 11 월전자공학회논문지제 44 권 SP 편제 6 호 15 [4] M. Pharr (editor), GPU Gems 2: Programming Techniques for High-Performance Graphics and General-Purpose Computation, Addison-Wesley, 2005. [5] http://www.opengl.org [6] R. Rost, OpenGL Shading Language Second Edition, Addison-Wesley, 2006. [7] Information Technology JPEG2000 Image Coding System, ISO/IEC International Standard 15444-1, ITU Recommendation T.800, 2000. [8] M. D. Adams and F. Kossentini, JasPer: A software-based JPEG-2000 codec implementation, Proc. IEEE International Conference on Image Processing, September 2000. [9] M. Rabbani and R. Joshi, An overview of the JPEG 2000 still image compression standard, Signal Processing: Image Communication, vol. 17, no. 1, pp. 3-48, January 2002. [10] T. Acharya and P. Tsai, JPEG2000 Standard for Image Compression, Wiley-Interscience, 2005. [11] W. Sweldens, The Lifting scheme: a new philosophy in biorthogonal wavelet constructions, Proc. SPIE, vol. 2569: Wavelet Applications in Signal and Image Processing III, pp. 68-79, September 1995. [12] http://www.nvidia.com/dev_content/nvopenglspecs /GL_ARB_texture_float.txt [13] http://www.nvidia.com/dev_content/nvopenglspecs /GL_EXT_framebuffer_object.txt [14] J. Wang, T. T. Wang, P. A. Heng and J. Wang, Discrete Wavelet Transform on GPU, Proc. ACM Workshop on General Purpose Computing on Graphics Processors, pp. C-41, August 2004. [15] 이만희, 박인규, 원석진, 조성대, JPEG2000 에서 GPU 를이용한 DWT 의가속, 제 19 회영상처리및이해에관한워크샵, pp. 415-418, 2007 년 2 월. 저자소개 이만희 ( 학생회원 ) 2006 년 2 월인하대학교컴퓨터공학과공학사. 2006 년 3 월 ~ 현재인하대학교정보통신공학부석사과정. 2007 년 4 월 ~ 현재한국전자통신연구원 (ETRI) 위촉연구원. < 주관심분야 : 영상기반모델링및렌더링, sketch-based interface, GPGPU> 박인규 ( 정회원 ) 1995 년 2 월서울대학교제어계측공학과공학사. 1997 년 2 월서울대학교제어계측공학과공학석사. 2001 년 8 월서울대학교전기컴퓨터공학부공학박사. 2001 년 9 월 ~2004 년 3 월삼성종합기술원 (SAIT) 멀티미디어랩전문연구원. 2004 년 3 월 ~ 현재인하대학교정보통신공학부조교수. 2007 년 1 월 ~ 현재 Mitsubishi Electric Research Laboratories (MERL) 방문연구원. < 주관심분야 : 컴퓨터그래픽스및비전, 영상기반모델링및렌더링, 3D 얼굴모델링, computational photography, GPGPU> 원석진 ( 정회원 ) 1995 년 2 월서울대학교제어계측공학과공학사. 1997 년 2 월서울대학교제어계측공학과공학석사. 1997 년 ~2002 년대우전자디지털연구소. 2002 년 ~2003 년액토즈소프트게임개발실. 2005 년 ~ 현재 ( 주 ) 삼성전자통신연구소. < 주관심분야 : 멀티미디어, 그래픽스, 디지털콘텐츠 > 조성대 ( 정회원 ) 1996 년숭실대학교전자계산학과공학사. 2000 년 Rensselaer Polytechnic Institute 전자컴퓨터공학공학석사. 2002 년 Rensselaer Polytechnic Institute 전자컴퓨터공학공학박사. 2004 년 RPI 영상처리센터박사후연구원. 2004 년 9 월 ~ 현재 ( 주 ) 삼성전자정보통신연구소. < 주관심분야 : 멀티미디어영상처리, 컬러처리, 압축, 통신 > (631)