딥러닝을이용한영상수평보정 홍은빈 1,O 전준호 1 조성현 2 이승용 1,* 1 포항공과대학교 2 대구경북과학기술원 {hong5827, zwitterion27, leesy}@postech.ac.kr scho@dgist.ac.kr Deep Learning based Photo Horizon Correction Eunbin Hong 1,O Junho Jeon 1 Sunghyun Cho 2 Seungyong Lee 1,* 1 POSTECH 2 DGIST 요약 본논문은딥러닝 (deep learning) 을이용하여입력영상의기울어진정도를측정하고수평에맞게바로세우는방법을제시한다. 기존방법들은일반적으로영상내에서선분, 평면등하위레벨의특징들을추출한후이를이용해영상의기울어진정도를측정한다. 이러한방법들은영상내에선이나평면이존재하지않는경우에는제대로동작하지않는다. 본논문에서는대규모데이터셋을통해영상의다양한특징들에대해학습가능한 Convolutional Neural Network (CNN) 를이용하여인물이나복잡한배경으로구성된기울어진영상에대해서도강인하게동작하는프레임워크를제시한다. 또한, 네트워크에가변공간적 (adaptive spatial) pooling 레이어를추가하여영상의다중스케일특징을동시에고려할수있게하여영상의기울어진정도를측정하는성능을높인다. 실험결과를통해다양한콘텐츠를포함한영상의기울어짐을높은정확도로바로세울수있음을확인할수있다. Abstract Horizon correction is a crucial stage for image composition enhancement. In this paper, we propose a deep learning based method for estimating the slanted angle of a photograph and correcting it. To estimate and correct the horizon direction, existing methods use hand-crafted low-level features such as lines, planes, and gradient distributions. However, these methods may not work well on the images that contain no lines or planes. To tackle this limitation and robustly estimate the slanted angle, we propose a convolutional neural network (CNN) based method to estimate the slanted angle by learning more generic features using a huge dataset. In addition, we utilize multiple adaptive spatial pooling layers to extract multi-scale image features for better performance. In the experimental results, we show our CNN-based approach robustly and accurately estimates the slanted angle of an image regardless of the image content, even if the image contains no lines or planes at all. 키워드 : 영상수평보정, 딥러닝, 다중스케일특징 Keywords: horizon correction, deep learning, multi-scale features 입력영상의기울어짐은카메라의 3 가지회전축 (roll, pitch, 1. 서론 최근디지털카메라와스마트폰의급격한발전으로사람들은손쉽게사진을찍을수있게되었다. 이로인해미학적으로좋은영상을얻으려는수요들이늘어나고있다. 만약, 카메라가수평선과 90 를이루지못하고기울어져찍히게되면사진은미학적으로좋지않아보이게된다 (Figure 1a). yaw) 중카메라의시선방향을기준으로한회전인 roll 로정의된다. 본논문에서는다중스케일을고려한 Convolutional neural network 를학습하여일반적인영상의기울어진각도를정확하게측정하고측정된각도에따라영상을바로세우는방법을제안한다. 기울임측정및보정에대한기존연구는텍스트나얼굴영역과같이주로영상의특성에맞는특징을추출 [1, 2, 3] 하거나선분과같은구조적특징을분석해 [4]
(a) Tilted image (b) Adjusted image Figure 1. Examples of tilted and adjusted images 기울임을측정한다. 이런방법은알고리즘에서미리정의한특징을포함하고있지않은일반적이고복잡한영상이입력으로주어졌을때, 기울임측정이강건하게작동하지않는등의한계가존재한다. 본논문에서제안하는기울임보정방법은최근영상분석및처리분야에서활발하게활용되고있는 CNN 을기반으로영상의기울임정도를측정한다. CNN 을이용한영상인식은연구자가직접설계한특징들을사용하지않고입력영상으로부터해당문제와데이터셋에적합한특징을자동으로추출할수있다는장점이있으며, 본논문에서는 CNN 학습을통해다양한각도로기울어진사진데이터셋으로부터기울임측정에최적화된특징을학습하여높은기울어짐측정정확도를얻을수있다. 또한본논문에서제안한알고리즘은가변공간적 pooling 레이어를이용해영상의다양한스케일특징을동시에고려하는네트워크구조를학습해단일스케일특징만을학습한네트워크구조에비해더높은측정정확도를얻을수있다. 실험결과를통해본논문에서제안한 CNN 기반의기울어짐보정기술은도시, 인물, 풍경등다양한영상의기울어짐을영상컨텐츠와관계없이보정할수있으며어도비라이트룸과같은전문사진보정툴로도보정하기힘든다양한영상에대해서정확하게동작하는것을확인할수있다. 또한다중스케일네트워크구조가단일스케일구조에비해영상기울어짐측정및보정에서더높은성능을얻을수있음을수치적비교를통해평가한다. 2. 관련연구 2.1 특정도메인의사진기울임보정 디지털카메라가보편화되기전에는텍스트문서, 얼굴과같이특정물체에대해수평보정알고리즘을적용하는연구들이진행되어왔다. Avila et al. [1] 은기울어져찍힌텍스트문서사진의각도를빠르게측정하는방법을 제시하였다. 최단이웃클러스터링 (nearest neighbor clustering) 방법을통해 0 ~ 360 사이의기울어진각도를 0.1 내외의오차로판별할수있다. Gourier et al. [2] 은영상내에서색상정보와지역적가우시안수용영역 (gaussian receptive field) 의가중치합을통해얼굴을검출한후얼굴내의주요구조들 (e.g. 눈 ) 의상대적위치를기반으로얼굴의기울어진각도를측정하였다. Osadchy et al. [3] 은 CNN 을활용하여얼굴이향하고있는방향을측정하였다. 얼굴 / 비-얼굴변수로구성된에너지함수식을정의하고이를최소화하는방향으로학습하는방법을제안하였다. 그러나세방법모두일반적인영상에대해서는적용할수가없고기울어진각도측정을위해일련의복잡한과정을거쳐야한다. 2.2 일반디지털영상에대한기울임보정 일반디지털영상에대한기울임보정방법들도다양하게제시되었다. Wang et al. [4] 은영상내구조적정보 ( 선분 ) 과색차정보 ( 색상 ) 와같은저수준의특징을이용하여 SVM (support vector machines) 를학습해네가지의기울어진각도 (0, 90, 180, 270 ) 를판별하는알고리즘을제안하였다. Datar et al. [5] 는 SOM (supervised self-organizing map) 이라는지도를새롭게정의하여이를이용해 90 단위의각도를측정하였다. 영상을 HSV 색상공간으로맵핑시킨후그때의첫번째, 두번째항을벡터로만든후이를지도학습시킨결과얻어진정보가 SOM 이며이방법은기존의지도학습방법보다정확도를향상시켰다. Wang et al. [6] 은인간의인지적단서들을이용해 90 단위의기울어진각도를측정하였다. 인지적단서는상위레벨의단서와하위레벨의단서로나뉘는데상위레벨단서는영상내사람의얼굴, 나무, 동물, 텍스트와같이기울어진각도를인식할수있는물체나하늘, 땅과같이영상내에서있어야할위치가분명한정보를의미한다. 하위레벨단서는빛, 질감, 선분, 등과같이영상내저수준정보를뜻한다. 이러한인지적단서들을조합하여정의한베이지안수식을풀어영상의기울어진각도를측정하였다. 이러한방법들은각도측정을위해미리정의한특징들이영상내에존재하지않으면제대로동작하지않는다. 또한 90 단위의각도만측정할수있기때문에비실용적이다. Lee et al. [7] 은영상내의선들을분석해영상의기울어진각도를판단하고이를보정하는방법을제시하였다. 그러나영상내존재하는선정보에기반하기때문에인공구조물이많이포함된사진이아닌경우나뚜렷한선이없는사진의경우에는기울어진각도를정확히판단할수없는문제점이있다.
Figure 2. Network structure 2.3 영상분석을위한딥러닝네트워크 최근, 컴퓨터비전분야에서는딥러닝기반방법들이좋은성능을보이고있다. He et al. [8] 이제시한 residual network 구조는네트워크가깊을수록학습이어려워지는단점을극복하여영상인식, 분류, 검출분야등에서큰성능향상을가져왔다. 영상의미학적평가분야에서는 Mai et al. [9] 이기존의영상미학평가네트워크에가변공간적 pooling 레이어를추가하여다양한크기, 서로다른종횡비를갖는입력영상을받아들일수있게하였다. 기존의 CNN 은 1:1 종횡비의고정된크기의입력영상만을받아들일수있어입력영상의원래구도가학습시제대로반영되지않았지만 Mai et al. [9] 은이러한문제를해결하여영상의미학적평가성능을크게향상시켰다. CNN 을이용하여영상의기울어진각도를측정하는연구도최근에수행되었다. Joshi et al. [10] 은네가지각도 (0, 90, 180, 270 ) 로기울어진대규모영상데이터셋을수집한후이를 VGG-16 네트워크로학습하여영상의기울어진각도를판별하였다. 이방법은영상의기울어진각도측정에 CNN 을도입하였다는의의는있으나 90 단위의각도밖에측정할수없고사용한네트워크구조도단순하여아직개선될여지가많이남아있다. 본논문에서는최근영상인식및분석에뛰어난성능을보이는 residual network 구조에다중스케일특징을고려할수있게해주는가변공간적 pooling 레이어를적용한네트워크를학습해영상기울기를측정하는방법을제시한다. 이를통해 90 단위가아닌미세한단위의각도로기울어진다양한콘텐츠의영상을높은정확도로바로세울수있다. 3. CNN 을이용한영상기울기측정 본장에서는본논문에서제안하는기울어진영상에대한각도측정네트워크의학습을크게세단계로설명한다. 우선 학습할네트워크를구성한다. 네트워크구조는 residual network 를기반으로한구조에가변공간적 pooling 레이어를추가하여새롭게구성하였으며, 3.1 절에서자세히서술된다. 이네트워크를학습시키기위해학습데이터셋을생성하는것이두번째단계인데, 바로세워져있다고가정한대규모영상들에대해임의의각도로회전시킨후회전된영상과그때회전시킨각도를레이블로하여학습데이터셋을구성한다. 학습데이터셋을생성하는상세한과정은 3.2 절에서서술된다. 네트워크와학습데이터셋이준비되면파라미터세팅을달리해가며학습을시키는데이는 3.3 절에서서술된다. 3.1 네트워크구조 영상의기울어진각도를측정하는네트워크구조는최근이미지인식분야에서탁월한분류성능을보이는 residual network 구조를사용하였다. Residual network 구조에서가장마지막 pooling 레이어는최종특징맵을 1x1 로만들어주는역할을하는데본논문에서는이레이어를두개의가변공간적 pooling 레이어로대체하여특징맵을각각 1x1, 2x2 로만든후이를결합한벡터를최종결과예측에사용한다 (Figure 2). Mai et al. [9] 이제안한가변공간적 pooling 레이어는입력레이어의크기와관계없이미리정의한크기의결과레이어를만들기위한레이어로, pooling 커널의크기와종횡비가입력영상에따라가변적으로결정되는구조를갖는다. Mai et al. [9] 은이러한가변공간적 pooling 레이어를이용해서로다른스케일의특징을추출하는부-네트워크를병렬적으로이어하나의네트워크를구성한다. 본논문에서사용하는네트워크구조역시마지막 pooling 레이어를두개의가변공간적 pooling 레이어로대체하여다중스케일특징을고려할수있게하였다. 두 pooling 레이어는각각 1x1, 2x2 크기의특징맵을출력으로갖는데, 1x1 특징맵은영상전체의특징을추출하고 2x2 특징맵은각 cell 이영상을동일한크기로 4 등분한각영역의특징을추출한다. 두 pooling
(a) Images w/ many lines (b) Images w/o lines Figure 3. Our dataset 레이어로부터얻은특징벡터는그크기가서로다르기때문에선형레이어를통해 256 크기로통일한뒤, 두벡터의평균값을취한다. 마지막으로선형레이어를통해영상의최종기울어짐각도를예측하도록한다. 예측정확도를측정하는 loss 함수로는 L1 loss (absolute difference) 를사용하였다. 위와같이두개의가변공간적 pooling 레이어를통해추출한다중스케일의특징을이용할경우 1x1 특징맵으로부터얻은정보는영상전체기울어짐의구조적인정보를표현한다. 반면 2x2 특징맵의각 cell 은영상의서로다른영역에대한특징정보를표현하는데, 이후의 fully connected 레이어를통해서로다른영역간의위치관계가분석되어영상기울어짐측정에도움이될수있다. 예를들어사람의얼굴영상의경우얼굴전체외곽선의기울어짐이영상의기울어짐에대한특징정보가될수도있지만, 양눈사이의관계, 혹은코와입이이루는상대적인위치관계에대한정보가영상의기울어짐측정에단서가될수있는것이다. 이와같이다중스케일특징을고려하는경우선분과같이기울어짐을판단하기위해미리정의된특징이존재하지않는다양한영상의경우에도많은데이터를통해영상영역간의위치관계를학습함으로써정확한영상기울어짐을측정할수있다. 3.2 학습데이터셋 앞서제시한네트워크를학습하기위한영상데이터셋을만드는과정은다음과같다. 기울어지지않고바로세워져있는영상에대해 -20 ~ +20 사이의각도 7 개를무작위로선택하여그각도만큼회전시킨다. 이때, 영상을회전시키기전에가로, 세로길이의 1/2 만큼대칭적패딩 (symmetric padding) 을한다. 그후영상을특정각도만큼회전시키고다시원래크기만큼크롭하면사각형꼴의회전된영상을얻을수있다. 회전된 영상과그때의회전된각도를레이블로배정하여학습데이터셋을구성한다. 회전되지않은원본영상도레이블을 0 으로하여학습데이터셋에포함시켰다. 기울어진영상데이터셋을생성하기위한원본영상데이터셋은 World Cities Dataset [11] 이다. Flickr 웹사이트로부터 40 개의주요도시들의지리학적쿼리 (geographic query) 를이용하여수집한 22,994 장으로구성되어있다. 본논문에서는이중 1,000 장은검증데이터셋, 나머지는학습데이터셋으로사용하였다. World Cities Dataset 의영상들중에는기울어져찍힌영상들도소수포함되어있으나대부분은바로세워져있기때문에학습시전체적인경향에큰영향이없을것이라가정하였고실제로실험결과를통해동작이잘됨을확인할수있었다. 검증데이터셋은직접눈으로확인하여기울어져있는영상들은제외시켰다 (865 장 ). 본논문에서는선분과같이기울어짐을판단하는데도움이되는정보가부족한영상에대해서도강건하게동작하는기울어짐보정을목표로하였기때문에학습데이터셋내에주요선이존재하는영상 ( 건물, 나무등 ) 외에도주요선이존재하지않는영상 ( 인물, 자연풍경등 ) 도충분히포함되도록각그룹의비율을조정하였다. 이를위해영상에서찾은선분을클러스터링한뒤선분의길이의합이가장긴클러스터의중심을주요선분으로검출한뒤, 만약검출된주요선이영상의높이, 너비중짧은쪽의 1/3 보다짧다면이영상에서주요선은존재하지않는다고가정한다. 이를통해최종학습데이터셋을주요선이존재하는영상과주요선이존재하지않는영상각각 2:1 로구성하였다 (Figure 3). 최종적으로생성된학습데이터셋은 175,350 장, 검증데이터셋은 6,880 장이다. 3.3 학습 학습네트워크는 ImageNet 영상분류데이터셋에대해미리학습된 residual network 모델을사용하였다. ImageNet 분류문제는대상의기울어짐에대해강건하게분류할수있도록네트워크가학습된다. 따라서미세한기울어짐정보를구분할수있어야하는본알고리즘의목적과는반대된다고할수있다. 이를보완하기위해네트워크의후반부레이어들 (9 개의 residual block) 의가중치파라미터들을초기화한후, 위에서설명한학습데이터셋으로다시학습하였다. 이를통해네트워크의초반부레이어들에서는 ImageNet 영상분류데이터셋으로부터학습된영상의저수준특징을추출하고후반부레이어들에서는기울어짐을측정할수있는구조적정보나영역간의상대적위치관계등이새롭게학습되도록유도하였다.
네트워크를학습할때미니배치크기는 16, 학습율은 0.001 로지정하였고 16 epoch 동안학습된모델을최종평가에사용하였다. Torch 라이브러리를이용해학습하였다. 4. 실험결과 본장에서는제안한알고리즘의성능을정량적으로평가하고, 기존기울임보정알고리즘과의정성적성능비교를수행한다. 또한앞서서술한네트워크구조및학습데이터셋의구성에따른알고리즘의결과와그성능변화에대한실험결과를서술한다. 4.1 결과영상및정량적평가 학습과정을통해생성한네트워크모델은입력영상의기울어진각도를측정하기위해사용된다. 이렇게얻은각도와반대방향으로입력영상을회전시켜기울어짐이보정된결과영상을생성할수있다. Figure 4는다양한입력영상을본논문의프레임워크에적용한결과이다. 기울임보정결과영상은크롭 (crop) 을통해빈픽셀이발생하지않도록하였다. 본논문의결과는 1~2 행과같이영상내직선이많은경우뿐만아니라 3~5 행처럼주요선이존재하지않는복잡한장면에대해서도잘동작하는것을확인할수있다. 기울어짐측정네트워크의정확도를정량적으로평가하고, 영상의기울어진정도에따라측정정확도가어떻게변하는지평가하기위해 865장의다양한영상으로이루어진검증데이터셋을다섯가지각도 (3, 5, 10, 15, 20 ) 에대해 (+, -) 방향으로회전한후각기울어진각도에대해정확도를측정하였다 (Table 1). Table 1에서의오차는본방법을통해측정된각도와 GT 각도의차이값의평균이다. Table 1. Error of each tilted degree GT 3 5 10 15 20 average error 1.2268 0.6524 0.4596 0.4659 1.1532 0.7915 다섯가지경우모두 1 내외의오차를보일정도로높은정확도를갖는것을확인할수있다. 3 와 20 의경우, 5, 10, 15 보다정확도가떨어지는것을볼수있는데 3 는기울어진영상과바로세워진영상간의시각적차이가크지않기때문에상대적으로각도측정이어렵고, 20 는상대적으로차이가많이나기때문에난이도가높아정확도가낮은것으로판단된다. 4.2 네트워크구조에따른성능비교 본논문에서제안한기울임측정네트워크구조는영상의 다중스케일특징을동시에고려하기때문에단일스케일특징만을고려한네트워크구조에비해높은성능을얻을수있다. 이를확인하기위해단일스케일특징만을고려하는네트워크를동일한조건에서학습한후다중스케일네트워크와의성능비교를수행하였다. 단일스케일네트워크구조는 Figure 2에서보여지는다중스케일네트워크구조에서가변공간적 pooling 레이어를일반 pooling 레이어로대체하여 512x1x1 의특징맵을생성한후선형레이어를통해 512 크기의특징을거쳐최종기울어짐각도를측정하도록구성하였다. 이를본알고리즘과동일한데이터셋으로동일한 epoch 만큼학습하고, 결과를비교하였다. 사용한검증데이터셋은 4.1절과동일하며, 전체검증데이터셋에대해단일스케일, 다중스케일네트워크를이용한기울어짐각도를측정한뒤 GT (ground truth) 각도와의평균오차를측정, 학습 epoch가진행됨에따라두네트워크의성능변화를비교하였다 (Table 2). Table 2. Error for the two network architectures Epoch 4 Epoch 8 Epoch 12 Epoch 16 Single 1.7836 1.4095 1.0359 0.8730 Multi 1.8081 1.2921 0.9585 0.7915 실험결과초반 epoch에서단일스케일네트워크가더높은정확도를보이는현상이관찰되었는데, 이는다중스케일네트워크의경우단일스케일네트워크에비해학습해야할특징의종류, 파라미터의개수가더많기때문이다. 그러나학습이계속진행됨에따라다중스케일네트워크의파라미터학습이충분히이루어지고결과적으로더높은정확도를보이는것을확인할수있다. 4.3 데이터셋구성에따른결과비교 딥러닝기반의영상분석알고리즘은네트워크학습시사용하는데이터셋을어떻게구성하느냐에따라학습결과가달라질수있다. 본절에서는학습데이터셋을세가지경우로다르게구성하여네트워크를학습했을때검증데이터셋에대한기울임측정정확도가어떻게차이나는지비교한다. 이실험에사용한네트워크구조는 3.1 절에서설명한다중스케일네트워크이다. 첫번째는주요선이존재하는영상들 ( 건물, 나무등이존재하는영상들 ) 만으로학습데이터셋을구성한경우이다. 학습데이터셋구성시, 3.2 절에서설명한영상내주요선존재여부판별알고리즘을이용해학습데이터셋 123,559 장, 검증데이터셋 4,840장을생성하여네트워크를학습하였다. 이렇게
(a) Input images (b) Our results (c) GT Figure 4. Horizon correction results of our method
생성한데이터셋은선분등구조적특징을바탕으로하는기존알고리즘에대해서도잘작동할것으로예상할수있다. 두번째는주요선이존재하지않는영상들 ( 인물중심또는자연풍경배경의영상들 ) 만으로데이터셋을구성한경우이다. 이역시주요선존재여부판별알고리즘을사용해학습데이터셋 51,791 장, 검증데이터셋 2,040장을생성하여네트워크를학습하였는데, 이데이터셋은기존알고리즘에대해잘작동하지않을것으로예상할수있다. 마지막으로 3.2 절에서설명했듯이주요선이존재하는영상과주요선이존재하지않는영상을각각 2:1로구성하여네트워크를학습하였다. 테스트시사용한영상셋은주요선이존재하는영상과존재하지않는영상 255장에대해 -20 ~ +20 사이의각도 7개를무작위로선택하여그각도만큼회전시키고, 회전시키지않은원본영상까지포함하여총 4,840장과 2,040장으로구성하였다. 이때회전시킨각도 (ground truth) 와세가지경우의데이터셋에대해학습한네트워크로부터측정된각도와의평균오차를측정하였다 (Table 3). Table 3. Error for the three datasets Line test set No-line test set Train with line images 1.0538 1.4014 Train with no-line images 1.9953 2.0435 Train with both images 0.7261 0.8789 실험결과주요선이존재하는영상과존재하지않는영상을모두포함시킨원본데이터셋이가장정확도가높은것으로나타났다. 이는영상으로부터얻을수있는선분정보만이용하기보다선분이없는일반적인영상에서얻을수있는다양한피사체의특징으로부터얻는추가적인정보를활용해기울어짐을측정할때, 전체검증데이터셋에대한정확도가높아진다는것을의미한다. 또한주요선분이존재하거나하지않는학습데이터셋으로학습한두네트워크모두선분이존재하는검증데이터셋에대한정확도가선분이존재하지않는데이터셋에비해높았는데, 이는단일정보로사용될때기울어진선분정보가일반적인피사체의기울어짐정보보다영상의기울어짐을측정하기에유리하다는것을뜻한다. 4.4 기존기술과의비교 마지막으로본논문에서제안한방법과기존의상용사진기울기보정기술의결과를비교하였다 (Figure 5). 본알고리즘과비교한기존상용기술은 Adobe Lightroom CC 2015에내장된기능으로 Lee et al. [7] 이제시한방법에 기반하고있다. Figure 5 의첫번째행의예제영상은영상내에다수의 건물들이위치하고있기때문에선검출이용이하다. 그결과 본논문의방법뿐만아니라기존기술의수행결과모두기울기 보정이잘되는것을확인할수있다. 반면두번째예제영상은 배경의수평선을중심으로회전시켜야할지주요물체에맞춰 회전시켜야할지모호하다. 본논문의방법은배경의수평선을 기준으로보정을하여 GT 영상과비슷한결과를얻은반면 기존기술은결과가좋지않음을알수있다. 세번째, 네번째, 다섯번째예제의경우영상내주요선이존재하지않거나 검출하기어려운영상으로, 기존기술의경우제대로작동하지 않는반면본논문의방법은사진의피사체인인물또는동물이 똑바로세워지도록기울임보정을잘수행하는것을확인할수 있다. 5. 결론 본논문에서는딥러닝을이용하여영상의기울어진각도를 측정하는방법을제시하였다. 기존방법들은영상으로부터 추출한주요선과같은저수준특징을바탕으로각도를 측정하는반면제안한방법은학습된하나의네트워크를통해 다양한고수준의특징정보를활용한각도측정이가능하며, 다양한영상에대해높은정확도를보인다. 다중스케일 네트워크구조를사용함으로써단일스케일구조에비해높은 성능을얻을수있었다. 실험결과를통해전문사진보정 툴로도보정하기힘든복잡한배경의영상에대해서도 강인하게동작하는것을확인하였다. 감사의글 본연구는미래창조과학부의재원으로정보통신기술 진흥센터 (R0126-17-1078) 와한국연구재단 (NRF-2014 R1A2A1A11052779) 의지원으로수행되었습니다. References [1] B.T. Avila and R.D. Lins, A fast orientation and skew detection algorithm for monochromatic document images, in proc. ACM Symposium on Document Engineering, pp. 118-126, 2005. [2] N. Gourier, D. Hall and J.L. Crowley, Estimating face orientation from robust detection of salient facial structures, in proc. FG Net Workshop on Visual Observation of Deictic Gestures, vol. 6, 2004. [3] M. Osadchy, Y.L. Cun and M.L. Miller, Synergistic face detection and pose estimation with energy-based models, Journal of Machine Learning Research, pp. 1197-1215, 2007.
(a) Input images (b) Results of Lightroom (c) Our results (d) GT [4] Y.M. Wang and H. Zhang, Detecting image orientation based on low-level visual content, Computer Vision and Image Understanding, 93(3), pp. 328-346, 2004. [5] M. Datar and X. Qi, Automatic image orientation detection using the supervised self-organizing map, in proc. 8th IASTED International Conference, 2006. [6] L. Wang, X. Liu, L. Xia, G. Xu and A. Bruckstein, Image orientation detection with integrated human perception cues (or which way is up), in proc. International Conference on Image Processing (ICIP), vol.3, 2003. [7] H. Lee, E. Shechtman, J. Wang and S. Lee, Automatic upright adjustment of photographs, in proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 877-884, 2012. Figure 5. Comparison with commercial software results [8] K. He, X. Zhang, S. Ren and J. Sun, Deep residual learning for image recognition, in proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770-778, 2016. [9] L. Mai, H. Jin and F. Liu, Composition-preserving deep photo aesthetics assessment, in proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 497-506, 2016. [10] U. Joshi and M. Guerzhoy, Automatic photo orientation detection with convolution neural networks, in proc. Conference on Computer and Robot Vision (CRV), 2017. [11] G. Tolias and Y. Avrithis Speeded-up, relaxed spatial matching, in proc. International Conference on Computer Vision (ICCV), 2011.