이학석사학위논문 Statistical Analysis of Western Painting Arts 2018 년 2 월 서울대학교대학원 통계학과 권승현
국문초록 Statistical Analysis of Western Painting Arts 중세부터 19세기 사이의 서양 미술사에서는 사조와 작가에 따라 구분되는 색상적인 특징이 시각적으로 인지되어 왔다. 오늘날 디지털 인문학이 발전하 면서 이러한 미술사의 특징을 계량적으로 파악하는 것이 가능해졌다. 대량의 서양 회화 작품들이 디지털 이미지로 저장되었으며 디지털 이미지를 구성하 는 각 픽셀의 색 정보를 RGB, HSV 등의 색 공간에 좌표로 표현할 수 있다. 본 논문에서는 수치화된 서양 회화 영상 이미지 데이터를 가지고 사조별 또는 작가별 사용 색의 빈도와 분포를 다양한 통계학 모형을 이용하여 분석한다. 서양 미술사에서 사용된 색의 특징을 분석하여 미술계에서 합의된 사실을 정 량적으로 뒷받침하는 것이 본 연구의 목적이다. 주요어 : 서양 회화, 디지털 인문학, 순위 순서 분포, 박스 계수법, 높이 차 상 관관계, 다차원 척도법, 누락 질량 추정. 학 번 : 2016-20259
Contents 1 Introduction 1 2 Data Description 3 3 Statistical Models 9 3.1. Reproduction of Preceding Research............... 9 3.1.1. Rank-ordered Color-usage Distribution......... 10 3.1.2. Box-counting Dimension................. 11 3.1.3. Height Difference Correlation.............. 13 3.2. Proposed Methods........................ 16 3.2.1. Multi-dimensional Scaling................ 16 3.2.2. Missing Mass Estimation................. 20 4 Conclusion 24 i
List of Tables 2.1 자료내사조에따른작가수와작품수............. 4 2.2 작품수상위 24 명의작가들................... 5 3.1 모네의색상사용횟수에따른도수............... 21 ii
List of Figures 2.1 사조별 H, S, V 성분의 상자 그림................. 7 2.2 작가별 H, S, V 성분의 상자 그림................. 8 3.1 11개 사조의 RCD 그림...................... 11 3.2 사조에 따른 box-counting dimension 3.3 픽셀 간 거리에 따른 HDC 그래프의 예시............ 14 3.4 사조에 따른 roughness exponent................. 15 3.5 작품에 대한 Multi-dimensional Scaling을 작가별로 나타낸 결과 18 3.6 작가에 대한 Multi-dimensional Scaling 결과.......... 20 iii.............. 13
Chapter 1 Introduction 오늘날 디지털 매체가 발달하면서 예전과는 다른 방식으로 인문학에 접근 하는 디지털 인문학이 주목 받고 있다. 디지털 인문학은 정보기술을 활용하여 인문학의 주제를 연구하고 인문학 지식을 창조적으로 재생산하고자 한다(김현, 2013). 디지털 인문학 연구는 역사, 문학, 미술, 음악 등 다양한 인문학 분야에 걸 쳐 활발하게 전개되고 있다. Thisted and Efron (1987)는 셰익스피어의 문학 작품에 사용된 단어의 빈도를 파악하기 위해서 통계 모형을 설정하고 실제로 저자 논란이 되고 있는 문학 작품이 셰익스피어의 작품인지를 판별하기 위해 모형을 통해 얻은 추정값을 사용했다. 김학용과 김학봉 (2014)은 조선 역사를 객관적으로 이해하기 위해 조선왕조실록 데이터베이스를 이용하여 등장인물 간 네트워크를 구축했으며, 이를 해석하여 조선 역사에 핵심이 되는 인물과 사건을 제시하였다. 이러한 디지털 인문학 연구는 데이터 분석을 통해 일반적인 인문학에서의 연구 성과를 정량적으로 확인하고, 보다 정밀한 해석을 가능하게 한다. 이로써 1
전통적인 인문학 연구에서는 발견할 수 없는 새롭고 중요한 의미를 이끌어 낼 수 있다는 점에서 디지털 인문학 연구는 적극적으로 추진될 가치가 있다. 본 연구는 인문학 중에서도 미술사에 초점을 맞추고 있다. 앞서 Kim at al. (2014)은 물리학적인 관점에서 서양 회화를 분석하여 사조에 따른 사용 색깔의 변화 양상을 살펴본 바 있다. 본 연구에서는 Kim at al. (2014)에서 분석에 사용한 작품들에 약 1만여 점의 작품이 추가된 데이터베이스를 이용 하여 색 분석을 진행하였으며 사조뿐만 아니라 시대와 작가를 작품의 구분 기준으로 포함하여 기준별 특성을 파악하고자 했다. 먼저, 증가한 데이터베 이스를 이용하여 선행연구에서 분석한 rank-ordered color-usage distribution, box-counting dimension, height difference correlation을 구하고 선행연구의 결 과와 비교하였다. 또한 multi-dimensional scaling을 이용하여 2차원과 3차원 공간 상에 색 정보를 시각화하여 살펴보았고, 경험적 베이즈 모형을 이용하여 작가별 미사용 색상의 개수와 비율을 추정했다. 통계적 측면에서 서양 회화 작 품들의 색 정보를 분석함으로써 회화의 특징을 정량적으로 파악하려는 것이 본 연구의 목적이다. 2장에서는 분석에 사용한 데이터를 설명하고 데이터를 생성할 때 사용한 RGB, CIELAB, HSV 색 공간에 대해서 간략하게 설명한다. 3장에서는 분석 에 사용한 방법을 소개하고 그에 따른 분석 결과를 제시한다. 마지막으로 4 장에서는 결론을 내리고 향후 연구 방향에 대해 고찰한다. 2
Chapter 2 Data Description 온라인 데이터베이스 Web Gallery of Art(https://www.wga.hu)로부터 얻 은 18,975개의 디지털 이미지와 각 이미지에 해당하는 작품의 정보를 담은 카탈로그를 분석에 사용했다. Web Gallery of Art는 8세기부터 19세기까지 서양 미술 작품을 온라인 상에 전시하여 홈페이지 방문자들이 자유롭게 관 람하도록 하는 서비스를 제공한다. 중세부터 인상주의까지 총 11개의 사조에 속하는 회화 작품들을 보유하고 있으며 그중에서도 바로크와 르네상스 양식의 작품이 많은 편이다. 11개의 사조를 순차적으로 나열하면 중세, 초기 르네상 스, 북유럽 르네상스, 전성기 르네상스, 매너리즘, 바로크, 로코코, 신고전주의, 낭만주의, 사실주의, 인상주의이다. 온라인 데이터베이스에서 제공하는 디지털 이미지 중에서 분석에 적합한 것, 즉 물감으로 채색된 직사각형 형태의 온전한 것만을 분석 대상으로 선별하 였다. 선별된 18,975점의 회화 작품을 11개의 사조별로 나누었을 때 각 사조에 포함되는 작가의 수와 작품의 수는 Table 2.1과 같다. 카탈로그는 12개의 변수 로 구성되는데 그 중 사조(PERIOD)와 작가(AUTHOR) 변수를 분석에 사용 3
Table 2.1: 자료 내 사조에 따른 작가 수와 작품 수 사조 작가 수 작품 수 Medieval 90 414 Early Renaissance 179 1327 Northern Renaissance 146 1311 High Renaissance 127 1045 Mannerism 209 1435 Baroque 1213 7995 Rococo 255 1270 Neoclassicism 119 419 Romanticism 284 1156 Realism 229 766 Impressionism 180 1837 하였다. 작가에 따른 특징을 분석할 때는 작품 수가 많은 상위 24명의 작가들을 대상으로 했다. 해당 작가들에 대한 정보는 Table 2.2에 정리되어 있다. 디지털 이미지를 구성하는 각 픽셀은 색 공간 안에서 하나의 좌표로 표현된 다. 분석 과정에서 고려한 색 공간은 RGB, CIELAB, HSV 색 공간이다. 이 세 가지 색 공간은 각각 세 개의 성분으로 구성되며, 어떤 색 공간인지에 따라 세 성분 값이 가지는 의미가 달라진다. RGB 색 공간은 빛의 삼원색의 가산 혼합 방식을 바탕으로 만들어진다. RGB 색 공간을 구성하는 각각 R, G, B 성분의 값은 각각 빨강, 초록, 파랑의 밝기에 해당한다. 웹 색상 표현에 사용되는 기본 적인 색 공간이다. CIELAB 색 공간은 색깔 사이의 거리가 인간이 지각하는 색깔의 차이와 비례하도록 설계되었으며 L, A, B 성분으로 구성된다. L 성분 4
순번 작가명 사조 작품수 1 GOGH, Vincent van Impressionism 325 2 RUBENS, Peter Paul Baroque 237 3 REMBRANDT Harmenszoon van Rijn Baroque 234 4 MONET, Claude Impressionism 185 5 TIZIANO Vecellio High Renaissance 178 6 GRECO, El Mannerism 177 7 CRANACH, Lucas the Elder Northern Renaissance 157 8 GAUGUIN, Paul Impressionism 122 9 TINTORETTO Mannerism 120 10 CANALETTO Baroque 113 11 GOYA Y LUCIENTES, Francisco de Romanticism 113 12 HALS, Frans Baroque 109 13 TOULOUSE-LAUTREC, Henri de Impressionism 107 14 POUSSIN, Nicolas Baroque 101 15 CÉZANNE, Paul Impressionism 100 16 RENOIR, Pierre-Auguste Impressionism 95 17 DEGAS, Edgar Impressionism 94 18 VERONESE, Paolo Mannerism 94 19 RAFFAELLO Sanzio High Renaissance 93 20 VELÁZQUEZ, Diego Rodriguez de Silva y Baroque 92 21 DYCK, Sir Anthony van Baroque 88 22 GIOTTO di Bondone Medieval 88 23 BOTTICELLI, Sandro Early Renaissance 87 24 MANET, Edouard Impressionism 87 Table 2.2: 작품수상위 24 명의작가들 5
은 밝기를 결정하며 A 성분은 빨강과 초록, B 성분은 노랑과 파랑과 관련된 색상을 결정한다. 따라서 CIELAB 색 공간을 사용하면 색의 밝기와 색상을 구분하여 분석하고 해석하는 것이 용이하다. HSV 색 공간의 경우 색상을 나 타내는 H, 채도를 나타내는 S, 명도를 나타내는 V 성분으로 이루어진다. 색상 값 H는 가시광선 스펙트럼을 고리모양으로 배치한 색상환에서 가장 파장이 긴 빨강을 0 로 하였을 때 상대적인 배치 각도를 의미한다. 때문에 H 값은 0 부터 360 까지의 범위를 갖고 360 와 0 는 같은 색상 빨강을 가리키며, 120 는 초록, 240 는 파랑 계열의 색을 가리킨다(Sural et al., 2002). 채도 값 S는 특정한 색상의 가장 진한 상태를 100%로 하였을 때 진함의 정도를 나타낸다. 채도 값 0%는 같은 명도의 무채색을 나타낸다. 명도 값 V는 흰색, 빨간색 등을 100%, 검은색을 0%로 하였을 때 밝은 정도를 나타낸다. Figure 2.1은 H, S, V 성분의 상자 그림을 사조별로 나타낸 것이다. 모든 이미지의 크기를 100 100 픽셀로 동일하게 조정한 후 사조에 따라 픽셀별 색 성분값을 모아서 그린다. H 성분을 통해 각 사조에서 사용된 색상의 다양성을 살펴볼 수 있다. 중세 시대에는 비교적 작은 범위의 색상을 선호했으나 르네 상스 시대에 접어들면서 넓은 범위의 색상을 사용하게 되었다고 짐작된다. S 와 V 성분의 분포도 사조에 따라 차이를 보인다. Figure 2.2은 작품 수가 많은 상위 24명의 작가에 대한 H, S, V 성분의 상자 그림이다. 모든 이미지의 크기를 500 500 픽셀로 동일하게 조정한 후 작가에 따라 픽셀별 색 성분값을 모아서 그린 것이다. H 성분에 비해서 S, V 성분 값의 분포에서 작가의 차이가 뚜렷하다. 이에 따라 색 정보를 작가별로 분석할 때 H 성분보다는 S, V 성분이 가지는 의미가 더 클 것으로 생각된다. 6
Figure 2.1: 사조별 H, S, V 성분의상자그림 7
Figure 2.2: 작가별 H, S, V 성분의상자그림 8
Chapter 3 Statistical Models 특정 범주에 속하는 회화의 특징을 수치화하기 위해서 사용할 수 있는 분석 방법은 다양하다. 이 장에서는 분석에 사용한 여러 가지 방법을 소개하고 그에 따른 결과를 제시한다. 분석은 R 소프트웨어를 이용하여 진행하였다. 3.1. Reproduction of Preceding Research 먼저, 대규모의 디지털 이미지를 이용하여 서양 회화의 특징을 측정한 선 행연구 Kim at al. (2014)를 참고하여 분석을 진행하였다. Kim at al. (2014) 는 서양 회화에서 사용된 색깔이 사조에 따라 어떤 변화 양상을 띄는지를 세 가지 측면에 초점을 맞추어 살펴보았는데, 첫 번째는 각 색깔의 사용량(usage) 이고 두 번째는 색깔의 다양성(variety), 세 번째는 이미지 내 밝기의 거칠기 (roughness)이다. 이러한 측면들은 rank-ordered color-usage distribution, boxcounting dimension, height difference correlation 등의 측도를 통해서 사조별 9
로 측정되었다. 선행연구는 온라인 데이터베이스 Web Gallery of Art로부터 얻은 8,798개의 디지털 이미지를 분석에 사용하였으며 본 연구는 선행연구 에서 사용한 이미지에 1만여 개의 이미지가 추가된 데이터를 사용했다. 보다 확장된 데이터에 선행연구에서의 분석 방법을 적용하고 그 결과를 선행연구의 결과와 비교하였다. 3.1.1. Rank-ordered Color-usage Distribution 사조별, 작가별로 사용된 색의 종류가 얼마나 다양한지와 특정 색이 얼마나 자주 사용되었는지를 살펴보기 위해서 rank-ordered color-usage distribution (RCD)를 이용한다. 먼저 사조별로 작품을 분류하고 해상도가 모두 같도록 크기를 재조정한 뒤에 각 픽셀의 색깔 정보를 모은다. RGB 색 공간을 사용했으며 가능한 모든 색깔의 종류는 2563 개다. 사조에 따라 각각의 색깔이 사용된 비율 계산한 후 비율이 높은 순서대로 나열하여 RCD를 그린다. 가로축과 세로축에 모두 로그 스케일을 적용하면 Figure 3.1를 얻게 된다. 이는 Kim at al. (2014)에서의 결과와 비슷하다. 중세 미술(Medieval)의 가운데 부분이 다른 그래프보다 아 래쪽에 그려지는 것으로 보아 다른 사조에 비해 다양한 색상을 고루 사용하지 않고 특정 색상 위주로 많이 사용했다고 해석할 수 있다. 한편 중세 미술을 제외한 사조들 사이에는 그래프 상 별 차이가 없기 때문에 사용된 색의 종류나 사용 빈도를 통해서 사조를 구별하기는 어렵다. 마찬가지로 작품 수가 많은 상위 24명의 작가들을 기준으로 작품을 분류하여 RCD를 그리는 경우, 중세 시대에 속하는 작가 한 명을 제외하고는 작가들 사이에 별다른 차이가 없었다. 10
Figure 3.1: 11개 사조의 RCD 그림 3.1.2. Box-counting Dimension 미술 작품에 사용된 색깔의 다양성에 초점을 맞추어 사조를 특징 지을 수 있는 지표로써 box-counting dimension을 사용할 수 있다. RGB 색 공간을 한 변의 길이가 ε인 상자들로 분할하면 (256/ε)3 개의 상자를 얻게 된다. 각 상자는 위치에 따라서 포함하는 색의 범위가 달라지며, 상자의 한 변의 길이가 길어질 수록 하나의 상자 안에 포함되는 색의 범위가 커진다. 어떤 상자가 포함하는 범위의 색이 작품에서 한 번도 사용되지 않았을 경우에 해당 상자가 비어있 다고 표현하고, 그와 반대로 한 번이라도 사용된 색을 포함하고 있는 상자를 비어있지 않은 상자라고 한다. ε의 값에 따라 전체 상자들 중에서 비어있지 11
않은 상자의 개수를 N (ε)이라고 하면 box-counting dimension은 다음과 같이 정의된다(Kim at al., 2014). dbox (ε) := limε 0 logn (ε) log(ε) (3.1) Box-counting dimension은 사용된 색들이 색 공간 상에 얼마나 균등하게 분포하고 있는지를 나타낸다. RGB 색 공간에서 색이 균일하게(homogeneous) 분포할 경우에 box-counting dimension의 값은 3이 되고, 이 값이 3보다 작을 수록 사용된 색이 색 공간 상에 불균일(heterogeneous)하게 분포하며 특정한 색 배합이 작품에 사용되었다는 것을 의미한다(Kim at al., 2014). 실제로는 ε값으로 32, 16, 8, 4, 2, 1을 사용하여 N (ε)을 구하고 ε과 N (ε) 에 로그를 취한 뒤 회귀분석으로 얻은 기울기를 box-counting dimension으로 간주하여 분석했다. Box-counting dimension을 측정하기 위한 데이터로는 11 개 사조에서 사용된 색의 RGB 정보를 이용했다. 분석 결과 Figure 3.2을 얻 는다. 네모 모양의 점이 box-counting dimension이고 점 주변의 세로 막대는 표준오차를 나타낸다. 선행연구에서는 중세 시대(Medieval)의 box-counting dimension이 2.4 이 하이고 이를 제외한 나머지 사조에서의 값이 2.6에서 2.8 사이로 비슷했다. 이에 따라 선행연구는 중세 시대에 적은 범위의 색을 사용했다고 판단하고 이러한 현상은 역사적 배경으로 인한 것이라고 결론 내렸다. 그러나 본 연구에 서는 모든 사조에서의 box-counting dimension이 크게 차이 나지 않는다. 즉 사조가 변함에 따라 사용된 색깔의 다양성에 큰 차이가 없으며 이를 기준으 로 사조에 따른 특징을 찾아내는 것은 어렵다. 분석에 사용한 작품 수가 약 1 만여 점이 증가하면서 선행연구에 비해 표본이 편향된 정도가 감소한 것으로 생각된다. 12
Figure 3.2: 사조에 따른 box-counting dimension 3.1.3. Height Difference Correlation 작품 내에서 사용된 색들 사이의 공간적인 연관성을 살펴봄으로써 회화 작품의 범주별 특징을 파악할 수 있다. 이와 관련된 지표로는 height difference correlation(hdc)와 roughness exponent α가 있다. 이 지표들은 이미지 내 픽셀들의 색 정보와 그것들의 공간적인 배열을 고려하여 밝기 대조의 정도를 측정한다. 픽셀 사이의 공간적인 상관관계를 나타내는 HDC는 다음과 같이 정의된다(Kim at al., 2014). G(r) = [h(~x + ~r) h(~x)]2 = 1 Σ~x, ~r =r [h(~x + ~r) h(~x)]2 Nr (3.2) 여기서 r은 두 픽셀 사이의 거리, Nr 은 r만큼 떨어져 있는 픽셀 쌍의 개수, 13
h(x)는 x 지점에서의 높이를 나타내며, x 지점에 있는 픽셀의 밝기를 그 지점 의 높이로 해석한다. 픽셀의 밝기는 RGB 색 정보를 그레이 스케일로 변형한 값으로써 R, G, B 성분의 값을 다음 식에 대입하여 구한다. Igray scale = 0.3008 R + 0.5898 G + 0.1094 B (3.3) 이때, HDC의 정의 (3.2)가 공간통계학에서 pair correlation function의 정의와 유사하다는 것을 알 수 있다. Roughness exponent α는 HDC 곡선의 기울기로 대조 효과에 따른 평균 밝기 차이를 의미한다(Kim at al., 2014). Figure 3.3은 중세 시대 화가 Taddeo Gaddi의 St John the Evangelist Drinking from the Poisoned Cup 라는 제목 의 작품에 대해서 r에 따른 G(r) 그래프를 그린 것이다. r이 커짐에 따라 G(r) 값이 증가하는 경향이 있다. 가로축과 세로축에 모두 로그 스케일을 적용했으 며, 이 그래프를 이용하여 α값을 계산하면 0.242를 얻게 된다. Figure 3.3: 픽셀 간 거리에 따른 HDC 그래프의 예시 14
색깔이 랜덤하게 분포하는 작품의 경우 픽셀 간 거리에 따른 HDC값에 큰 변화가 없기 때문에 α는 0에 가까운 값을 가진다. 그 예로 잭슨 폴록(Jackson Pollok)이 드립페인팅으로 그린 작품을 들 수 있다. 잭슨 폴록은 20세기 추 상표현주의 작가로, 그가 창조한 드립페인팅은 붓을 이용하지 않고 물감을 캔버스에 떨어뜨리는 회화 양식이다(Emmerling, 2003). Figure 3.4은 사조별 α값의 평균값과 잭슨 폴록의 드립페인팅 작품의 α 값을 나타낸 그림이다. 사조에 따른 α값의 변화 양상은 선행연구의 결과와 거의 일치한다. 이러한 변화양상은 회화 기법의 발전과 회화 장르의 다양화가 반영된 것이라고 선행연구는 해석하고 있다. 한편, 본 연구에서 구한 α값들 은 선행연구보다 큰 수치를 가진다. 계산 속도를 고려하여 이미지 사전 처리 과정에서 모든 이미지의 한 변의 길이를 1/30로 축소한 것이 이러한 차이를 발생시킨 것으로 보인다. Figure 3.4: 사조에 따른 roughness exponent 15
3.2. Proposed Methods 본 연구에서는 서양 회화를 분석하기 위한 두 가지 방법을 제안하였다. Multi-dimensional scaling과 missing mass estimation은 지금까지 여러 데이 터를 통계적으로 분석하는데 사용되어 왔다. 이 방법들을 우리가 가진 이미지 데이터 분석에 적용한다면 서양 회화의 특징을 찾아내고자 하는 본 연구의 목적에 도움이 되는 결과를 얻을 수 있을 것이다. 3.2.1. Multi-dimensional Scaling 이미지 간의 유사도를 시각화하기 위해 multi-dimensional scaling (MDS) 을 시행한다. 색 공간에 총 p가지 종류의 색이 존재한다고 하면 하나의 이미 지를 p차원 벡터로 나타낼 수 있다. 벡터의 i번째 원소의 값은 이미지 내에서 i번째 색이 사용된 비율로 설정한다. 이를 통해 각 이미지를 p차원 다항분포 로 생각할 수 있다. 이미지의 총 개수가 n일 때, 모든 이미지를 이용하여 n 개의 p차원 벡터를 얻고 이들 간의 거리를 구한다. 벡터 간의 거리는 해당 벡터들이 가리키는 이미지들이 얼마나 유사한지를 정량적으로 나타내며, 거 리가 가까울수록 해당 이미지들이 유사한 것으로 본다. 이미지 간의 거리를 얻기 위해서는 Bhattacharyya distance를 사용한다. Bhattacharyya distance 는 확률분포 간의 거리를 측정하는데 사용되는 것으로 임의의 두 확률분포 a = (a1,..., ap )와 b = (b1,..., bp ) 사이의 Bhattacharyya distance는 다음과 같이 정의된다(Bhattacharyya, 1943). 16
p X p Db (a, b) = log ai b i! (3.4) i (3.4)를 계산하여 얻은 벡터 간의 거리 정보를 반영하여 벡터들을 저차원 공간에 표시하면 특정 범주에 속하는 이미지들이 어떤 경향성을 가지고 분 포하는지 살펴보는 것이 가능하다. n n 거리 행렬을 D = (dij )라고 두고, Mardia (1978)에서 제시된 Theorem 1.1을 토대로 MDS를 시행한다. Figure 3.5은 모든 이미지 내 픽셀의 V성분만을 고려하여 MDS를 한 결과 이다. HSV 색 공간에서 V성분이 256개의 값을 가진다고 설정하고 이미지의 픽셀별 V 성분을 [0, 255]에 포함되는 정수값으로 변환하였다. 그 다음 i번째 원소의 값이 i번째 색이 사용된 비율이 되도록 하여 각 이미지를 256차원의 벡터로 나타냈다. 이들을 이용하여 Table 2.2에 해당하는 작가들의 모든 작품 들에 대해서 2차원과 3차원 공간에 MDS를 시행했다. Figure 3.5은 작가들에 대한 2차원 MDS 결과를 상위 6명의 작가별로 나타낸 것이다. 모네와 램브란트 의 경우 점이 찍히는 위치가 x = 0 직선을 기준으로 서로 반대인 경향이 있다. 두 작가가 사용한 색의 차이를 V성분과 관련하여 설명할 수 있을 것이다. 실 제로 램브란트는 모네와 다르게 어두운 색을 많이 사용한 편이므로 가로축의 값이 커질수록 작품에 사용된 색 가운데 어두운 색의 비중이 높다고 추측할 수 있다. 또다른 방식으로 MDS를 진행해 볼 수 있다. 두 범주에 속하는 작품들 간의 거리를 구한 뒤 linkage를 이용하여 범주 간의 거리를 구한다. Bhattacharyya distance의 정의상 직교 관계에 있는 두 이미지 사이의 거리는 발산한다는 점 을 고려하여 single linkage와 median linkage를 사용했다. 두 linkage는 각각 17
Figure 3.5: 작품에대한 Multi-dimensional Scaling 을작가별로나타낸결과 18
다음과 같이 정의한다. ds (G, H) = ming G,h H d(g, h) (3.5) dm (G, H) = median{d(g, h) : g G, h H} (3.6) (3.5) 또는 (3.6)으로 구한 범주 간 거리 정보를 이용하여 MDS를 진행한다. 범주의 기준을 작가로 두면, MDS 공간에는 작가 수만큼의 점이 찍히게 된다. 이 점들이 각 작가를 대표하는 점이라고 생각하면 작가 간의 관계를 보다 직 관적으로 살펴볼 수 있다. Figure 3.6은 V성분 정보와 median linkage를 이용해서 작가에 대한 MDS 를 시행한 결과이다. 가로축이 작품 간의 관련성을 잘 나타낸다고 보고 살 펴보면 MDS 공간 상의 점들의 위치가 Figure 2.2에서의 결과와 상응한다. 가로축의 값이 커질수록 작품에 사용된 색 가운데 어두운 색의 비중이 낮은 것으로 보인다. 추가적으로 HSV 색 공간의 H, S성분을 고려하여 MDS를 진행한 결과, H성 분의 경우 작가별 차이가 별로 나타나지 않았고 S성분은 V성분과 마찬가지로 작가 간의 차이가 어느 정도 있었다. 이 외에 CIELAB 색 공간을 이용하거나 사조를 기준으로 하여 MDS를 시행했으나 범주 간의 뚜렷한 차이를 관찰할 수 없었다. 19
Figure 3.6: 작가에 대한 Multi-dimensional Scaling 결과 3.2.2. Missing Mass Estimation 데이터베이스에 있는 모네의 작품 100개를 임의로 추출하고 픽셀별 H, S, V 성분 정보를 통해 모네가 작품에서 사용한 색깔의 수를 조사하였다. Table 3.1을 보면 모네의 작품에서 1번 사용된 색은 343,209가지이고 2번 사용된 색은 198,827가지이다. 사용된 색의 총 빈도는 122,165,630이고, 사용된 색의 종류는 총 2,805,467가지다. 색을 사용한 횟수가 100번 이상인 경우는 표에 포함시키지 않았다. 여기서 모네의 또다른 작품이 주어졌을 때, 앞선 100개의 작품에서는 사 용되지 않았던 종류의 색이 얼마나 새로 발견될지 추측해 보고자 한다. R. A. 20
1 2 3 4 5 0+ 343209 198827 144381 116099 10+ 51250 48065 44179 20+ 26675 25301 30+ 18304 40+ 6 7 8 9 10 97246 84968 75220 67746 61729 55882 41278 38310 35968 33859 32247 30056 28456 24400 23383 22606 21642 21182 20301 19334 18800 17892 17442 16867 16487 15799 15742 15367 14965 14394 14059 13606 13597 13236 13096 12535 12652 12078 11814 11592 50+ 11347 11093 10790 10469 10589 10132 10033 9759 9483 9160 60+ 9038 8715 8638 8514 8357 8010 7868 7665 7634 7295 70+ 7246 7149 6811 6673 6587 6582 6385 6287 6164 5933 80+ 5907 5764 5716 5591 5539 5318 5125 5206 5075 4892 90+ 4770 4598 4715 4543 4379 4341 4226 4134 4119 4102 Table 3.1: 모네의 색상 사용 횟수에 따른 도수 Fisher가 missing-species problem을 다룰 때 제안한 방법에 착안하여 작가별 미사용 색깔의 숫자와 비율을 추정하기 위한 분석을 진행하였다. 어떤 작가의 작품이 N 개 있다고 하자. i번째 작품 이미지를 구성하는 픽셀 수를 ni 라 하고, N 개의 이미지를 구성하는 픽셀의 총 개수를 n = ΣN i=1 ni 라고 하면 n은 작가가 작품을 그릴 때 사용한 색의 총 도수와 같다. n개의 픽셀 중 에서 k번째 종류의 색이 사용된 횟수를 xk 라고 하자. 다음과 같이 xk 는 모수가 θk 인 포아송 분포를 따른다고 가정한다. xk Poi(θk ), k = 1, 2,, S. (3.7) S는 사용 가능한 모든 색의 가짓수이다. 또한 각 종류의 색이 사용된 횟수를 세고, x번 사용된 색 종류의 개수가 yx 가 되도록 다음을 정의한다. yx = #{xk = x}, x = 1, 2,, max{xk }. (3.8) 이제, 작가가 그린 작품이 추가적으로 발견된 경우에 그 작품에서 사용된 21
색깔의 총 도수를 n t이라고 하자. 이때 xk (t)를 k번째 종류의 색이 사용된 횟수라고 두고 (3.9)을 가정한다. 이는 Fisher가 missing-species problem 을 다룰 때 사용한 가정과 동일하다(Efron and Hastie, 2017). xk (t) Poi(θk t), independently of xk. (3.9) 이에 따라 k번째 종류의 색이 처음 N 개의 작품들에서는 사용되지 않으나 새 로운 작품에서 사용될 확률을 구할 수 있으며, 새 작품에서 발견되는 새로운 색깔 종류의 수의 기댓값은 E(t) = ΣSk=1 e θk 1 e θk t 이 된다. 이것을 편의상 다음과 같이 나타낸다. Z E(t) = S e θ 1 e θt g(θ)dθ. (3.10) (3.11) 0 여기서 g(θ)은 θ의 prior 함수이다. 이를 정리하면 다음의 식을 얻는다(Efron and Hastie, 2017). E(t) = e1 t e2 t2 + e3 t3. (3.12) yx 의 기대값은 ex 와 같다. (3.12)에서 ex 대신에 yx 을 대입하여 E(t)를 다음과 같이 추정한다. 단, t < 1이다. b = y1 t y2 t2 + y3 t3. E(t) (3.13) b xk 가 서로 독립이라고 가정하면 E(t)의 표준오차의 근사치를 다음과 같이 구할 수 있다. 1/2 max{x } b sd(t) = Σx=1 k yx t2x 22 (3.14)
한편, 다음과 같은 통계량을 생각해 볼 수 있다. M = Σunseen θk /Σall θk. (3.15) 이 통계량의 값이 크면 추가적인 작품에서 새로운 색상이 발견될 가능성이 높을 것이다. (3.15)에서 분자와 분모의 기대값은 다음과 같이 정리된다. Z θk θe θ g(θ)dθ = e1 (3.16) =S Σall θk e 0 Σall θk = Σall E(xs ) = E (Σall xs ) = E(N ). (3.17) 따라서 missing estimation M 을 다음과 같이 추정한다. c = y1 /N. M (3.18) 이와 같은 추정치들을 작가별로 구하고 비교해 볼 수 있다. 앞에서 살펴 본 모네를 대상으로 하여 추정치를 구해보았다. 먼저 (3.18)을 이용하여 M 을 추정하면 c = 343, 209/122, 165, 630 = 0.0028 M (3.19) 이다. 이미 모네가 알고 있는 색을 대부분 관찰했다고 볼 수 있다. 또한 앞서 살펴 본 100개의 작품을 제외하고 모네의 작품 1점을 임의로 추출하였다. 새로 추출된 작품에서 색을 사용한 총 횟수는 1,081,800이므로 t = 1, 081, 800/122, 165, 630 = 0.0089 (3.20) 이고, (3.13)와 (3.14)를 이용하면 b = 3023.69 E(t) (3.21) b sd(t) = 5.188 (3.22) 를 얻는다. 실제로 임의로 추출된 1점의 작품에서 새로 발견된 종류의 색은 3,048가지로 (3.22)의 결과와 거의 일치한다. 23
Chapter 4 Conclusion 서양 회화 작품의 사조별 또는 작가별 특징을 정량적으로 파악하기 위해 다양한 방법을 이용해보았다. 먼저 선행연구인 Kim at al. (2014)에서 사용 한 방법을 확장된 데이터에 적용하여 그 결과를 선행연구와 비교해보았다. Rank-ordered color-usage distribution와 height difference correlation의 결과 는 선행연구와 비슷했다. 중세 미술의 RCD 그래프가 다른 사조의 그래프보다 아래쪽에 그려지는 것으로 보아 비교적 좁은 범위의 색상을 선호하여 사용했을 것이라고 짐작되며, roughness exponent의 값이 사조가 흐름에 따라 증가하는 것은 회화 기법의 발전과 장르의 다양화가 반영된 결과라고 해석할 수 있다. 선행연구와의 차이점은 모든 사조에서의 box-counting dimension이 비슷하다 는 것이다. 선행연구가 분석에 사용한 데이터는 본 연구보다 1만여 점이 적은 디지털 이미지를 가지고 있다는 점에서, 선행연구는 본 연구보다 편향된 표본 으로 연구를 진행했을 것이라 생각된다. 본 연구에서는 선행연구에서 사용한 방법 외에 두 가지 분석 방법을 제안하였다. Multi-dimensional scaling의 경우 이미지 간의 유사성을 시각적으로 살펴보는데 유용한 방법으로, MDS 공간 상 24
에 사조별 또는 작가별 작품들이 어떤 특징을 가지고 분포하는지 알아보았다. 모든 범주별로 분포가 뚜렷하게 구분되지는 않았지만 HSV 색 공간의 S 또는 V 성분에 대해 MDS를 했을 때 몇몇 범주에 따라 차이가 존재하는 것을 엿볼 수 있었다. 또한 missing mass 추정을 통해서 작가가 알고 있으나 사용하지 않은 색상의 수를 추정하는 방법을 소개하고 분석 예시를 살펴보았다. 본 연구의 한계점은 수백 년 전에 그려진 회화 작품의 색이 그대로 보존되 기 어렵다는 것이다. 또한 Web Gallery of Art에 있는 이미지들은 실제 작품을 사진으로 찍은 것이기 때문에 주변 조명의 영향을 받아 실제 색깔이 그대로 데이터에 반영되지 않았을 가능성이 있다. 색의 왜곡 문제를 해결할 수 있는 방법을 적용했다면 더욱 정확한 분석이 가능할 것이다. 직사각형 형태가 아닌 그림을 제외하고 분석한 것도 본 연구의 한계점이다. 직사각형이 아닌 곡선 형태의 작품에 쓰인 색깔은 무시하고 분석을 진행했기 때문에 분석 결과가 실제 색상적인 특징을 온전히 나타내지 못할 수 있다. 다양한 형태의 이미지를 분석하기 위한 방법이 요구된다. 본 연구에서는 색의 특징을 파악함에 있어서 사조와 작가를 기준으로 분석 을 진행하였다. 그러나 지역, 학파, 장르, 재료 등의 정보를 추가적으로 고려한 다면 보다 정밀한 결과를 얻을 것이다. 현재 Web Gallery of Art에서 이러한 정보를 제공하고 있지만 분석에 사용할 만큼 정리가 잘 되어있지 않다. 미술사 적인 지식을 배경으로 지역성, 장르, 재료 등이 가지는 값을 제대로 분류하는 작업이 선행되어야 한다. 또한 작가별로 색깔의 특징을 분석할 때, 작가 한 명의 그림 양식이 변하는 경우를 고려하지 못했다. 작가들이 속하는 사조를 재분류하는 일은 매우 복잡한 작업이지만 향후 연구에서는 이 문제를 충분히 고려해야 할 것이다. 마지막으로, 색 설정을 다르게 해 볼 수 있다. 예를 들어 본 연구에서는 HSV 색 공간에서 각 H, S, V 성분의 값을 모두 고려하여 하 나의 색을 결정하였다. 그러나 V 성분 값의 범위를 [0, 1]로 설정했을 때, 어떤 25
색의 V 성분 값이 [0, 0.2)에 속하면 다른 성분 값에 상관 없이 해당 색은 검 정색으로 여겨지게 된다(Lei et al., 1999). 색깔을 단순히 수치적으로 다루지 않고 인식적인 측면을 고려하여 색 분류를 정비한다면 보다 효율적인 분석이 이루어질 수 있을 것이다. 본 연구의 분석 결과를 참고하여 앞으로의 연구에서 더욱 개선된 결과를 얻기를 기대한다. 26
Bibliography 김학용과 김학봉. (2014). 조선왕조실록 네트워크의 동적 변화 분석. 한국콘텐 츠학회논문지, 14(9), 529-537. 김현. (2013). 디지털 인문학: 인문학과 문화콘텐츠의 상생 구도에 관한 구상. 인문콘텐츠, 29, 9-26. Bhattacharyya, A. (1943). On a measure of divergence between two statistical populations defined by their probability distributions. Bulletin of the Calcutta Mathematical Society., 35, 99 109. DasGupta, A. (2009). Exact Tail Probabilities and Percentiles of the Multinomial Maximum. technical report. Purdue University. Efron, B., and Hastie, T. J. (2017). Computer age statistical inference: algorithms, evidence, and data science. New York: Cambridge University Press. Emmerling, L. (2003) Jackson Pollock. Taschen. Kim, D., Son, S., and Jeong, H. (2014). Large-Scale Quantitative Analysis of Painting Arts. Scientific Reports, 4(1). 27
Lei, Z., Fuzong, L., and Bo, Z. (1999). A CBIR method based on color-spatial feature. Proceedings of IEEE. IEEE Region 10 Conference. TENCON 99. Multimedia Technology for Asia-Pacific Information Infrastructure (Cat. No.99CH37030). Mardia, K. (1978). Some properties of clasical multi-dimesional scaling. Communications in Statistics - Theory and Methods, 7(13), 1233-1241. Smith, A. R. (1978). Color gamut transform pairs. ACM SIGGRAPH Computer Graphics, 12(3), 12-19. Sural, S., Qian, G., and Pramanik, S. (2002). Segmentation and histogram generation using the HSV color space for image retrieval. Proceedings. International Conference on Image Processing. Thisted, R., and Efron, B. (1987). Did Shakespeare Write a Newly-Discovered Poem? Biometrika, 74(3), 445. 28
Abstract Seunghyun Kwon The Department of Statistics The Graduate School Seoul National University In the western painting art between Middle Ages and 19th century, color features of paintings distinguished by periods and painters have been visually perceived. With the advent of digital humanities, it has become possible to identify features of the periods quantitatively. A large number of painting are stored as digital images and the color information of each pixel constituting a digital images can be expressed in color space coordinates such as RGB and HSV. In this thesis, we analyze the color frequency of digitalized painting images by periods and artists via various statistical models. The goal of this research is to present quantitative evidence to support the commonly agreed facts by analyzing color features in the western painting art history. Keywords : Western painting, Digital humanities, Rank-ordered color-usage distribution, Box-counting dimension, Height difference correlation, Multidimensional scaling, Missing mass estimation. Student Number : 2016-20259