37~51쪽 제24호(2015.11) 고고학 유적에서 출토된 대규모 인골집단의 성, 연령 추정결과에 대한 신뢰도 검증 목차 우은진* 정양승** Ⅰ. 서론 Ⅱ. 연구 자료와 연구 방법 1. 연구 자료 2. 성과 연령 추정 3. 추정 결과의 신뢰도 평가 Ⅲ. 연구 결과 1. 성과 연령 추정결과 2. 성 추정결과의 일관성 정도 평가 3. 연령 추정결과의 일관성 정도 평가 Ⅳ. 결론 및 고찰 * 연세대학교 치과대학 구강생물학교실 해부 및 발생생물학과, BK21 플러스 통합구강생명과학 사업단 ** 미국방성 전쟁포로 및 실종자 확인국 연구소 이 논문은 2012년도 정부(교육과학기술부)의 재원으로 한국연구재단의 지원을 고고학 받아 수행된 유적에서 연구임(NRF-2012S1A5B4A01035713). 출토된 대규모 인골집단의 성, 연령 추정결과에 대한 신뢰도 검증 37
국문초록 인골의 성과 연령은 개체의 가장 기본적인 생물학적 속성으로 개체나 집단 차원의 다양한 지표들을 해석하고 과거 사회의 인구학적 구성과 사망률 패턴을 복원하는 데 필 수적인 정보가 된다. 따라서 체질인류학적 연구에서 성과 연령 추정은 무엇보다 중요 하다. 그러나 고고학유적에서 발굴된 인골처럼, 개체의 성과 연령을 확실히 알 수 없는 경우에는 한 연구자가 일정한 시간 간격을 두고 여러 차례 분석한 후 그 결과들 간의 일 관성을 평가하거나, 여러 명의 연구자가 무작위로 혹은 전체의 표본을 재분석한 후 추 정결과들 간의 일치 정도를 통해 분석 결과를 얼마나 신뢰할 수 있을지 평가하는 절차 가 반드시 필요하다. 이 연구의 목적은 고고학유적에서 발굴된 대규모 인골집단을 대상 으로 체질인류학적으로 표준화된 방법에 따라 성과 연령을 추정하고 그 결과를 어느 정 도 신뢰할 수 있을지 통계적으로 평가하는 데 있다. 연구는 삼국시대 임당유적에서 출토된 인골집단 259개체를 대상으로 하였다. 성과 연령은 체질인류학적으로 정형화된 기준을 이용하여 이 논문의 제1저자와 제2저자가 분석하였고 최종 성과 연령은 제1저자의 판정을 토대로 하였다. 성 추정 결과의 연구자 내, 연구자 간 일관성 정도는 각각 Fleiss kappa 테스트와 Cohen's kappa 테스 트를 실시하여 평가하였다. 연령 추정 결과의 연구자 내 일관성 정도는 Cronbach's alpha 테스트를 이용하여 평가하였으며 연구자 간 일관성 정도는 Intraclass correlation coefficient(icc)를 이용하여 평가하였다. 연구결과, 개체의 성에 대하여 제1저자가 세 차례 분석한 결과들은 높은 수준의 일 관성을 보였다. 성별 추정에 대한 연구자 간 분석 결과 역시 높은 수준의 일관성을 보 였다. 연령 추정결과에 대한 연구자 내 일관성 정도는 아주 높은 수준으로 평가 되었으 며 연령 추정에 대한 두 연구자 간 분석 결과는 높은 수준의 일관성을 보였다. 향후의 연구에서도 인골의 성과 연령은 한 연구자 혹은 한 명 이상의 연구자가 교차 분석하는 과정이 반드시 필요하며 추정 결과를 해석할 때에는 항상 추정 오류의 가능성 을 염두에 두어야 한다. 또한 대규모로 출토된 인골집단의 경우 추정 결과를 얼마나 신 뢰할 수 있는지에 대한 통계적 검증과정도 이루어져야 하겠다. 주제어 : 성 추정, 연령 추정, 연구자 내 오류, 연구자 간 오류, 신뢰도 38 제24호
Ⅰ. 서론 인골의 성과 연령은 개체의 가장 기본적인 생물학적 속성으로 개체나 집단 차원의 다 양한 지표들을 해석하고 과거 사회의 인구학적 구성과 사망률 패턴을 복원하는 데 필수 적인 정보이다. 뿐만 아니라, 고고학 유적에서 발굴된 인골의 성, 연령 정보는 무덤 구조, 부장품 양상과 같은 매장고고학적 요소와의 관계를 통해서 특정한 매장 관습이 특정 성, 연령 집단과 어떻게 연관되어 있는지를 고고학적 맥락 속에서 유추하는 데도 중요하다 (Mays 2010). 이러한 이유 때문에 체질인류학적 연구에서 성과 연령 추정은 무엇보다 중 요하며 이와 관련하여, 오늘날까지 수많은 방법론들이 개발되고 적용되어 왔다. 고고학 유적에서 발굴된 인골의 성과 연령을 실제로 알 수 있는 방법은 거의 없기 때문 에 이를 연구대상으로 삼는 연구자는 인골의 성과 연령을 추정(estimation) 할 수밖에 없 다. 다만, 예외적으로 인골에 남아있는 DNA를 이용하여 성염색체에 분포된 아멜로제닌 유전자(amelogenin gene)를 이용하는 경우에는 고고학 유적에서 출토된 인골이라 할지 라도 성을 확정(determination) 지을 수 있다. 실제 성과 연령을 알 수 있다면, 실제 정보 와 연구자의 추정결과 간에 정확성(accuracy) 혹은 유효성(validity)을 테스트할 수 있겠지 만 고고학 유적에서 발굴된 거의 모든 인골은 실제 성과 연령을 알 수 없기 때문에 이러 한 테스트 자체가 불가능하다. 따라서 고고학유적에서 발굴된 인골처럼, 실제 성과 연령 을 확정할 수 없는 연구자료는 한 연구자가 일정한 시간 간격을 두고 2-3회에 걸쳐 분석 한 후 그 결과들 간의 일관성(consistency)을 평가하거나 제2, 제3의 연구자가 무작위로 전 체 혹은 일부의 개체들을 재분석한 후 추정결과들 간의 일치 정도를 바탕으로 분석 결과 를 얼마나 신뢰할 수 있을지 평가해 볼 수 있다(Meindl, et al. 1990; Walrath, et al. 2004). 즉 분석결과의 신뢰 여부를 결정하는데 있어 연구자 내, 연구자 간 추정결과 사이의 일치 정도가 무엇보다 중요하다. 분석 시, 이러한 과정을 수행하기 위해서는 가장 먼저, 인골 분석의 경험이 풍부한 연구자가 필요하다. 또 한 명 혹은 그 이상의 연구자가 추정한 결 과들 간의 관계를 평가하기 위해서는 적절한 통계적 검증이 이루어져야 한다. 그러나 지금까지 국내 고고학 유적에서 발굴된 인골집단을 대상으로 한 연구에서는 인 골의 성과 연령 추정이 여러 연구자에 의해 교차 검증되고 그 결과들 간의 신뢰도를 평가 하는 과정이 다소 소홀하게 다루어져 왔다. 인골의 성과 연령은 체질인류학, 법의인류학 분야뿐 아니라, 타 분야의 연구에서도 중요한 기초 정보이기 때문에 분석결과의 신뢰도 를 표준화된 절차에 따라 평가하는 과정이 무엇보다 중요하다. 이 논문에서는 대규모로 인골집단이라고 할 만한 경산 임당유적 출토 집단의 성, 연령 추정 결과를 바탕으로 연구 자 내, 연구자 간 추정 결과의 일치 정도를 평가하였다. 이 연구의 목적은 고고학유적에 고고학 유적에서 출토된 대규모 인골집단의 성, 연령 추정결과에 대한 신뢰도 검증 39
서 발굴된 대규모 인골집단을 대상으로 체질인류학적으로 표준화된 방법에 따라 성과 연 령을 추정하고 그 결과를 어느 정도 신뢰할 수 있을지 통계적으로 평가하는 데 있다. 궁 극적으로 이러한 절차를 참고로 향후 국내 고고학 유적에서 발굴된 인골집단의 성과 연 령을 분석하는 절차가 보다 정형화된 방법과 절차에 따라 진행되기를 기대한다. Ⅱ. 연구 자료와 연구 방법 1. 연구 자료 이 연구는 경상북도 경산시에 위치하고 있는 삼국시대 임당유적에서 출토된 인골집단 을 대상으로 하였다. 경산 임당유적은 1982년에 처음 발굴 조사되어 영남대학교 박물관, 영남매장문화재연구원, 한국문화재보호재단에 의해 발굴되었다. 연구에서는 1982년, 88 년, 89년 세 차례에 걸쳐 영남대학교 박물관이 발굴하고 현재 동대학교 박물관에 소장되 어 있는 임당동과 조영동 고분군에서 출토된 인골자료 259개체를 이용하였다. 2. 성과 연령 추정 이 연구를 위해 임당유적 출토 인골 259개체의 성과 연령을 체질인류학 분야의 정형화 된 기준을 이용하여 분석하였다. 제1저자가 약 삼 개월의 간격을 두고 성은 233개체, 연 령은 122개체를 세 차례에 걸쳐 추정하였다. 한편 제2저자는 무작위적인 표본 추출을 통 해 성과 연령에 대해 한 차례 교차 검증을 실시하였다. 이 논문의 제 1, 2저자는 수년 동 안 한반도의 고고학 유적에서 발굴된 인골들은 물론 한국전쟁 전사자, 과거사 진상규명 과 관련된 민간인 희생자들의 인골을 발굴 및 분석한 경험이 풍부하기 때문에 이러한 경 험을 토대로 임당유적 출토 인골의 성과 연령을 추정하였다. 개체의 최종 성과 연령은 인 골 분석 경험이 더 풍부한 제1저자가 분석한 결과들을 토대로 하였다. 개체의 성은 볼기뼈(innominate)가 남아있을 때는 볼기뼈를 기준으로(Bruzek 2002), 볼 기뼈가 없을 때는 머리뼈(Ingerslev and Solow 1975; Rogers 2005)와 팔다리뼈대를 기준으 로, 볼기뼈와 머리뼈가 모두 없을 때는 팔다리뼈대의 특징(Bass 1997)을 기준으로 추정 하였다. 성별이 추정된 전체 개체들 가운데 25%에 해당하는 개체는 볼기뼈의 형태적 특 징을 통해서 성을 추정하였고 32%의 개체는 아래턱을 포함한 머리뼈의 특징으로, 21.5% 의 개체는 팔다리뼈대의 강건한 정도로 성을 추정하였다. 이외 나머지 21.5%의 개체는 머리뼈와 팔다리뼈대의 특징을 함께 이용하여 성을 추정하였다. 성은 1) 남성, 2) 남성적 40 제24호
(probable male), 3) 여성, 4) 여성적(probable female), 5) 추정 불가(indeterminate)의 5개 범 주로 구분하여 추정하였다. 개체의 연령은 머리봉합(cranial suture)의 닫힌 정도(Meindl and Lovejoy 1985), 볼기뼈 두 덩결합면(pubic symphyseal surface)의 퇴행성 변화(Brooks and Suchey 1990), 볼기뼈 귓바퀴 면(auricular surface)의 변화(Lovejoy, et al. 1985; Buckberry and Chamberlain 2002), 치아 씹는 면의 마모도(Brothwell 1989; Miles 2001), 팔다리뼈대와 척추뼈의 퇴행성 변화 정도를 종합 적으로 고려하여 추정하였다. 연령이 추정된 전체 개체들 가운데 58%의 개체는 치아 씹는 면의 마모도를 통해 연령을 추정하였고 22%의 개체는 머리봉합의 닫힌 정도와 팔다리뼈 대의 퇴행성 변화 정도를 통해 연령을 추정하였다. 18세 미만의 미성년 개체는 치아와 팔 다리뼈대의 부위별 발달 정도를 기준으로 각 범주의 최대값과 최소값의 차이가 대부분 5 세 이상을 넘지 않는 범위 내에서 연령 범주의 구간을 결정하였다. 한편 성인은 기본적으 로 Buikstra와 Ubelaker(1994)의 방법에 따라 주로 21-35세, 36-50세, 50세 이상의 세 범주로 개체의 연령을 추정하였다. 추가적으로 연령 추정의 오류를 최소화하기 위한 목적으로 연 령 증가 순으로 개체를 연속 배열(seriation)하였을 때 한 개체가 갖는 연령 추정 지표들의 특 성이 일관되게 특정 연령 구간을 나타낼 경우는 위의 세 범주보다 구간의 범위를 더 좁혀서 가급적 구간의 범위를 최소화하고자 노력하였다. 또 연속 배열된 개체들 가운데 위의 세 연 령 구간에 연령 범위를 적용시키기 어려운 개체들은 각 인골 개체에게 남아 있는 연령 추 정 지표의 속성에 따라 위의 세 범주와는 다른 연령 구간을 적용함으로써 각 개체의 생물학 적 연령을 복원하기 위해 노력하였다. 따라서 Buikstra와 Ubelaker(1994)의 연령 범주 체계에 따라 기본적으로 21-35세, 36-50세, 50세 이상의 세 범주를 적용하였지만 이외에 21-40세, 31-40세, 31-50세, 41-60세, 41-70세의 범주를 추가적으로 사용하였다. 3. 추정 결과의 신뢰도 평가 성과 연령 추정 결과의 연구자 내 일관성 정도는 제1저자가 분석한 1, 2, 3차 분석 결과 를 토대로 하였다. 여기에서, 일정한 시간 간격을 지켜 세 차례에 걸쳐 성별이 분석된 개 체는 233개체이며 연령은 추정 불가 범주를 제외하고 세 차례 모두 분석된 개체가 122개 체이다. 한편, 연구자 간 일관성은 제1저자가 분석한 결과와 제2저자가 분석한 결과를 비 교하여 평가하였다. 연구자 간 일관성 정도를 평가하기 위해서 제2저자는 무작위로 102 개체를 선정하여 성을 추정하였고 69개체의 연령을 추정하였다. 성별은 대표적인 명목변수(nominal variable) 중 하나로 성별 추정결과의 연구자 내, 연구 자 간 일관성 정도는 각각 Fleiss kappa테스트와 Cohen's kappa테스트를 실시하여 평가하였 고고학 유적에서 출토된 대규모 인골집단의 성, 연령 추정결과에 대한 신뢰도 검증 41
다. 일반적으로 kappa테스트는 동일한 명목변수에 대한 결과가 둘 혹은 그 이상일 때 결 과들 사이의 일치 정도를 평가하는데 이용된다. Kappa테스트는 둘 혹은 그 이상의 결과들 이 '우연히' 일치했을 가능성을 계산 과정에서 제외하기 때문에 연구자 내 또는 연구자 간 의 일관성을 평가하는 데 있어 여타의 방법보다 조금 더 엄격한 기준이라고 평가된다(Viera and Garrett 2005). 연구자 내, 연구자 간 일관성 정도를 평가하기 위해 서로 다른 kappa테스 트 방법을 실시한 이유는 Cohen's kappa 값이 한 쌍의 결과만을 비교하는 척도인 반면 Fleiss kappa 값은 둘 이상의 결과를 한꺼번에 비교할 수 있는 척도이기 때문이다(Fleiss 1971; Berry and Mielke 1988). Kappa값의 해석 기준에 대해서는 연구자마다 견해 차이가 있지만 이 연구 에서는 일반적으로 가장 많이 사용하는 Landis와 Koch(1977)<표 1>의 기준을 적용하였다. 연령은 비율변수(ratio variable)로서 통계적 분석을 위해 추정된 연령 범주 범위의 중 간값(median)을 해당 개체의 연령 추정치로 간주하여 분석하였다. 연령 추정결과의 연 구자 내, 연구자 간 일관성 정도는 각각 Cronbach's alpha테스트와 Intraclass correlation coefficient(icc)테스트를 이용하여 평가하였다. 일반적으로 ICC는 등간변수(interval variable)나 비율변수(ratio variable)에 대하여 동일한 단위로 측정한 결과가 둘 혹은 그 이상일 때 그 결과들 사이의 일치 정도를 평가하는데 이용된다(Shrout and Fleiss 1979; Müller and Büttner 1994). 이 연구에서 연령 추정결과의 연구자 내 일관성 정도를 파악 하기 위해 사용한 Cronbach's alpha 테스트는 ICC방법 중 하나로 연구자 내 오류 정도 를 측정하는 경우처럼, 내부적 일관성(internal consistency)의 정도를 나타내는 척도로 주 로 사용된다(Sijtsma 2009). ICC테스트에서는 two-way random모델을 사용하였고 일관성 (consistency) 정도가 아닌 절대값의 일치(absolute agreement)정도를 기준으로 결과들 간의 관계를 평가하였다. 예로 한 연구자가 일관되게 연령을 일정 수준으로 많거나 혹은 적게 추정하는 경우에 일관성 정도는 높지만 절대값의 일치 정도는 낮게 나타난다. Cronbach s alpha값은 일반적으로 많이 사용되는 George와 Mallery(2003), Kline(1999)<표 2>의 기준 에 따라 해석하였다. 모든 통계적 분석은 SPSS version 20과 Microsoft excel template for a generalized kappa (Jason E. King`s homepage; http://www.ccitonline.org/jking/homepate/ interrater.html에서 제공)를 이용하였다. <표 1> Landis와 Koch(1977)가 제시한 kappa value 해석 기준 Kappa Value Strength of Agreement <0.20 Poor 0.21-0.40 Fair 0.41-0.60 Moderate 0.61-0.80 Good 0.81-1.00 Very Good 42 제24호
<표 2> George와 Mallery(2003), Kline(1999)이 제시한 alpha value 해석 기준 Cronbach alpha Value a<0.5 0.5 a<0.6 0.6 a<0.7 0.7 a<0.9 a 0.9 Strength of Agreement Unacceptable Poor Acceptable Good Excellent Ⅲ. 연구 결과 1. 성과 연령 추정결과 본 연구에서 정리한 임당고분군 출토 인골은 259개체이며 이들의 성, 연령 분석 결과는 <표 3>과 같다. <표 3>에서 제시된 성별, 연령별 분포는 개체의 최종 성, 연령 정보를 바 탕으로 하였다. 최종 성과 연령은 제1저자가 최소 2차례 이상 분석한 결과를 바탕으로 하 였는데 그 결과가 불일치할 경우에 성은 형태적 특징을 기준으로 판별함수(Moon, et al. 2002; Lee, et al. 2012; Kim, et al. 2013)를 추가로 적용하였고 연령은 재분석하여 2차례 이 상 분석한 결과들과 일치하는 방향으로 최종 연령을 판정하였다. <표 3>에서 제시된 바 와 같이 전체 259개체 중에서 성을 추정할 수 없는 개체는 139개체였으며 구체적인 범주 로 연령을 추정할 수 없는 개체는 21개체였다. 연령 추정이 가능한 238개체 중에서 미성 년 개체는 51개체였으며 성인개체는 187개체였다. 성인 187개체 가운데 성 추정이 가능 한 개체는 118개체였으며 이 가운데 남성 또는 남성적 범주로 추정된 인골은 모두 64개 체(54%), 여성 또는 여성적 범주로 추정된 개체는 모두 54개체(46%)였다. <표 3> 연구 자료에서 추정된 성과 연령 분포 연령 구간 연령 성 추정불가 남성 남성적 여성 여성적 총계 유아 1-3 6 0 0 0 0 6 소아 4-12 30 0 0 0 0 30 유아 혹은 소아* 1-12 2 0 0 0 0 2 미성년 13-20 11 2 0 0 0 13 21-35 22 8 8 10 16 64 21-40 0 1 0 0 1 2 31-40 0 1 2 0 2 5 성년 구간들 31-50 3 0 1 1 0 5 36-50 14 5 18 2 7 46 41-60 3 0 5 0 4 12 41-70 0 0 1 0 0 1 성년* 21-70 27 1 13 0 11 52 추정불가 21 0 0 0 0 21 총계 139 18 48 13 41 259 * 구체적인 연령 구간으로 추정될 수 없는 개체들 고고학 유적에서 출토된 대규모 인골집단의 성, 연령 추정결과에 대한 신뢰도 검증 43
2. 성 추정결과의 일관성 정도 평가 개체의 성에 대하여 제1저자가 세 차례 분석한 결과들 간의 일관성 정도를 평가하기 위 해 Fleiss kappa테스트를 실시한 결과, kappa값은 0.7086(p<0.001)이었고 kappa값의 95% 신뢰구간은 0.6561-0.7611이었다. Kappa값을 Landis와 Koch(1977)의 기준에 적용했을 때 0.7086은 Good 에 해당되므로 연구자 내 성별 추정 결과들 간의 일관성이 높다고 평가할 수 있다. 제1저자가 분석한 결과들 간의 관계를 구체적으로 파악하기 위해 1차와 2차, 2 차와 3차, 1차와 3차 추정 결과를 각각 나누어 그 일관성 정도를 살펴보았으며 그 결과는 <표 4>와 같다. <표 4>에서 2차와 3차 추정 결과간의 일관성이 가장 높기 때문에 1차 추 정 결과로 인해 전체적인 일관성 정도가 다소 낮아진 것으로 평가된다. 여기에서, 연구자 내 일관성 정도에 영향을 미친 요인은 남성에서 여성으로, 혹은 여성에서 추후에 남성으 로 재판정된 개체의 비율보다는, 성별이 추정되었다가 추후에 추정 불가 범주로 결정되 었거나 추정 불가 범주에서 남성 혹은 여성으로 판정된 비율에 의한 영향인 것으로 파악 된다. 즉 1차와 2차, 2차와 3차, 1차와 3차 분석에서 남성으로 추정되었다가 여성으로 추 정되었거나, 여성으로 추정되었다가 이후의 분석에서 남성으로 추정된 개체의 비율은 전 체 233개체 중에 1차와 2차에서 4.7%(11개체), 2차와 3차에서 5.2%(12개체), 1차와 3차에 서 5.2%(12개체)이므로 모든 분석에서 비슷한 수준이다. 그러나 처음에 성별이 추정되었 다가 추후에 추정 불가 범주로 결정되었거나 추정 불가 범주에서 성별이 추정된 경우 는 1차와 2차에서 14.2%(33개체), 1차와 3차에서 13.7%(32개체)인 반면 2차와 3차에서는 10.7%(25개체)였다. <표 4> 제1저자가 시행한 성별 추정의 일관성에 대한 Cohen s kappa 검정 결과 분석된 자료 개체 수 Kappa Value 1차와 2차 성별 추정 233 0.6928 2차와 3차 성별 추정 233 0.7432 1차와 3차 성별 추정 233 0.6891 연구자 간 일관성 정도를 평가하기 위해 Cohen s kappa테스트를 실시한 결과, kappa값 은 <표 5>와 같았다. 이 결과는 Landis와 Koch(1977)의 기준을 따를 때 모두 Good 에 해당 하는 수준으로 성별 추정에 대한 연구자들 간의 일관성이 높다고 평가할 수 있다. <표 5> 에서 큰 차이는 아니지만 제2저자의 분석 결과가 제1저자의 1차 결과와 일치 정도가 가장 높게 나타났다(kappa=0.68). 44 제24호
<표 5> 제1저자와 제2저자가 시행한 성별 추정의 일관성에 대한 Cohen's kappa 검정 결과 분석된 자료 개체 수 Kappa Value 제1저자의 1차와 제2저자의 1차 성별 추정 102 0.680 제1저자의 2차와 제2저자의 1차 성별 추정 102 0.670 제1저자의 3차와 제2저자의 1차 성별 추정 102 0.672 3. 연령 추정결과의 일관성 정도 평가 연구자 내 일관성 정도를 평가하기 위해 Cronbach s alpha테스트를 실시한 결과, alpha 값은 0.917이었다. Cronbach s alpha값의 해석 기준에 대해서 일반적으로 가장 많은 연구 자들이 사용하는 George와 Mallery(2003)과 Kline(1999)<표 2>의 기준에 따르면 0.917은 Excellent 에 해당하며 이는 연구자 내 일관성이 아주 높다고 평가할 수 있다. 제1저자가 분석한 결과들 간의 관계를 구체적으로 파악하기 위해 1차와 2차, 2차와 3 차, 1차와 3차 추정 결과를 각각 나누어 그 일관성 정도를 살펴보았으며 그 결과는 <표 6> 과 같다. 여기에서, 1차 추정 결과를 제외한 2차와 3차 추정 결과간의 일관성이 가장 높기 때문에 1차 추정 결과로 인해 전체적인 일관성 정도가 다소 낮아진 것으로 평가된다. <표 6> 제1저자가 시행한 연령 추정의 일관성에 대한 Cronbach s alpha 검정 결과 분석된 자료 개체 수 Alpha Value 1차와 2차 연령 추정 122 0.895 2차와 3차 연령 추정 122 0.904 1차와 3차 연령 추정 122 0.884 마지막으로 연구자 간 일관성 정도를 평가하기 위해 Intraclass correlation coefficient(icc) 테스트를 실시한 결과, 두 연구자 간 분석결과의 ICC값은 <표 7>과 같다. 일반적으로 ICC 값은 0.7이상일 경우 연구자간 일관성이 높다고 평가되므로 두 연구자의 분석결과 간 일 관성 정도는 높다고 평가할 수 있다. 성 추정 결과와 마찬가지로 연령 추정에 있어서도 제2저자의 결과는 제1저자의 1차 결과와 가장 높은 일치 정도를 보였다(ICC=0.88). <표 7> 제1저자와 제2저자가 시행한 연령 추정의 일관성에 대한 ICC 검정 결과 분석된 자료 개체 수 Alpha Value 제1저자의 1차와 제2저자의 1차 연령 추정 60 0.880 제1저자의 2차와 제2저자의 1차 연령 추정 60 0.792 제1저자의 3차와 제2저자의 1차 연령 추정 68 0.843 고고학 유적에서 출토된 대규모 인골집단의 성, 연령 추정결과에 대한 신뢰도 검증 45
Ⅳ. 결론 및 고찰 체질인류학자는 뼈대의 특징을 바탕으로 성과 연령을 추정한다. 이러한 추정이 다른 사람들의 신뢰를 얻기 위해서는 추정한 결과의 오류를 최소화해야 한다. 그러나 한 명의 연구자가 한 개체의 뼈대를 판단함에 있어서도 때에 따라 다른 결과를 낼 수가 있고 또 여러 연구자가 동일한 뼈대를 서로 다르게 판단할 수도 있다. 이러한 경우 연구자 내 오 류 혹은 연구자간 오류가 있다고 말할 수 있다. 이러한 오류는 대개 뼈대의 형태적 특징 또는 보존 상태에서 비롯되는 경우가 많다. 즉 뼈대의 형태적 특징이 남성과 여성의 특징 을 부위별로 다르게 갖고 있는 경우가 있을 수 있다. 예를 들면 머리뼈는 남성의 특징을 보이고 볼기뼈는 여성의 특징을 보이는 경우가 있는데 이 경우에는 볼기뼈를 이용한 성 추정 결과의 신뢰도가 머리뼈에 비해 높기 때문에 볼기뼈의 특성을 보다 더 중요시하여 여성으로 추정한다. 그러나 이 경우 만약 볼기뼈의 일부가 깨어져 남아있는 부위만으로 는 성별 특징을 파악하기가 어렵다면, 머리뼈의 특징만으로 남성으로 추정될 수도 있다. 또 볼기뼈나 머리뼈가 남아있지 않은 개체일 경우 팔다리뼈대를 이용해서 성 추정을 하 게 되는데 이때에도 모든 팔다리뼈대의 크기, 근육 닿는 부위의 특징이 일관되게 한 성별 의 특성을 보일 수도 있지만 부위에 따라 남성과 여성의 특징이 애매하게 섞여 있을 수도 있다. 따라서 이러한 경우는 늘 연구자간의 오류가 발생하기 마련이다. 또 이번 연구에서 처럼, 추정불가로 판정한 개체를 추후 재분석 시, 남성이나 여성으로 다시 추정하는 경우 에도 연구자 내 혹은 연구자 간 오류가 발생할 수 있다. 연령 추정의 경우에는 연구자마다 신뢰하는 지표가 서로 다를 수도 있다. 즉 해외의 경 우 연령을 알고 있는 법의학적 표본 집단(reference sample)이나 고고학 인골집단을 이용 해서 다양한 연령 추정법이 개발되었고 또 지표별 신뢰도까지 평가되어 있다. 이러한 연 구결과를 토대로 영미권의 연구자들은 볼기뼈의 두덩결합면과 귓바퀴면의 퇴행성변화를 연령 추정 지표로 가장 신뢰하고 또 많이 사용한다. 그러나 아시아 집단의 경우, 특히 국 내 인골의 경우는 실제 연령을 알고 있는 법의학적 표본 집단이 거의 없고 더군다나 고고 학 인골집단은 생전의 기록이 남아있는 경우가 전무하기 때문에 다른 나라의 집단을 대 상으로 개발된 방법들을 그대로 적용하고 있는 것이 현실이다. 따라서 해외에서 개발된 방법이 우리 집단의 연령을 추정하는 데 있어 어느 정도의 신뢰도를 갖는지 현재로서는 평가할 방법이 없다. 다만 다른 시대, 다른 지역의 인골 집단을 표본으로 만들어진 추정 방법이 우리 집단에도 맞아 떨어지기만을 바라며 그와 같은 방법을 적용하고 있는 실정 이다. 또 고고학 유적에서 출토되는 인골은 두덩뼈와 귓바퀴면이 남지 않거나 일부가 파 손된 경우, 또 표면 자체가 마모된 경우가 많아 이러한 지표들을 이용할 수 없는 경우도 46 제24호
빈번하다. 따라서 뼈대 가운데 보존성이 가장 뛰어난 치아 씹는면의 마모도를 이용하는 경우가 많은데 마모도는 식료의 종류나 조리방법을 비롯한 식이 습관에 따라 변이가 다 양하게 발생할 수 있기 때문에 연령추정 지표로서 분명한 한계를 갖는다. 따라서 인골의 성과 연령에 대한 추정 결과를 해석할 때에는 항상 이러한 오류의 가능 성을 염두에 두어야 하며 이번 연구에서처럼, 한 연구자 혹은 한 명 이상의 연구자에 의 한 교차분석이 이루어지는 것이 바람직하다. 또 이 경우에도 반드시 오류의 가능성, 다시 말해 추정 결과를 얼마나 신뢰할 수 있는지에 대한 테스트를 거쳐야 한다. 타 분야의 연 구자가 인골의 성과 연령에 대한 정보를 이용하고자 할 때에는 이러한 일련의 검증 과정 을 확인할 필요가 있으며 그 결과에 따라 자료를 해석하는 것이 왜곡의 가능성을 최소화 하는 방법이 될 것이다. 논문접수일(2015.8.12) 심사완료일(2015.9.18) 게재확정일(2015.10.6) 고고학 유적에서 출토된 대규모 인골집단의 성, 연령 추정결과에 대한 신뢰도 검증 47
참 고 문 헌 Bass, W. M., 1997, Human Osteology, A Field Guide and Manual, 3rd ed., Columbia: Missouri Archaeological Society. Berry, K. J. and P. W. Mielke, 1988, A generation of Cohen s kappa agreement measure to interval measurement and multiple raters, Educational and Psychological Measurement 48: 921-933. Brooks, S. and J. M. Suchey, 1990, Skeletal age determination based on the os pubis: a comparison of the Acsádi-Nemeskéri and Suchey-Brooks methods, Human Evolution 5(3): 227-238. Brothwell, D. R., 1989, The Relationship of Tooth Wear to Aging, In Age Markers in the Human Skeleton, M. Y. lşcan eds., pp. 303-316, Springfield: Thomas. Bruzek, J., 2002, A method for visual determination of sex, using the human hip bone, American Journal of Physical Anthropology 117: 157-168. Buckberry, J. L. and A. T. Chamberlain, 2002, Age estimation from the auricular surface of the ilium: a revised method, American Journal of Physical Anthropology 119: 231-239. Buikstra, J. E. and D. H. Ubelaker, 1994, Standards for Data Collection from Human Skeletal Remains, Fayetteville, Arkansas: Arkansas Archaeological Survey Report Number 44. Fleiss, J. L., 1971, Measuring nominal scale agreement among many raters, Psychological Bulletin 76(5): 378-382. George, D. and P. Mallery, 2003, SPSS for Windows Step by Step: A simple Guide and Reference, 11. Update, 4th ed., Boston: Allyn & Baco. Ingerslev, C. H. and B. Solow, 1975, Sex differences in craniofacial morphology. Acta Odontologica 33: 85-94. Kim, D. I., Kim, Y. S., Lee, U. and S. H. Han, 2013, Sex determination from calcaneus in Korean using discriminant analysis, Forensic Science International 228: 177. e1 177.e7. Kline, P., 1999, The Handbook of Psychological Testing, 2nd edi., London: Routledge. Landis, J. R. and G. G. Koch, 1977, The measurement of observer agreement for categorical data, Biometrics 33: 159-174. Lee, U., Han, S. H., Park, D. K., Kim, Y. S., Kim, D. I., Chung, I. H. and M. H. Chun, 48 제24호
2012, Sex Determination from the Talus of Koreans by Discriminant Function Analysis, Journal of Forensic Sciences 57(1): 166-171. Lovejoy, C. O., Meindl, R. S. Pryzbeck, T. R. and R. P. Mensforth, 1985, Chronological metamorphosis of the auricular surface of the ilium: a new method for the determination of adult skeletal age at death, American Journal of Physical Anthropology 68: 15-28. Mays, S., 2010, The Archaeology of Human Bones, 2nd ed., London: Routledge. Meindl, R. S. and C. O. Lovejoy, 1985, Ectocranial suture closure: A revised method for the determination of skeletal age at death based on the lateral anterior sutures, American Journal of Physical Anthropology 68: 57-66. Meindl, R. S., Russell, K. F. and C. O. Lovejoy, 1990, Reliability of age at death in the Hamann- Todd collection: validity of subselection procedures used in blind tests of the summary age technique, American Journal of Physical Anthropology 83: 349-357. Miles, A. E. W., 2001, The Miles method of assessing age from tooth wear revisited, Journal of Archaeological Science 28: 73-82. Moon, H. S., Hu, K. S., Park, S. J. and H. J. Kim, 2002, A sex discriminant function analysis by the dental measurements of Koreans, Korean Journal of Physical Anthropology 15(1): 15-25. Müller, R. and P. Büttner, 1994, A critical discussion of intraclass correlation coefficients, Statistics in Medicine 13: 2465-2476. Rogers, T. L., 2005, Determining the sex of human remains through cranial morphology, Journal of forensic Sciences 50: 493. Shrout, P. E. and J. L. Fleiss, 1979, Intraclass correlation: uses in assessing rater reliability, Psychological Bulletin 86(2): 420-428. Sijtsma, K., 2009, On the use, the misuse, and the very limited usefulness of Cronbach s alpha, Psychometrika 74(1): 107-120. Viera, A. J. and J. M. Garrett, 2005, Understanding interobserver agreement: The kappa statistic, Family Medicine 37(5): 360-363. Walrath, D. E., Turner, P. and J. Bruzek, 2004, Reliability test of the visual assessment of cranial traits for sex determination, American Journal of Physical Anthropology 125(2): 132-137. White, T. D. and P. A. Folkens, 2000, Human osteology, 2nd edi.,.london: Academic press. 고고학 유적에서 출토된 대규모 인골집단의 성, 연령 추정결과에 대한 신뢰도 검증 49
(Division in Anatomy & Developmental Biology, Department of Oral Biology, Yonsei University College of Dentistry, BK21 PLUS Project) (Defense POW/MIA Accounting Agency, Laboratory) Sex and age estimation is an essential part of reconstructing the biological profiles of unidentified skeletal remains and of investigating the demographic composition and mortality patterns of past populations. However, in most cases, it is nearly impossible to determine the actual sex and age at death of skeletons from archaeological sites. For this reason, much effort has been made to devise the methods to estimate the sex and age at death of the archaeological skeletal remains, and the accuracy of which has been a topic of vigorous debate. However, little attention has been paid to the issue of the reliability or consistency of the estimates within a researcher and between researchers. The goal of the present study is to test the reliability (i.e., intra- and inter- observer consistency) of the sex and age estimates of archaeological skeletal remains. In this study, the Imdang skeletal collection housed at the Yeungnam University Museum, the largest archaeological skeletal collection in Korea, dating to the Three Kingdoms Period, were analyzed. A total of 259 individuals were examined for sex and age estimation three times by the first author, and some of these were randomly selected and reexamined by the second author. The consistency of the sex and age estimates within a researcher and between researchers was then evaluated by appropriate statistical methods. For sex estimates, Fleiss kappa and Cohen s kappa were used to assess the intra- and interobserver consistency, respectively. The consistency of the age estimates within a researcher and between researchers was evaluated using Cronbach s alpha and the Intraclass Correlation Coefficient (ICC), respectively. The results of this study indicated a high level of consistency in the sex and age estimates both within a researcher and between researchers. Thus, the estimates can be judged as being highly reliable. In any research, involving skeletal remains, it is critical to verify that sex and age estimates are reliable and reproducible. This study presents standardized procedures to assess the reliability and consistency of sex and age estimates of archaeological skeletal remains. Without reliability and consistency in these estimates, any results from further analyses using such estimates 50 제24호
would be difficult to justify. In this regard, it appears necessary for researchers to recognize the significance of testing the reliability and consistency of sex and age estimates prior to performing further analyses using untested methods. The methodology presented in this study is expected to be used for the purpose of reliability and consistency tests by researchers who want accurate analyses of skeletal materials in the future. : Skeletal remains, Sex, Age at death, Intra-observer s error, Inter-observer s error, Validity, Reliability, Consistency 고고학 유적에서 출토된 대규모 인골집단의 성, 연령 추정결과에 대한 신뢰도 검증 51