H I R A 빅데이터브리프 H I R A 빅 데 이 터 브 리 프 제2권 1호 ISSN 2508-8408 H I R A B i g D a t a B r i e f No.1 제 2 권 1 호 26465 강원도원주시혁신로 60( 반곡동 ) 건강보험심사평가원 www.hira.or.kr
CONTENTS 보건의료빅데이터동향 _ 03 1. 보건의료빅데이터의 GIS 활용 _ 05 2. 보건의료빅데이터관련주요기사 _ 25 HIRA 빅데이터분석사례 _ 29 1. 다운증후군환자의합병증발생과관리현황분석 _ 31 2. 미세먼지농도와관련질환건강보험청구액의상관관계분석 _ 36 3. 최근 8년간항우울제처방양상변화 _ 41 4. 빅데이터분석방법 (Shrinkage Methods) 을이용한한국인의골다공증에연관된질병현황 _ 49 HIRA 빅데이터분석가이드 _ 55 분석가이드란? _ 57 HIRA 보건의료빅데이터소개 _ 58
Ⅰ 보건의료빅데이터동향 보건의료빅데이터동향에서는국내외빅데이터관련기술개발, 활용등최신동향을소개합니다.
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 보건의료빅데이터의 GIS 활용 이광수교수 연세대학교보건과학대학 2. 국내공간정보산업현황 2012년제정된공간정보산업특수분류는공간정보제조, 유통, 출판및서비스, 기술서비스, 연구개발, 관련협회및단체등 6개분야의 24개세부업종으로분류하고있음. 2016년공간정보산업조사에의하면공간정보관련사업체는 4,533개사였으며, 매출액은 7조 9,549억원으로조사되었음 ( 공간정보산업진흥원, 2016) 1. 들어가는말 보건의료분야에서생성되는빅데이터는지리정보시스템 (Geographic Information System, GIS) 및공간정보와의융합이진행되고있고, 이를통하여데이터의처리, 분석, 해석에있어서새로운시각과활용가능성을제시하고있음공간정보란국가공간정보기본법제2조에의하면 지상 지하 수상 수중등공간상에존재하는자연적또는인공적인객체에대한위치정보및이와관련된공간적인지및의사결정에필요한정보 로정의하고있음지리정보시스템 (GIS) 이란 1 공간정보를디지털화하고, 컴퓨터상에서각종자료를효과적으로수집, 저장, 검색, 갱신, 분석, 시각화하는도구로서, 2 공간적위치정보를시각화하는지도 (map) 와공간이가지고있는속성정보 ( 문자, 숫자 ) 를연결하는시스템이며, 3 위치 (location) 에관한정보를다루는정보시스템임. 지리정보시스템은의료뿐만아니라, 경제, 산업, 환경등다양한분야에서널리활용되고있음보건의료분야에서도청구데이터와같은속성자료와더불어이용가능한의료기관및환자주소등과같은공간정보의종류가확대되고있음. 의료서비스시장의특징은환자의의료서비스의이용이일정지역안에서많은부분이발생한다는것이며, 지역에따른의료이용, 건강수준의차이가발생하고있음. 이러한추세속에서 GIS는보건의료빅데이터활용의새로운가치창출에기여할것임 업종별로공간정보관련기술서비스업의사업체수가 3,053개사 (67.35%) 로가장많았고, 출판및정보서비스업사업체수가 895개사 (19.74%), 공간정보관련도매업사업체수가 406(9.00%) 의순이었음. 공간정보관련매출액구성은공간정보관련기술서비스업 (50.4%), 출판및정보서비스업 (29.7%), 공간정보관련도매업 (12.8%) 순으로조사되었음종사자수, 매출액측면에서국내전체산업대비약 0.1 ~ 0.3% 의규모를가지는작은산업이기는하지만, 산업의성장률은타분야에비해높음. 2015년보건및방범활용분야의국제시장규모는 69억 8,000만달러 ( 약 8조, 3,700억원 ) 이며, 활용용도별공간정보활용시장중 2번째로규모가큼공간정보의활용과공간정보산업의발전을위해공공기관에서각종서비스들이만들어지고있으며, 이를통해정보의활용과다양한산업 기술과의융합을목표로하고있음공공기관이다양한공간정보를개발, 보유하고있으며, 정보의유통과활용을촉진하기위하여포털을구축하고정보활용을유도하고있음정부는국가공간정보통합서비스 (www.nsdi.go.kr) 를구축한후, 공공기관에서만들어진다양한공간정보 ( 국가공간정보통합체계, 공간빅데이터, 부동산종합공부시스템, 한국토지정보시스템, 국가공간정보유통시스템, 지적재조사시스템, 공간정보사업공유및관리시스템, 국토공간계획지원체계, 온나라부동산포털, 공간정보오픈플랫폼 ) 의연계와통합을통하여대국민서비스를위한체계를구축하였음 통계청은통계지리정보서비스 (SGIS) 를구축하고있으며, 국민들에게통계주제도, 대화형 통계지도, 분석지도등을서비스하고있음 5 6
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 3. 보건의료빅데이터의 GIS 적용동향 3.1 국외사례 전세계전염병현황을나타내는 HealthMap HealthMap 은보스턴아동병원 (Boston Children s Hospital), 소프트웨어개발자, 역학자 (epidemiologist) 들이제작한웹사이트이며, 구글맵을기반으로전염병의발생을모니터링하고공중보건의위험요소에대해실시간감시체계를보여주는지리정보를제공하고있음 Flu의관리를위한미국의 Flu Near You, HealthMap Vaccine Finder 'Flu Near You' 는주로미국의 Flu발생현황에대한정보를제공하기위해 American Public Health Association, Skoll Globbal Therats Fund, HealthMap 의협력을통해제작되었음 HealthMap 과독립적인홈페이지를통해제공되고있으며, 'flunearyou.org' 에서무료로정보를제공하고있음 Flu Near You 는참여형감시체계로 Flu 증상이있는환자들이직접자신의증상을등록하고, 1주일마다데이터를합산하여 Flu 증상이다수보고된지역을지도로시각화하여제공하고있음 ProMED mail, WHO(World Health Organization) 등을통해전세계의전염병에대한정보가실시간으로업데이트되고있으며, 이러한정보는 Healthmap 웹페이지에서지도형태로무료로제공하고있음또한 HealthMap 은모바일어플리케이션인 Outbreaks Near Me 를통해서도이용가능하며, 사용자의위치정보를이용해사용자가위치한지역의질병상태에대해실시간으로정보를제공하고있음 [ 그림 1] 전세계의전염병현황을나타내는 HealthMap [ 그림 2] Flu Near You 7 8
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 HealthMap Vaccine Finder 는백신을제공하는지역에대한정보를제공하기위해 HealthMap 과 Boston Children s Hospital, Harvard Medical School 에서운영하고있음백신에대한환자의접근성을높이기위한목적으로, 미국각지역의 clinic, 약국, CDC(Center for Disease Control and Prevention) 등건강관련기관과협력을통해각종질병의백신공급자위치를제공하고있음 CMS(Centers for Medicare & Medicaid Services) 의시각화된메디케어정보제공 CMS는 Data.CMS.gov 홈페이지에서 The Mapping Medicare Disparities Tool(The MMD Tool), Market Saturation and Utilization 등보건의료분야의 interactive map을제공하고있음 The MMD tool 은현재유행하고있는질병, 비용, 55가지특정만성질환에대한입원, 응급실이용, 재입원률, 사망률등에대한건강결과에대한정보를시각화한지도를제공하고있음 건강결과에대한정보는구체적으로 1) National, State, County 단위, 2) 성별ㆍ인종ㆍ민족ㆍ 연령별간, 3) 지역간차이, 4) 동일지역내의인종ㆍ민족간차이에대한지리정보를제공함 [ 그림 3] HealthMap Vaccine Finder [ 그림 4] CMS 의 The MMD tool 9 10
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 Market Saturation and Utilization 은특정의료서비스의이용자대비공급자의비율로서비스공급의포화정도에대한정보를지도로제공하고있음의료서비스분야는 Ambulance, Home health, Long-term care hospital 등 14개서비스로구분되어제공되고있음 [ 그림 6] CDC 의 NCHHSTP AtlasPlus Chronic Disease GIS Exchange Map Gallery 에서는심장질환, 고혈압, 당뇨병등주요만성질환의유병률, 의료서비스접근성에대한미국각지역의지리정보를제공하고있으며, 보건관리자, 지역사회의장, GIS 사용자, 역학자들의협력을통해제작되고있음이를통해만성질환의지리적불균형해소, 정책및프로그램개발등정책의가이드를제시하고자함 [ 그림 5] CMS 의 Market Saturation and Utilization CDC의만성질환, 암등주요질환에대한지리정보제공 CDC NCHHSTP(National Center for HIV/AIDS, Viral Hepatitis, STD, and TB Prevention) AtlasPlus는 HIV, AIDS, 간염, 결핵, 간염, 각종성매개감염병과관련된 interactive maps, 그래프등을제공하고있음 [ 그림 7] CDC 의 Chronic Disease GIS Exchange Map Gallery 11 12
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 Diabetes County Data & Maps는진단된당뇨병, 비만, 신체활동의데이터와추세를시각화하여제공하고있음이를통해지역주민들이당뇨병관리및예방을위한지역자원을활용할수있도록하는데목적이있음. 미국의각주별, 카운티별당뇨병데이터를수집할수있으며, 지역에대한비교와시간흐름에따른추세변화를확인할수있음 [ 그림 9] USGS 의 DiseaseMaps Dynamic Map Application 영국, Health profiles 매년영국보건부와보건위생부는각지역의건강수준에대한세부정보를다양한지표와비교자료를지도와함께제공하고있음각지역, 인구의건강정보를일관되고요약된형태로제공하고있으며, 이와동시에비교할수있는정보를제공하고있음. 이러한정보를이용하여지역요구평가, 기획, 성과관리등에대한활동을수행하고있음 [ 그림 8] CDC 의 Diabetes County Data & Maps 미국내의질병모니터링을위한 DiseaseMaps Dynamic Map Application DiseaseMaps Dynamic Map Application 은 USGS(The United States Geological Survey) 에서제작하여제공하고있음 West Nile Virus, St. Louis Encephalitis, Eastern & Western Equine Encephalitis, La Crosse Virus, Powassan Virus, Dengue Fever, Chikungunya Virus 등의질병정보를제공함. 또한사람의감염뿐만아니라모기, 새등의매개체의감염에대한정보를함께제공하고있음 [ 그림 10] 영국의 Health profiles 13 14
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 캐나다캐나다공중보건협회 (Canadian Public Health Association) 는지역에서건강향상과형평성달성을위해실제로수행된활동에대한경험, 도구, 교재정보의상호교환을촉진하기 Frontline Health atlas 대화형플랫폼을제공하고있음 이를위해지리정보시스템을이용한분석방법, 데이터, 웹기반플랫폼등을제공하고있으며, primary health care 이슈에대한연구수행을지원하고있음대화형온라인매핑기능을지원하고있으며, G-Tag시스템은개인프라이버시와기밀을유지하면서데이터에지리적식별자를적용하고있음 캐나다전국에서자료가공유되고있으며다양한건강의사회적결정요인에대하여다루고있음. 이러한활동을통하여인구의건강결정요인과관련된정책결정에영향을미치고자하고있음 [ 그림 11] Canadian Public Health Association 의 Frontline Health atlas [ 그림 12] 호주의 GRAPHC 호주, GRAPHC(The National Centre for Geographic Resources & Analysis in Primary Health Care) Primary Health Care Research Institute(APHCRI) 내에설치된 GRAPHC는지역의의료자원및서비스를대상으로하여적절하고형평적인해결방법을모색하기위해만들어졌음 15 16
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 3.2 국내동향 건강보험심사평가원전국민진료정보를포함한의약품처방및유통정보등을포함된보건의료빅데이터개방시스템을구축하여비식별화된정보혹은민감하지않은정보를외부에제공의료이용지도 (Health Map) 를제공하고있음. 지역별의료자원현황등을시각적으로알기쉽게볼수있으며, 감염병, 계절성질환등의실시간확인이가능함 보건복지부와국립중앙의료원의의료이용지도 (Health map) 서비스지역별의료이용및공급현황등의제공을위한지도웹서비스수행. 지역및공공의료계획수립에대한정보수집및 DB 구축과분석을통한근거기반의정책수립에활용하기위함지역별의료이용및공급현황분석을통한주제도분석, 분야별의료취약지거점의료기관배치시뮬레이션, 지도위에서의료기관의분포조회등의기능제공 병원 약국찾기 : 병원및약국의위치를원하는지역내에서찾아주는기능과병원규모별, 특정진료별, 분야별등세부조건에따라찾아주는기능제공 소개 스마트진단서비스 통계분석 Health Map 공공의료기관현황 주제도분석 분석지표 지역현황 지역별의료이용유출입조회 사용자설명서 지역점유율 거점의료기관배치시뮬레이션 활용사례 지역별지표조회 현황조회 의료취약지도출 시군구별조회 의료기관분포조회 공공보건의료계획수립지원 최단거리의료기관조회 의료자원배치분석 분야별의료취약지조회 [ 그림 14] 보건복지부와국립중앙의료원의 의료이용지도 인천시 [ 그림 13] 건강보험심사평가원의 의료이용지도 모기를매개로하는감염병예방을위해 IoT(Internet of Things) 를이용한자동모기계측기를 120 개지점을선정해운영하고있음 이를통해수집된모기발생장소는 Smart GIS Incheon 홈페이지를통해지역주민들에게 시각화된정보를제공하고있음 17 18
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 질병관리본부방역활동의효율성을높이기위해방역지리정보시스템을개발시스템은방역차량의궤적관리, 실시간감염병매개체모니터링, 소독의무시설취약지, 감염병매개체발생취약지의약품관리등에이용되고있음. 또한 GIS와의연계를통해지역별감염별발생현황을파악할수있어감염병관리의효율성을높일것으로예상됨 2015년을기준으로 방역지리정보시스템 은전국 255개보건소중 17개보건소에서활용중임 [ 그림 15] 인천시의 Smart GIS Incheon 지방자치단체의 GIS 를활용한의료시설정보공개 충청남도공간정보포털은 2008년이후 3차원지리정보시스템을통해지역내시설물에대한지리정보를제공하고있음. 그중보건의료분야에서는공공보건의료기관, 약국, 응급의료기관병 의원의위치정보를제공하고있으며, 지도는위치정보뿐아니라거리측정, 로드뷰등의옵션을추가적으로제공하고있음광주광역시광산구청공공데이터플랫폼인광산imap은안전, 의료, 복지시설등의위치정보를제공하고있으며, 그중의료분야에서는지역의병의원, 보건소, 응급의료기관등의위치정보를시각화하여제공하고있음 Network of geographical information system for vector control 3.3 주요최신연구동향 [ 그림 17] 질병관리본부의 방역지리정보시스템 Alberto Larocca(2016) 는우간다의말라리아진단및관리를위한 m-health 를도입했을때 효과성이가장높은지역을 GIS 를통해분석함 방역차량궤적관리 또한말라리아를관리하는기존프로세스를개선하여 GIS와통합된 m-health 기술을도입한프로세스를제시함 GIS와 m-health를통합한기술의도입은실시간데이터수집을가능하게하여모니터링을강화할수있으며, 이를통해효율적인의사결정이가능할것으로판단 충청남도공간정보포털에서제공하는의료기관위치정보 광산구청공공데이터플랫폼에서제공하는우리동네건강지킴이서비스 [ 그림 16] 지방자치단체의 GIS 활용의료시설정보공개화면 Monaghan AJ at el(2016) 은지카바이러스의매개체가되는 Aedes Aegypti mosquito 의 계절에따른분포를 GIS 를통해분석하였고, 이를통해계절에따라지카바이러스의위험이높은 지역을예측하는모델을제시함 19 20
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 최소영, 이광수 (2017) 의분만의료서비스에대한접근성평가강원도지역의읍 면 동에거주하는가임기여성을대상으로분만서비스를제공하는의료기관에대한공간적접근성을평가함공간분석방법중네트워크분석 (network analysis) 방법인 service area analysis와 OD-cost matrix 분석방법을이용하여소요시간과이동거리를추정함 [ 그림 19] 환자의료이용지도구축연구 4. 맺는말 공간정보와다양한보건의료분야빅데이터의융복합은국가보건의료시스템의성과향상을위한 문제파악및의사결정에주요한정보를제공할수있음 Service area for all HCOs providing delivery services OD-cost matrix for all HCOs providing delivery services [ 그림 18] 분만의료서비스에대한접근성평가김윤등 (2016) 의환자의료이용지도 (Health map) 구축연구건강보험빅데이터를활용하여우리나라의질환유병별의료생활권 ( 진료권 ) 을설정하고, 이를기반으로한지역간변이양상을비교분석하여주요정책영역별모니터링및자원배치방안등정책적근거마련목적의료생활권 ( 진료권 ) 별입원서비스의의료자원분포및의료이용변이지표, 일차의료관련한국형아틀라스의개발과심뇌혈관질환의료이용과결과의지역변이, 5대암종별의료공급, 결과의상관관계를확인 특히, 지역간차이가존재하고있는현실의구체적파악및위치정보의활용은국가보건의료시스템의개선을위한가치있는정보를제공할것임. 현재급격하게발전하고있는인공지능, 모바일, 사물인터넷등과같은기술과의융합은이러한발전양상을강화할것임공간정보와보건의료빅데이터의융복합을위하여다음의과제에대한고민이필요함첫째, 국가거버넌스의구축이필요함. 보건의료빅데이터, 지리정보시스템, 공간정보는기관별로수집, 관리, 운영되고있으며상호연계와통합이되어있지않음. 이러한문제의해결을위한법, 제도등의정비가필요하며, 또한빅데이터공유플랫폼의구축이필요함둘째, 보건의료분야에서생산되는공간정보의표준화에대한준비가필요함. 타산업분야의경우공간정보가다양하게생산됨에따라활용상어려움이있으므로표준화를미리준비하는것이필요함. 이를통하여기관간데이터의상호교환이나중복투자로인한문제를방지할수있음 21 22
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 셋째, 공간정보의이용서비스에대한접근성개선이필요함. 보건의료분야의경우개인정보보호법에의해공공기관이보유하고있는공간정보에대한접근과활용이매우제한적임. 현재상황에서법개정이이루어지기전에는개선의여지가많지않지만, 사용자의요구도를고려하여필요로하는정보에대한접근성을개선할수있는노력이필요함보건의료공간정보발전을위한공공기관의향후역할보건의료분야의공공기관 ( 건강보험심사평가원, 국민건강보험공단, 국립중앙의료원등 ) 에서는기관별로공간정보를생성, 관리를하고있음. 보건의료관련공간정보가가지는민감성으로인하여자료관리에있어서공공기관의역할은계속될것으로보임. 이와더불어생성된정보의공개, 활용방향, 그리고통계적분석과예측기법개발에대한준비가필요함공공기관에서생성되는정보는기관자체의업무수행뿐아니라각종연구활동과민간산업분야의발전에있어서중요한밑바탕이됨. 이러한자료의특징으로인하여보건의료분야공간정보의공공적가치를제시하고있으며, 공간정보의산출과발전을위한지속적인투자가필요함공간정보는 4차산업혁명에서사용되는기술중의하나임. 공공기관은이러한산업적측면에서의발전을통한국가발전에기여할수있도록보건의료분야에서의공간정보가활용될수있는환경을구축하고성과가달성될수있도록하는역할의수행이필요함 참고문헌 cngis.chungnam.go.kr/ data.cms.gov/mapping-medicare-disparities data.cms.gov/market-saturation flunearyou.org healthmap.or.kr/ imap.gwangsan.go.kr/ opendata.hira.or.kr/home.do vaccinefinder.org/ www.cdc.gov/dhdsp/maps/gisx/resources/public-health-maps.html www.healthmap.org/print_materials/brochure.pdf www.kpanews.co.kr/article/show.asp?idx=83626&table=column&category=e www.nsdi.go.kr www.ppm.or.kr/contents/contentsview.do?menuid=a01020103 www.sphinfo.com/report-see-and-predict/ Alberto Larocca et al. Malaria diagnosis and mapping with m-health and geographic information systems(gis): evidence from Uganda. Malaria Jounal, 2016, 15(1): 520 Darthmouth Medical School Center for the Evaluative Clinical Sciences, The Dartmouth Atlas of the Health Care, Amer Hospital Pub. 1996. Monaghan AJ at el. On the Seasonal Occurrence and Abundance of the Zika Virus Vector Mosquito Aedes Aegypti in the Contiguous United States. PLoS Currents, 2016, 16;8. 공간정보산업진흥원. 2016년공간정보산업조사보고서, 김윤등. 건강보험의료이용지도구축연구. 국민건강보험공단, 2016, 서울신이현, 주영란. Development and Utilization of Vector Control Management System using Geographical Information system. 질병관리본부주간건강과질병, 2015, 8:52. 최소영, 이광수. 강원도지역가임기여성의분만서비스접근성분석. 보건행정학회지, 2017, 27(3): 229-240 23 24
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 보건의료빅데이터관련주요기사 정부, 헬스케어빅데이터쇼케이스구축 ( 메디컬업저버, 2018. 2. 13.) - 헬스케어특별위원회는 헬스케어빅데이터쇼케이스구축 ( 가칭 ) 을핵심프로젝트로선정 - 데이터공유자패널로선정후헬스데이터활용하고, 민간주도비즈니스모델검토 국립암센터, 환자 49만명자료담긴임상연구검색포털구축추진 ( 청년의사, 2018. 2. 8.) - 국립암센터는제3차암관리종합계획 (2016~2020년) 에따라암관리사업과연구를위한공공보건의료데이터구축 - 병리, 영상정보, 수술기록지등비정형데이터까지분석가능 정부, 바이오 헬스산업 ' 적극육성한다 산업발전전략발표 ( 전자신문, 2018. 2. 9.) 암, 의사보다손목시계가먼저안다 ( 조선일보, 2018. 2. 5.) - 산자부는 9일간담회에서 ' 바이오ㆍ헬스산업발전전략 ' 을발표 - 병원의빅데이터를바탕으로맞춤형신약ㆍ의료기기개발과혁신적인헬스케어서비스실증을지원하여국민건강증진이목표 AI와빅데이터의만남... 고속신약개발플랫폼 ' 추진 ( 데일리팜, 2018. 2. 9.) - 과기정통부, 내년출시목표로 고속신약개발플랫폼 ' 추진 - 노키아는지난달 24일스위스다보스포럼에서향후 1~2년안에암조기진단이가능한손목에차는웨어러블 ( 착용형 ) 기기를내놓겠다고발표 - 웨어러블기기는심박수ㆍ운동량을측정하던단순기능에서벗어나, 각종질환의진단을간편히할수있도록발전하고있음 - 국가연구개발 (R&D) 사업을통해획득한화합물정보를인공지능 (AI) 에학습시켜신약후보물질발굴시간을단축 25 26
Ⅰ. 보건의료빅데이터동향 HIRA 빅데이터브리프 내년 EMR 인증제실시, 신뢰성확보기대.. 참여여부관건 ( 전자신문, 2018. 1. 29.) - 보건복지부는내년시행목표로 EMR 인증제를준비, 올하반기시범사업을추진함 - 시스템효율성, 신뢰성확보와나아가전국단위의료기관시스템표준화까지가능할것으로기대 빅데이터로국민민원분석, 원스톱서비스제공한다 ( 파이낸셜뉴스, 2018. 1. 21.) - 행정안전부국가정보자원관리원, 빅데이터공통기반 ' 혜안 ' 에서민원분석의온라인자동화로통합서비스 - 위치기반분석서비스가자동화되고, 주소ㆍ좌표변환서비스를제공하여분석의편리성및효율성강화 2018 년주목해야할 전자정부 10 대유망기술 ( 전자신문, 2018. 1. 24.) - 행정안전부와한국정보화진흥원이 2018년에주목해야할전자정부 10대유망기술을발표 - 대화형인공지능플랫폼, 온디맨드빅데이터, 공공멀티드론 등활용 1~2 년내인공지능 (AI) 의도입, 예정된미래 ( 전자신문, 2018. 1. 22.) - 국내 IT 전문가를대상으로한 AI 준비현황조사결과에따르면 IT 전문가의절반이상이인공지능을중요하게생각 - 선도적인기업들은이미 AI를도입中 27 28
Ⅱ HIRA 빅데이터분석사례 HIRA 빅데이터분석사례에서는 HIRA 빅데이터를활용한주요이슈분석, 연구결과등다양한사례를수록하고있습니다.
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 다운증후군환자의합병증발생과관리현황분석 연구책임자 연구실무자 분석지원 이용주교수 김남은 이풍훈주임연구원 한림대학교강남성심병원 서울대학교보건대학원 건강보험심사평가원 2017년 HIRA 빅데이터분석협업과제 사례 3. 분석결과다운증후군발생현황 다운증후군환자의기대수명이증가함에따라 08년 ~ 16년의전체다운증후군환자수는해마다증가하는반면, 1세미만의다운증후군환아의수는감소하는추세임이는저출산, 적극적인산전진단검사로인한조기발견등과같은다양한요인의영향으로판단됨 1. 분석배경 다운증후군은국내의경우임산부 800명당한명의빈도로발생하는난치성유전체질환이며, 산모의나이가많아질수록발생확률이높은것으로알려져있음우리나라는만혼으로인한고령산모가증가함에따라다운증후군의발생확률이높아질수있을것으로예상됨다운증후군은다양한합병증 ( 갑상선질환, 선천심장질환등 ) 을동반할수있으며, 이에따라환자에대한체계적인관리가필요함 현재관련연구와국내진료지침이미흡한실정으로다운증후군환자의건강상태에대한 연구가요구됨 [ 그림 1] 연도별연령대별다운증후군환자분포 2. 분석방법과내용 대상 : 출생후한번이라도다운증후군 (Q90.9) 진단을받은적이있는환자자료원 : 2007년 ~2016년건강보험청구자료, 통계청인구동향조사분석방법 : 다운증후군발생현황파악및합병증중갑상선질환의선별검사여부와선천심장질환유무를분석 산모의나이는 07년 30.1세에서 15년 31.7세로매년증가하는반면, 출생아 10,000명중다운증후군이있는환아는 07년 5.6명에서 15년 4.6명으로감소함다운증후군발생확률은고령산모에서높은것으로알려져있지만고령산모의적극적인산전진단검사로태아의건강문제가조기발견되는등에따라, 실제출생아중다운증후군환아의출생빈도는감소하는것으로추정됨 31 32
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 [ 그림 3] 연령대별다운증후군환자의연도별갑상선기능검사실시비율 [ 그림 2] 10,000 명당다운증후군발생률과산모나이평균 2) 선천심장질환 - 합병증현황 다운증후군환자는선천심장질환을가지고있는경우가많음 09 년 ~ 13 년출생한다운증후군환자 1,153 명대상으로선천심장질환유무를살펴봄 다운증후군과합병증현황 다운증후군환자의경우선천적으로갑상선, 심장질환의빈도가비다운증후군인원에비해많은것으로알려져있어, 출생이후기능검사등의관리가필요함 1) 갑상선질환 - 선별검사현황다운증후군환자의경우갑상선질환의발생빈도가높아출생시, 이후매년갑상선검사가필요함갑상선기능검사의비율현황을보기위해전체다운증후군환자 8,240명의갑상선기능검사 (TSH, Free T4) 실시한비율을산출함다운증후군환자의연도별갑상선기능검사실시비율은 1세미만에서가장크게증가하였으나, 전체적인검사실시비율은 16년 30% 미만으로미진한수준임 1세미만의다운증후군환아의경우갑상선기능검사실시비율이 1.77배 ( 08년 44.9% 16년 79.4%) 증가하여 80% 정도이며, 그외의연령층도과거에비해증가하였지만 50% 미만의낮은수준임 다운증후군환자중선천심장질환을하나라도가지고있는환자는 751명 (65.1%), 하나도가지고 있지않은환자는 402명 (34.9%) 임 선천심장질환의여부에따라성별, 출생연도, 보험종별로분류한결과, 비율은큰차이가 없었으며, 통계적으로도유의한차이는없었음 [ 표 1] 다운증후군환아중선천심장질환보유여부에따른성별, 출생년도, 보험종별분포 단위 : % 선천심장질환미보유환자 (n = 402) 선천심장질환보유환자 (n=751) p-값 성별 남성 56.7 53.9 여성 43.3 46.1 0.37 2009 24.1 20.9 2010 16.9 18 출생연도 2011 19.9 21.2 0.42 2012 21.9 19.4 2013 17.2 20.5 보험종류 건강보험 87.1 87.9 의료급여 12.9 12.1 0.69 33 34
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 단일심장질환을가지고있는환자중심방중격결손환자가가장많았으며, 다중심장질환의경우는 연도별차이는있으나전체적으로심방중격결손과심실중격결손을함께앓는환자가가장많음 미세먼지농도와관련질환건강보험청구액의상관관계분석 연구책임자 연구실무자 분석지원 김남국교수 황정은, 우일상 이풍훈주임연구원 울산대학교의과대학 서울아산병원 건강보험심사평가원 2017년 HIRA 빅데이터분석협업과제 사례 1. 분석배경 미세먼지는인체의호흡기, 혈관계, 뇌-혈관장벽등방어시스템을쉽게통과하여염증을일으키는등건강에영향을줌미세먼지가건강상태에주는영향에대한국민적관심이높아지고있음에따라미세먼지농도와보건의료비용의상관관계를정량적으로평가하고자함 4. 결론 [ 그림 4] 다운증후군환아의출생연도별선천심장질환분포 다운증후군환자의기대수명이증가함에따라전체다운증후군환자는증가하고있음다운증후군전체환자수가증가함에따라다운증후군환자의정확한관리지침이필요함저출산ㆍ산전진단검사등의영향으로 1세미만의다운증후군환자는감소함 2. 분석방법과내용 대상 : 아래질환으로진료를받은인원질환군호흡계통의질환순환계통의질환피부및피하조직의질환 KCD code J00 - J98, U04 I00 - I99 L00 - L99 다운증후군환자의경우매년갑상선기능검사가필요하지만분석결과실시비율이매우낮은상태로개선이필요함갑상선기능검사의실시비율을높이기위해의료진과다운증후군환자보호자에대한교육이필요함 자료원 : 2007 년 ~ 2016 년건강보험청구자료, 국가대기측정망미세먼지농도자료, 통계청 인구조사자료 분석방법 : 지리정보시스템을이용한 descriptive study 및다변량선형회귀분석 다운증후군환자중선천심장질환과같은중증합병증을동반한경우가증가하고있어, 다운증후군환자를적절히관리하기위한가이드라인이필요함 35 36
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 3. 분석결과 호흡계통의질환단순상관 : 호흡계통의질환청구액은미세먼지농도, 시간경과와각각양의상관관계를보임. 전국적으로미세먼지농도와청구액의단순상관계수는 0.21(p-value 0.02) 로나타났으며, 각지역별로도대부분유사한결과가나타남 순환계통의질환단순상관 : 순환계통의질환청구액은시간경과와양의상관관계, 미세먼지농도와는음의상관관계보임. 전국적으로미세먼지농도와청구액의단순상관계수는 -0.20(P = 0.03) 였으며, 각지역별로다양한관계가나타남 편상관 : 시간경과를통제한미세먼지와청구액사이의편상관계수는 0.59(P < 0.001) 로, 시간경과에따른청구액의증가세를통제한다면미세먼지농도와청구액은강한양의상관관계를보임청구액예측 : 시간경과에따른건강보험청구액증가추세가유지된다면, 2018년에미세먼지농도를 10μg/m3 감축시호흡계통의질환을주상병또는부상병요인으로하는건강보험청구액은매일약 10억원감소할것으로추정됨 편상관 : 시간경과를통제한미세먼지농도와일평균청구액사이의편상관계수는 0.45, P < 0.001로, 시간경과에따른청구액증가세를통제할경우미세먼지농도는청구액과양의상관관계를보임청구액예측 : 시간경과에따른건강보험청구액증가추세가유지된다면, 2018년에는미세먼지농도를 10μg/m3 감축시순환계통의질환을주상병또는부상병요인으로하는건강보험청구액이매일약 2억원감소할것으로추정됨 37 38
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 피부및피하조직의질환단순상관 : 피부및피하조직의질환은청구액이시간경과와양의상관관계, 미세먼지농도와는음의상관관계를보임. 전국적으로미세먼지농도와청구액의단순상관계수는 -0.44 (P < 0.001) 로나타났으며, 각지역별로도대부분은음의상관관계를보임 청구액예측 : 시간경과에따른건강보험청구액증가추세가유지된다면, 2018 년에는 미세먼지농도를 10μg/m3 감축시피부및피하조직의질환을주상병또는 부상병요인으로하는건강보험청구액이매일약 9 천만원증가할것으로추정됨 4. 결론 미세먼지농도와호흡기계통의질환, 순환기계통의질환을각각주상병또는부상병으로하는건강보험청구액사이에유의미한양의상관관계가있음시간의경과에따라청구액이증가하는추세를보정할경우미세먼지농도와호흡기계통의질환청구액사이의편상관계수가각각 0.59 (P < 0.001), 0.45 (P < 0.001) 로확연한양의상관관계를보임 2018년기준, 미세먼지농도를 10μg/m3 감축시호흡계통의질환을주상병또는부상병요인으로하는건강보험청구액은매일약 10억원, 순환계통의질환청구액은매일약 2억원씩감소할것으로예측됨본연구결과는건강보험빅데이터와국가대기측정망자료를연계하여수행할수있는다양한분석의한단면이며, 향후다양한통계방법론적용, 추가적인자료원연계등을통해미세먼지의국가경제적영향을다층적으로연구할수있음 편상관 : 시간경과를통제한미세먼지농도와일평균청구액사이의편상관계수는 -0.50, P < 0.001로, 시간경과에따른청구액증가세를통제할경우미세먼지농도는청구액과음의상관관계를보임. 이는높은미세먼지농도에직접적인건강이득이있다고해석하기보다, 야외활동감소및자외선노출억제효과등미지의간접적효과에의해역설적인결과가나타났다고보는것이타당함 39 40
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 최근 8 년간항우울제처방양상변화 연구책임자연구실무자분석지원 박병주교수김선지선정연주임연구원 3. 분석결과 연구대상자는 2,245,120명, 전체항우울제처방은 82,557,411건임연구대상 2,245,120명중여성이 67.03% 를차지하였고, 연령별로는 40세 ~ 59세가 35.82%, 60세 ~ 79세가 26.89% 를차지함 서울대학교의과대학서울대학교의과대학건강보험심사평가원 2017 년 HIRA 빅데이터분석협업과제 사례 [ 표 1] 전체우울증환자의특성 1. 분석배경 우리나라에서사용되고있는항우울제는삼환계항우울제, 선택적세로토닌재흡수억제제, 세로토닌노르에피네프린재흡수억제제, 단가아민산화효소억제제등대표적인 4개의약물군과그외의나머지약물군인기타항우울제로총 5군으로분류되고있음항우울제사용은미국에서꾸준히증가하고있으며, 우리나라의항우울제사용규모도 2010년대비 2014년에 22% 나증가하였음항우울제는인적, 지역적, 시간적특성별로처방양상에상당한변이가있는것으로외국에서알려져있음따라서우리나라우울증환자의항우울제처방양상을분석하여, 우울증환자에서항우울제처방양상을확인하고자함 Characteristics No. of patients % Gender <.0001 Male 740,170 32.97 Female 1,504,950 67.03 Age (Mean±SD) (46.96±18.88) <.0001 <20 218,077 9.71 20-39 569,528 25.37 40-59 804,145 35.82 60-79 603,737 26.89 80 49,633 2.21 Total 2,245,120 100.00 2. 분석방법과내용 대상 : 2009 년부터 2016 년까지의료기관을방문하여주상병으로우울증을진단받고항우울제를 처방받은전체환자 항우울제처방은 82,557,411 건이었고, 그중삼환계항우울제가 28.09%, 선택적세로토닌 재흡수억제제 35.55%, 세로토닌노르에피네프린재흡수억제제 6.53%, 단가아민산화효소억제제 0.14%, 기타항우울제는 29.69% 임 자료원 : 2009 년 ~ 2016 년건강보험청구자료 분석방법 : 국내우울증환자에서의계열별, 성분별항우울제의처방양상을확인함 41 42
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 [ 표 2] 항우울제계열별처방양상 Class No. of prescription % TCA 23,194,113 28.09 SSRI 29,347,548 35.55 SNRI 5,393,159 6.53 MAOI 111,965 0.14 Others 24,510,626 29.69 Total 82,557,411 100.00 트라조돈은항우울제처방건중 18.53% 로가장많이처방되는성분임. 삼환계항우울제인 아미트립틸린 17.23%, 선택적세로토닌재흡수억제제인에스시탈로프람, 플루옥세틴, 파록세틴이각각 15.82%, 7.64%, 6.90% 순으로나타남 [ 표3] 항우울제성분별처방양상 Class Generic name No. of prescription % TCA Amitriptyline 14,224,952 17.23 Clomipramine 537,908 0.65 Dothiepin 38,679 0.05 Imipramine 3,330,946 4.03 Nortriptyline 3,776,258 4.57 Quinupramine 1,285,370 1.56 SSRI Citalopram 78,049 0.09 Escitalopram 13,057,458 15.82 Fluoxetine 6,307,046 7.64 Fluvoxamine 785,078 0.95 Paroxetine 5,696,693 6.90 Sertraline 3,423,224 4.15 SNRI Desvenlafaxine 51,321 0.06 Duloxetine 2,228,473 2.70 Milnacipran 549,598 0.67 Venlafaxine 2,563,767 3.11 MAOI Moclobemide 78,344 0.09 Selegiline 33,621 0.04 Others Amoxapine 17,375 0.02 Bupropion 1,361,475 1.65 Hypericiherba 300,618 0.36 Mirtazapine 3,280,527 3.97 Tianeptine 4,253,269 5.15 Trazodone 15,297,362 18.53 Total 82,557,411 100.00 43 44
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 월별항우울제처방은 2009 년부터지속적으로증가함 선택적세로토닌재흡수억제제는에스시탈로프람이월별처방건수를결정하며, 지속적으로증가함 [ 그림 3] SSRI 약물군에서월별성분별항우울제처방양상 [ 그림 1] 월별계열별항우울제처방양상 세로토닌노르에피네프린재흡수억제제는지속적으로증가함 삼환계항우울제는아미트립틸린이월별처방건수를결정하며, 지속적으로증가하다 2012 년부터 감소함 [ 그림 4] SNRI 약물군에서월별성분별항우울제처방양상 [ 그림 2] TCA 약물군에서월별성분별항우울제처방양상 45 46
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 4. 결론 지난 8년동안항우울제의처방량은증가하고있으며, 40-59세의우울증환자가많았음삼환계항우울제의사용량은 2012년부터감소하고있으며, 삼환계항우울제를제외한다른항우울제의사용량은증가함 1세대항우울제인삼환계항우울제는이후출시된선택적세로토닌재흡수억제제, 세로토닌노프에피네프린재흡수억제제, 기타항우울제에비해비교적부작용이많은것으로알려져있어사용량이감소하는것으로보임우울증은장기치료를요하지만치료가능성이높은질환으로서우울증환자를대상으로적절한관리가필요함 [ 그림 5] MAOI 약물군에서월별성분별항우울제처방양상 기타항우울제는트라조돈이월별처방건수를결정하며, 증가하는양상을보임 [ 그림 6] Others 약물군에서월별성분별항우울제처방양상 47 48
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 빅데이터분석방법 (Shrinkage Methods) 을이용한한국인의골다공증에연관된질병현황 연구책임자연구실무자분석지원 최제용교수신승연신서희주임연구원 경북대학교의과대학경북대학교의과대학건강보험심사평가원 1. 분석배경 2017 년 HIRA 빅데이터분석협업과제 사례 회귀분석 (Regression Analysis) 은설명변수를설정ㆍ활용하여종속변수를설명하는분석 방법으로보건의료분야에서도널리쓰이는분석방법임 하지만설명변수가많은경우불필요한부분까지설명하는과적합문제가발생할수있음 자료원 : 2012년 ~2016년건강보험청구자료분석방법기간중골다공증환자 1,000명이추출될때까지골다공증을진단받지않은환자를표본추출한후클렌징작업설명변수개수가많을때유용한축소방법 (Shrinkage Method) 을이용한회귀분석을통해골다공증에영향을미치는질병군선택 * 종속변수 : 골다공증발생여부, 설명변수 : 질병유무및진료횟수 * 질병의개수가많으므로, 과적합 (Over-fitting) 을피하고최적의질병개수조합을도출하고자축소방법을이용한회귀분석수행 * 축소모수 λ는 5 fold-cross Validation에의해결정 [ 표 1] 축소방법 (Shrinkage Method) 를이용한회귀분석 축소방법 (Shrinkage Methods) 을이용한회귀분석은과적합문제를해결할수있는장점이있어설명변수가많은경우주로활용함많은질환들을설명변수로설정하여연관질환을찾는경우, 축소방법을이용한회귀분석을실시한다면유의미한결과가도출될것으로예상됨골다공증은큰증상없이진행되어침묵의병이라불리는만큼진단이어려워, 빠른진단을위해서는연관질환에대한분석이필요함축소방법을활용하여골다공증에연관된질환들을연구하여질병네트워크를구축한다면, 골다공증의빠른진단과예방에도움을줄수있을것으로기대본연구의결과를 PDN(Phenotype Disease Network) 과골대사학기반 Gene Ontology Network 연구의기초자료로활용 2. 분석방법과내용 대상 : 2013 년 ~2015 년골다공증진료환자 회귀분석 설명변수수가많을경우과적합 문제발생 과적합 (Over-fitting): 자료의불필요한부분 (noise) 까지설명하여부정확한결과를도출 min RSS(Residual Sum of Square) 을최소화하는 β 추정 축소방법 (Shrinkage Method) 를이용한회귀분석 불필요한변수들을제거하여과적합을피할수있으며, 설명변수가수백개일때도활용가능하다는장점이있음 min RSS 에 Penalty 조건 () 을추가하여 RSS + Penalty 를최소화하는 β 추정 Penalty 는불필요한변수들의추정값을 0 에가깝게만들어제거하는역할축소 (Shrinkage) 정도는 λ 에의해조절되며, λ 가커질수록제거하는변수많아짐 * λ 0 ( 축소량최소 ): 모든변수를추정 * λ ( 축소량최대 ): 상수항 (β 0 ) 만남음 49 50
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 골다공증환자 981명비골다공증환자 21593명 3. 분석결과 환자당질병유무상병코드 3 자리 ( 이항변수 ) 환자당질병유무및방문횟수골다공증환자 981명비골다공증환자 981명상병코드 1자리 ( 명목변수 ) 형질질환연구 수축방법 (Shrinkage Method) [ 그림 1] 연구를위한작업흐룸도 ( 음영처리부분이주된내용임 ) 선택된질병챕터 (ICD-10 기반 ) 골다공증환자 981 명중남성은 69 명, 여성은 912 명으로여성의비율이크게높았으며, 평균 연령이 60 세이상으로고령층에서많이발생함 골다공증 비골다공증 [ 표 2] 골다공증과비골다공증환자수와평균연령 성별환자수연령 ( 평균 ± 분산 ) 남 69 68.75±10.42 여 912 64.71±10.63 남 11,668 35.03±20.24 여 9,925 33.20±20.17 [ 표 3] ICD-10 기준질환분류 구분 ICD-10코드 질환명 Ch1 A00-B99 특정전염병및기생충병 Ch2 C00-D48 종양 Ch3 D50-D89 혈액과조혈기관의질병및면역체계관련특정장애 Ch4 E00-E90 내분비, 영양및대사질병 Ch5 F00-F99 정신및행동장애 Ch6 G00-G99 신경계통의질병 Ch7 H00-H59 눈과그에딸린기관의질병 Ch8 H60-H95 귀와유양돌기 Ch9 I00-I99 순환계통의질병 Ch10 J00-J99 호흡기계통의질병 Ch11 K00-K93 소화계통의질병 Ch12 L00-L99 피부와피하조직의질병 Ch13 M00-M99 근육과연결조직의질병 Ch14 N00-N99 생식, 배설계통의질병 Ch15 O00-O99 임신, 출산, 산후조리 Ch16 P00-P96 출산전후기간에일어나는어떤상태 Ch17 Q00-Q99 선천성기형, 변형, 염색체의이상 Ch18 R00-R99 다른곳에서분류되지않은증상, 증세나임상또는연구에서발견한비정상 Ch19 S00-T98 상처, 중독과외부원인에의한것들 Ch20 V01-Y98 질병이나사망의외부적원인 Ch21 Z00-Z99 건강상태에영향을미치는원인들과, 보건서비스와의관계 Ch22 U00-U99 특별목적을위한코드 ICD-10 기준으로질환을 22 개의범주로구분하였으며 [ 표 3], 이들질환유무를설명변수로 골다공증발생여부를종속변수로하여축소방법을이용한회귀분석을실시함 축소방법을이용한회귀분석에서최적화된설명변수개수는 SBC(Schwarz-Bayesian Criterion) 를기준으로결정하였으며, 설명변수개수에따른 SBC 값과회귀계수추정값은 [ 그림 2] 와같음 설명변수가 8 개일때 SBC 가가장작게나타났으며 (SBC 가작을수록좋음 ), 선택된 8 개 설명변수는회귀계수추정값크기순으로 Ch13, Ch9, Ch11, Ch7, Ch4, Ch19, Ch5, Ch18 임 51 52
Ⅱ. HIRA 빅데이터분석사례 HIRA 빅데이터브리프 축소단계 ( 설명변수개수 ) 에따른 SBC 비교 [ 그림 3] 선택된질환 ( 챕터 ) 의계수추정값 축소단계 ( 설명변수개수 ) 에따른회귀계수추정값경로 4. 결론 축소방법 (Shrinkage Methods) 을이용한회귀분석의수행결과, 근육과연결조직의질병 의 영향력이가장큰것으로나타남 [ 그림 2] 축소단계 ( 설명변수개수 ) 에따른 SBC, 회귀계수추정값경로선택된 8개챕터의계수추정값을보면 (Ch13) 근육과연결조직의질병 이가장높은영향력을보였으며, (Ch18) 다른곳에서분류되지않은증상, 증세나임상또는연구에서발견한비정상 이포함된것이특징임 골다공증에미치는영향이가장큰질환은 근육과연결조직의질병 이었으며, 순환계통의질병, 소화계통의질병 등순으로나타남다소당연한결과이지만, 보건의료분야에서동반질환에대한새로운분석방법의적용가능성을확인한것으로의미가있음위결과는미국의골다공증동반질환연구결과와양상은비슷하나세부적인질환은다르기때문에, 한국인특이적인질환이존재하는지더욱깊은연구가필요함 이를위해 PDN(Phenotype Disease Network) 과골대사학기반 Gene ontology Network를맵핑한추가연구를추진하고있음분석환경의한계로인해 22개카테고리로분석을실시하였지만좀더세분화된질병코드를사용한다면정확한결과를얻을수있을것임 53 54
Ⅲ HIRA 빅데이터분석가이드 HIRA 빅데이터분석가이드는 HIRA 빅데이터에대한구조를소개하고, 대표적인통계분석방법을안내하여연구자들이좀더쉽게 HIRA 빅데이터를활용할수있도록지원합니다.
Ⅲ. HIRA 빅데이터분석가이드 HIRA 빅데이터브리프 분석가이드란? HIRA 보건의료빅데이터소개 본분석가이드는건강보험심사평가원의데이터활용을원하는연구자들에게도움이되고자작성되었습니다. 심평원데이터를처음접하거나, 익숙치않은분들도연구에자유롭게활용할수있도록최대한자세하고쉽게설명하고자합니다. 첫호인이번호에서는 HIRA 보건의료빅데이터에대한설명을담고있으며, 다음호부터데이터구축, 실제활용예시등순차적으로소개할예정입니다. [ 표 1] HIRA 빅데이터분석가이드계획 (2018년) 호주제 1. HIRA 보건의료빅데이터소개 건강보험청구자료는요양기관에서청구한명세서심사가완료된자료를데이터베이스화한자료임한건의청구명세서를여러테이블로분리하여저장ㆍ관리하고있으며, 이들은연계변수를이용하여테이블간연계가가능함명세서일반내역, 진료내역, 수진자상병내역, 원외처방전상세내역등으로구분하여저장ㆍ관리되고있음 2018년 1분기 ( 제2권 1호 ) HIRA 보건의료빅데이터소개 2018년 2분기 ( 제2권 2호 ) 에피소드구축 ( 입원에피소드등 ) 2018년 3분기 ( 제2권 3호 ) 동반질환구축 2018년 4분기 ( 제2권 4호 ) 대조군설정 [ 그림 1] 청구명세서구조 57 58
Ⅲ. HIRA 빅데이터분석가이드 HIRA 빅데이터브리프 2. HIRA 보건의료빅데이터구조 ( 테이블 ) 명세서일반내역 (200 테이블 ) 환자기본정보 : 성별, 연령, 보험형태 ( 건강보험, 의료급여등 ) 등 상병정보 : 주상병, 제 1 부상병 진료정보 : 환자도착경로, 요양개시 / 종료일자, 입원 / 외래구분, 요양기관등 급여정보 : 심사결정요양급여비용총액, 심사결정보험자부담금등 진료내역 (300 테이블 ) 요양기관 ( 약국제외 ) 에서받은검사, 시술 / 수술, 치료재료, 원내조제내역등 수진자상병내역 (400 테이블 ) 200 테이블의주상병, 제 1 부상병을포함한환자의모든상병정보 원외처방전상세내역 (530 테이블 ) 요양기관 ( 약국제외 ) 의원외처방내역 명세서일반내역 (200TABLE) 명세서조인키 (PK) 서식구분수진자대체키수진자연령성별요양기호대체키요양기관소재지종별심결총요양급여비용내원일수등 진료내역 (300TABLE) 명세서조인키항목코드분류코드일반명코드총사용량금액 요양기관현황 요양기호대체키의사수간호사수약사수총병상수허가병상수등 상병내역 (400TABLE) 명세서조인키상병일련번호상병코드상병분류코드진료과목내과세부전문과목 [ 그림 2] 건강보험청구자료의주요테이블관계도 원외처방내역 (530TABLE) 명세서조인키항목코드분류코드일반명코드총사용량금액 3. HIRA 보건의료빅데이터변수 명세서일반내역 (200 테이블 ) 순번 칼럼명 칼럼설명 1 명세서조인키 테이블간연계를위한조인키 2 보험자종별구분코드 수진자가소속된보험종류 3 수진자개인식별대체키 수진자개인정보를비식별화한대체키 4 성별구분 수진자성별 5 수진자연령 수진자연령 ( 요양개시일자기준으로산출 ) 6 수진자통계연령 수진자통계연령 ( 당해 12월 31일기준으로산출 ) 7 요양기관식별대체키 요양기관정보를비식별화한대체키 8 요양기관종별구분코드 요양기관을종별코드를기준으로병상규모에따라그룹화하여분류한코드 9 지역 ( 시도 ) 코드 요양기관이위치한지역코드 10 서식구분코드 고시된서식코드를기준으로유형별 ( 의과입원ㆍ의과외래등 ) 로세분화한코드 11 주상병코드 KCD 분류에따른주된상병기호 12 부상병코드 주된상병기호외의추가상병기호 ( 제 1부상병까지 ) 13 진료과목코드 요양기관의진료과목코드 14 요양개시일자 수진자가진료를받기시작한일자, 최초내방일자 15 요양종료일자 수진자가진료받기를종료한일자 16 최초입원일자 진료를위하여최초내원한일자 ( 분리청구시기재 ) 17 입내원일수 수진자가진료를받기위해요양기관에내원한일수 ( 초진 + 재진 ), 입원일수 18 요양일수 수진자가진료받은총일수 ( 투약일수포함 ) 19 원외처방일수 처방전발행내역중처방일수의합계 20 원외처방약제비 처방전발행내역중처방금액의합계 21 원외처방전건수 처방전을발행한건수 22 심사결정요양급여비용총액 심사결과수진자부담금액과보험자부담금액을합한요양급여비용총액 23 심사결정본인부담금 심사결과수진자본인이부담해야될금액 24 심사결정보험자부담금 심사결과보험자가부담해야될금액 25 심사결정100분의100미만총액 심사결과 100분의 100미만총금액 26 수술여부 주된상병명과관련된수술의시행여부 27 공상구분코드 공무상상해구분 28 특정기호구분코드 특정기호구분코드 29 상해외인구분코드 명세서특정내역중특정내역구분코드가존재하는경우해당. 한국표준질병사인분류의제20장에의거상병의원인에해당하는분류기호중영문첫자리 (V, W, X, Y) 를 ' 특정내역기재란 (MT001)' 에기재함 30 진료결과구분코드 요양급여비용명세서상최종진료일의환자상태 31 입원도착경로구분코드 병원급이상입원환자의경우요양기관도착경로및입원경로 32 의료급여종별코드 의료급여종별코드 33 청구형태코드 행위별청구의매체구분및 DRG건에대한코드 34 청구구분코드 일반청구및보완청구, 추가청구등인지를구분하는코드 35 심사년월 심사완료년월 36 표시과목코드 의원급의경우요양기관현황의표시과목코드, 병원급이상은청구된진료과목코드기준 59 60
Ⅲ. HIRA 빅데이터분석가이드 HIRA 빅데이터브리프 진료내역 (300 테이블 ) 순번 칼럼명 칼럼설명 1 명세서조인키 테이블간연계를위한조인키 2 항목코드 명세서항별목코드 ( 항코드 + 목코드 ) 3 분류코드구분 분류코드를구분하는구분자 4 분류코드 수가 ( 행위 ) 코드, 약품코드, 재료대코드등진료내역코드 5 1회투여량 1회에투여한량 6 1일투여량 1일환자에게투여한량 7 1일투여량또는실시횟수 1일투여량또는실시횟수 8 총투여일수또는실시횟수 총투여일수또는실시횟수 9 총사용량 1회투여량 1일투여량 총투여일수또는실시횟수 10 단가 분류코드별단가 11 금액 단가 (1일투여량또는실시횟수 ) ( 총투여일수또는실시횟수 ) 원외처방전상세내역 (530 테이블 ) 순번 칼럼명 칼럼설명 1 명세서조인키 테이블간연계를위한조인키 2 처방전교부번호 진료기관에서처방전발행시부여한교부번호 3 분류코드구분 분류코드를구분하는구분자 4 분류코드 수가 ( 행위 ) 코드, 약품코드, 재료대코드등진료내역코드 5 1회투약량 1회에투약한량 6 1일투약횟수 1일투약횟수 7 총투약일수 총투약일수 8 총사용량 1회투약량 1일투약량 총투약일수 9 단가 분류코드별단가 10 금액 단가 1일투약량 총투약일수 11 일반명코드 약제급여목록및급여상한금액표 에기재된주성분코드 12 가산적용금액 가산율을적용한금액 13 일반명코드 약제급여목록및급여상한금액표 에기재된주성분코드 14 진료예외구분코드 진료예외구분코드 15 1_2구분코드 진료코드의요양기관종별가산율적용여부를구분하기위한코드 수진자상병내역 (400 테이블 ) 순번 칼럼명 칼럼설명 1 명세서조인키 테이블간연계를위한조인키 2 일련번호 청구명세서상에기록된상병코드입력시일련번호 3 상병코드 KCD분류에따른상병코드 4 상병분류구분 상병을주, 부, 배제상병으로분류한코드 5 진료과목코드 요양기관의진료과목코드 6 내과세부전문과목 내과진료과목중 세부전문의제도인증규정 ( 대한의학회 ) 에의거인증받은세부전문과목을운영하고있는종합병원, 상급종합병원의경우진료를받은세부전문과목코드 61 62
Ⅲ. HIRA 빅데이터분석가이드 4. HIRA 보건의료빅데이터이용안내 HIRA 보건의료빅데이터이용안내보건의료빅데이터개방시스템 (opendata.hira.or.kr) 에서는여러가지형태의빅데이터서비스가제공되고있으며, 용도에따라적합한서비스선택ㆍ이용이가능함 구분 원시자료 (raw data) 분석지원서비스 Open API 실시간제공서비스 환자표본 DB 제공서비스 설명 연구자및산업체가원하는맞춤형원시데이터분석이가능하도록방문또는원격접속으로빅데이터분석시스템활용 민간기업, 프로그램개발자, 인터넷이용자를대상으로손쉽게직접응용프로그램과서비스를개발할수있도록병원ㆍ약국정보서비스등보건의료데이터지원 연구자의필요에따라환자표본데이터등총 4 개의 DB 데이터셋을생성ㆍ제공하여연구및 R&D 사업에활용하도록지원 HIRA 보건의료빅데이터이용절차 자세한내용은보건의료빅데이터개방시스템 (opendata.hira.or.kr) 에접속후 의료빅데이터 - 빅데이터분석이용안내 참고 63
H I R A 빅데이터브리프 발 행 월 2018년 3월 발 행 인 김승택 발 행 처 [26465] 강원도원주시혁신로 60 전 화 1644-2000 홈페이지 www.hira.or.kr 디자인 기획 ( 사 ) 한국근로장애인진흥회다원디자인프린팅