웹개방성확대를위한가이드라인 013. 4. 한국인터넷전문가협회 대외협력본부 - 1 -
Ⅰ. 조사개요 1. 조사목적. 조사개요 3. 조사방법 Ⅱ. 세부내용 3 1. 로봇배제표준(robots.txt) 내용확인 3 1) 로봇배제표준이란? 3 ) 로봇배제표준사용방법 3 3) 로봇배제표준확인방법 4 4) 확인결과예시 4 5) 가이드라인 5. 메타태그속성(noindex, nofollow) 확인 5 1) noindex : <meta name="robots" content="noindex"> 5 ) nofollow : <meta name="robots" content="nofollow"> 5 3) noindex, nofollow 상세설명 6 4) 확인결과예시 6 5) 가이드라인 7 3. 검색엔진비친화적사이트확인 8 1) ActiveX 사용 8 ) Image / Flash 위주의웹사이트 9 3) 검색엔진비친화적웹사이트확인방법 10 4) 가이드라인 13 4. User-agent Switcher 를이용한검색차단확인 14 1) 검색로봇으로가장해해당사이트접근 14 ) User-agent Switcher 설정방법( 크롬기준) 14 3) 차단사례확인 17 4) 가이드라인 18 5. URL 공개또는비공개여부확인 18 1) URL 변경여부를직접확인하는방법 18 ) form 태그의 method 속성중 get과 post 확인 0 3) 가이드라인 1 Ⅲ. 조사결과 3 1. 조사현황 3. 결과분석 3 3. 조사결과종합 3 4. 조사의한계 4 5. 조사의제언 4-1 -
Ⅰ 조사개요 1. 조사목적 교육및공공기관의웹사이트개방성현황을평가하여공공정보개방에대한인식제고및실질적개방성향상을목적으로함 대국민정보사이트의개방성지수가일정수준을유지하도록권고하기위한기초자료로활용. 조사개요 조사대상 조사내용 국내국 공립및사립대학교 100 개정부산하연구기관등공공정보사이트 100개 A robots.txt 파일을통한차단확인 B noindex / nofollow 태그확인 C ActiveX / Image / Flash 사용여부확인 D User-agent 기반으로접근차단확인 E URL 공개또는비공개여부확인 조사기간 013년 1월 1 일 ~ 013년 월 0 일( 총 1 개월) 검수방법조사를담당한 개의팀이각자조사한결과를교환해검수진행 3. 조사방법 A robots.txt 파일을통한차단확인 - 각각의웹사이트의홈페이지에서 robots.txt 파일조사 B noindex / nofollow 태그확인 - 조사대상웹페이지에접속후소스보기를확인해아래와같이메타태그에 content= noindex 를설정했는지확인 <meta name= robots content= noindex > C ActiveX / Image / Flash 사용여부확인 - 각각의웹사이트메인및서브페이지에접속해 ActiveX / Image / Flash 사용여부조사(1개사이트에서메인포함 5 개페이지조사) D User-agent 기반으로접근차단확인 - 브라우저의 User-agent Switcher 기능을이용해해당웹서버가검색로봇을차단하는지여부확인 E URL 공개또는비공개여부확인 - 게시판의게시물목록과게시물보기페이지를접속할때해당 URL이변경되는지확인하고 URL만으로목록과특정게시물을접근할수있는지확인 - -
Ⅱ 세부내용 1. 로봇배제표준1) (robots.txt) 내용확인 1) 로봇배제표준이란? 1 로봇배제표준은웹사이트에로봇이접근하는것을방지하기위한규약 으로, 일반적으로접근제한에대한내용을 robots.txt 에기술한다. 검색엔진의정보수집용로봇이웹서버에접근하면수집용로봇은서버 의최상위디렉터리에서 robots.txt 용혹은차단여부를확인한다. 3 정보수집용로봇은 이지를수집한다. 파일을불러내문서에대한수집허 robots.txt에기술된내용을바탕으로웹사이트의페 중요관리자폴더혹은계정정보가들어있는디렉터 리에대하여정보수집용로봇의접근을각각따로설정하여보안을강 화할수있다. 4 최상위디렉터리에 robots.txt 파일이없다면, 모든문서에대하여검색 로봇의접근이허용된다. ) 로봇배제표준사용방법 1 문서접근완전허용 : 검색로봇이모든문서에접근하도록허용 User-agent: * #User-agent 에서 * 은모든로봇을지칭한다. Allow: / # 모든디렉터리에서로봇의접근을허용한다. 문서접근완전차단 : 검색로봇이모든문서에접근할수없도록차단 User-agent: * Disallow: / # 모든디렉터리에서로봇의접근을차단한다. 3 문서접근부분차단 : 구글검색로봇에대하여 /admin/, /tmp/ 이하의 모든페이지에검색로봇의접근차단 1 ) 이규약은 1 9 9 4년 6 월에처음만들어졌고, 아직이규약에대한 R FC 는없다. 이규약은권고안이며, 로봇이 ro b o ts.txt 파일을읽고접근을중지하는것을목적으로한다. 따라서, 접근방지설정을하였다고해도, 다른 사람들이그파일에접근할수있다.( 출처 : 위키백과, h ttp ://b it.ly/y B O 3 1 d ) - 3 -
User-agent: Googlebot Disallow: /admin/ Disallow: /tmp/ 3) 로봇배제표준확인방법 1 조사대상웹사이트에접속합니다. ex) http://www.sutra.re.kr/ robots.txt는웹사이트서버의최상위디렉터리에존재함으로브라우저 주소창의해당웹사이트의주소뒤에 키를누릅니다. "/robots.txt" 를추가입력하고엔터 3 페이지에나타나는결과에따라로봇을배제하는지여부를확인할수 있습니다. 이모든과정을한번에진행하려면해당웹사이트주소뒤에 /robots.txt 를복사한후엔터키를누릅니다. ex)http://www.sutra.re.kr/robots.txt 4) 확인결과예시 1 http://www.copyright.or.kr/robots.txt 한국저작권위원회 robots.txt 가존재하지않음으로모든로봇에대한모든문서접근허용 http://www.inje.ac.kr/robots.txt 인제대학교 모든로봇에대하여 /PDG/, /clife/ 이하의페이지만접근을차단하고나머지 는허용 3 http://suwon.ac.kr/robots.txt 수원대학교 모든로봇에대한문서접근완전차단 - 4 -
5) 가이드라인 1 검색로봇을차단하는이유에대해회사내부의정책이있는경우정책내용에따라적절히활용 검색로봇차단과관련해특별한정책을수립하지않은경우보안과트래픽을고려해부분차단을적절히활용하는방안검토필요 3 트래픽과보안관련정책을우선수립하고이에맞는적절한로봇배제표준을적용할경우콘텐츠에대한접근권을향상시켜사용자노출빈도를높일수있다는점을고려해전체차단보다는부분차단권고. 메타태그속성(noindex, nofollow) 확인 1) noindex : <meta name="robots" content="noindex"> 1 3 검색엔진이문서정보를알수있도록안내하는역할을하는 meta tag의 content 속성중 noindex는해당페이지에대한색인을제한하는역할 을합니다. 색인은인덱스또는찾아보기라고정의하기도하는데로봇이색인을한 다는것은해당페이지에대한간략한정보를요약저장하는것을의미 합니다. 로봇이색인을못하게되면해당페이지에대한정보가저장되지않기 때문에검색에서제외됩니다. ) nofollow : <meta name="robots" content="nofollow"> 1 3 meta tag의 content 속성에 nofollow를설정하게되면검색로봇이해당 페이지에수록된링크를따라갈수없도록제한합니다. nofollow 링크에대해추적, 합니다. nofollow 속성은페이지수준의메타태그에서사용되며페이지의외부 즉크롤링하지않도록검색엔진에지시하는역할을 속성을사용할경우검색로봇은타겟링크를삭제하기때문에 효율적인검색을방해할수있습니다. - 5 -
3) noindex, nofollow 상세설명 1 <meta name="googlebot" content="noindex"> Google 로봇을제외한다른모든로봇이사이트의페이지에대해색인을생성하도록허용합니다. <meta name="robots" content="noindex, follow"> 해당페이지의색인은차단하고, 해당페이지에수록된링크들을따라갈수있도록한다. 3 <meta name="robots" content="index, nofollow"> 해당페이지의색인은허용하나, 해당페이지에수록된링크들은따라갈수없다. 4 <meta name="robots" content="noindex, nofollow"> 해당페이지의색인을차단하고, 해당페이지에수록된링크들또한따라갈수없다. 5 noindex, nofollow 태그가없을경우검색로봇은색인이가능하고링크또한따라갈수있다. 4) 확인결과예시 1 http://www.macc.go.kr/ 행정중심복합도시건설청 해당페이지의색인을차단하고, 해당페이지에수록된링크를따라갈수없다. - 6 -
http://snu.ac.kr/ 서울대학교 해당페이지의색인을허용하고, 링크들또한따라갈수있다. 5) 가이드라인 1 웹사이트의소스코드메타태그의기능을정확히이해하고적절히사용 해불필요한검색제한방지 무조건적인색인차단과보안강화보다는합리적이고효율적인보안정 3 책과콘텐츠노출범위에대한기준마련을통해세밀하게적용할필요 있음 필요한경우 noindex로색인은허용하고 nofollow로링크만차단하는 방법으로콘텐츠의존재여부는공개하고실제정보에는접근하지못하 도록조절할수있음 robots.txt와 noindex를사용했음에도검색결과에노출되는경우 - robots.txt로검색수집용로봇을차단하고각페이지마다 noindex 메타태 1 3 4 그를추가했음에도불구하고해당페이지가검색결과에노출되는경우가 있습니다. 예를들어 A.com/a.html에 noindex 메타태그가있고 A.com/robots.txt에 서로봇을차단합니다. 검색수집이완전허용된 B.com/b.html에 A.com/a.html의링크가수록되 어있다면검색결과에 A.com/a.html 이노출이됩니다. A.com/robots.txt 에서로봇검색을차단했기때문에검색로봇은 A.com/a.html에들어있는 noindex 으로는 합니다. 메타태그를확인할수없고결과적 A.com/a.html에서색인을차단하고있다는사실을인지하지못 하지만 b.html을검색해 a.html 을색인에포함시키게됩니다. - 7 -
b.html 링크 a.html <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> robots.txt User-agent: * B.com A.com Disallow: / - 위의사례에서 a.html의색인을막으려면 robots.txt를수정해로봇이검색을할수있도록허용한후중요페이지에대해서는 noindex, nofollow 메타태그를추가하여색인할수없다는것을알려주어야합니다. 3. 검색엔진비친화적사이트확인 1) ActiveX 사용 1 비표준기술인 3 4 ActiveX 과다사용은웹호환성및보안문제를발생시킴 국내웹서비스환경이 IE에최적화돼공인인증등 IE에적합한기술로 개발및보급되는쏠림현상발생 ActiveX 지는불편초래 사용예시 위주의서비스환경은급변하는모바일환경에서호환성이떨어 - http://www.kdb.co.kr/ KDB산업은행 메인페이지접속시 ActiveX를설치하라는메시지가나타남 - 8 -
) Image / Flash ) 위주의웹사이트 1 Image나 3 Flash를 활용해본문텍스트등을표현할경우검색용로봇이 이미지안의글자를인식할수없기때문에검색이불가능함 콘텐츠를 Image나 Flash로표현하면해당 내용이색인되지않는것은 물론, 시각장애인의웹접근성을떨어뜨릴수있으므로대체텍스트등 부가적인장치를추가해야하는번거로움발생 사용예시 - http://www.ksoi.org/ 한국사회여론연구소 텍스트처럼보이지만드래그혹은마우스오른쪽버튼을통해보면이미지파일임을알수있음 - http://www.smu.ac.kr 상명대학교 플래시플레이어가설치되지않은브라우저에서는콘텐츠가제대로표시되지않음 ) 어도비사에서만든플랫폼으로다양한확장성과화려한효과등으로대부분의 P C에서사용중인확장프로그 램이다. 한때거의모든웹사이트에서사용했을정도로인기를끌었으나 H T M L의최신규격인 H T M L 5의등장 과웹표준지향적인분위기에서점차사라져가고있는추세이다. - 9 -
3) 검색엔진비친화적웹사이트확인방법 3) 1 ActiveX 확인방법 - ActiveX를설치하지않은인터넷익스플로러나크롬등의웹브라우저로해당사이트를방문했을때정상적인웹페이지가아닌 ActiveX 설치페이지가나타나면 ActiveX에의한검색엔진비친화적사이트로분류 - 메인화면을포함해로그인, 결제등 ActiveX 사용빈도가높은메뉴를직접확인해 ActiveX존재여부확인 Image 위주의웹사이트확인방법 - Chrome 브라우저에서 Web Developer Extension을설치한후웹사이트를방문하면이미지위주의웹사이트는내용이보이지않으며, 대체텍스트항목을체크한경우대체텍스트를사용하고있는지도확인할수있음 설치방법 : 구글등의검색사이트에서 "Chrome Web Developer Extension" 으로검색하여다운로드 3) 마이크로소프트사에서개발한기술로기존응용프로그램에서작성된문서등을웹과연결시켜그대로사용할 수있도록도와주는기능을한다. 초창기에는인기가많았지만무분별한응용프로그램의자동설치와스파이웨 어등악성코드의위험과인터넷익스플로러의의존도감소로점차사라져가고있는추세이다. 게임및은행 사이트등에서자동으로설치되는키보드보안프로그램혹은결제프로그램등이 A c tiv e X 의대표적인예이다. - 10 -
1단계 Web Developer Extension 을설치후우측상단의메뉴가나오는데그중 Images" 탭선택 모양아이콘을클릭하면여러가지 단계 Images 항목중첫번째 Disable Images" 를선택합니다. ( Disable Images" 를설정하면해제하기전까지는모든사이트의이미지가보이지않음) - 11 -
3단계 Images 항목중두번째 Display Alt Attributes" 를선택할경우이미지대체텍스트가나타나해당이미지에대한대체텍스트를제공하는지확인할수있습니다. 3 Flash 위주의웹사이트확인방법 - Chrome 브라우저에서 Flash Block Extension을설치한후웹사이트를 방문하면플래시로제작된서비스가실행되지않음 설치방법 : 구글등의검색사이트에서 "Chrome Flash Block Extension" 으 로검색하여다운로드 - 1 -
4) 가이드라인 1 웹사이트제작시가급적이면 ActiveX 를사용하지않고, 웹표준을준수 하는방식으로제작하는것이바람직함 ActiveX를반드시사용해야하는경우에도공개된페이지에대해서는 ActiveX 의사용없이도정상적인정보가표시될수있는방향으로제작 3 이미지위주의웹사이트가필요한경우, 사진에대한설명을 Alt태그로 나타내고본문의내용전체를 하도록조치 Alt태그에입력하여최소한의검색이가능 4 플래시의경우에도반드시사용해야한다면중요콘텐츠를직접표현하 는방식을피하고네비게이션, 시각자료등웹수집이되지않아도관계 없는내용을중심으로표현 ( 플래시의경우도 Alt태그를이용해대체문구를만들어검색이가능하도 록조치 ) Alt태그 Alt 태그는이미지를설명하는목적으로사용되는데, Alt태그의내용이보이지않지만검색로봇은 수있음 일반사용자에게는 Alt태그속의내용을검색할 Alt태그사용예 - http://www.snu.ac.kr 서울대학교 위와같이이미지로되어있는텍스트정보는 Alt태그에들어있는본문 내용덕분에검색엔진수집용로봇이이미지화되어있는텍스트까지도 수집을가능하게한다. - 13 -
4. User-agent Switcher 를이용한검색차단확인 1) 1 검색로봇으로가장해해당사이트접근 브라우저의 User-agent Switcher 기능을이용해설정을마친후검색을 진행하면해당사이트에서는마치검색로봇이접근한것처럼인식함 조사자의 PC가웹사이트에접근할때해당사이트가로봇을차단하고 있다면차단메시지나나오므로로봇검색차단여부를쉽게알수있음 ) User-agent Switcher 설정방법( 크롬기준) 1 구글등의검색사이트에서 "User-agent Switcher for Chrome" 으로검색하여다운로드하고확장프로그램추가 아이콘을클릭하고 Settings 를누릅니다. - 14 -
3 아래와같이 Custom User-agent List" 화면으로이동하게됩니다. 4 여기에다음과같이세개의 User-agent 를추가합니다. 각각의 User-agent를입력하고 Add버튼을누르면 User-agent 가추가됩니다.( 오 타없이입력해야함 ) - User-agent 입력가이드 - 15 -
5 화면의가장아래에서다음과같이설정이됐는지확인합니다. 6 위와같이한번설정한후, 다시브라우저화면으로돌아가 아이 콘을클릭하면아래와같이 확인할수있습니다. Search Engine 이라는항목이추가된것을 7 Search Engine 메뉴를클릭하면조금전에추가한 Google, Naver1, Naver 가추가된것을볼수있습니다. 여기서 Google을선택하면 아이콘이으로바뀝니다. 8 이렇게설정을모두마친후검색을시작하면마치구글검색로봇이검색을하는것처럼가장해브라우징을할수있게됩니다. Naver1, 의경우에도마찬가지로네이버의검색로봇의입장에서브라우징합니다. - 16 -
User-agent 차단은웹서버에서이루어지는것이므로검색대상사이트 의웹페이지중하나만확인하면충분합니다. 다시원래상태로돌아오려면 6번메뉴 Chrome메뉴에서 Default를선 택하면됩니다. 3) 차단사례확인 1 숙명여자대학교구글차단화면 동의대학교구글차단화면 3 상명대학교네이버차단화면 4 울산대학교구글차단화면 - 17 -
5 국립환경과학원차단화면 4) 1 3 가이드라인 User-agent 의접속을차단은방화벽이나서버에서이루어지고소프트웨 어마다설정하는방법이다름 해당사이트의보안담당자혹은웹마스터는사이트의환경및보안정책 에알맞게 User-agent차단을관리하고있는지확인할필요있음 웹사이트관리자가변경되거나신규채용되는경우사내보안정책등 을고려해최소한분기별 1회 User-agent정책을조사해불필요한차단 이있는지검토 5. URL 공개또는비공개여부확인 1) URL 1 3 4 변경여부를직접확인하는방법 웹사이트와그안에포함된콘텐츠는고유의 URL 만알면웹사이트의특정게시물에접근할수있음 링크가걸려있는게시물이나검색결과페이지는매번 URL을가지고있기때문에 URL이바뀌는것 이일반적이지만필요한경우페이지가변경됐음에도불구하고주소창 의 URL이변하지않는경우도있음 페이지가변경됐지만실제주소가바뀌지않을경우검색로봇은이를 인식하지못해검색이제한될수있음 게시판에서게시물을클릭했을때주소가변경되는지확인하는등의방 법으로해당사이트가 URL을공개하는지확인할수있음 - 18 -
5 URL 확인결과예시 한양대학교홈페이지주소 : http://www.hanyang.ac.kr/ 한양대학교홈페이지내공지사항주소 : http://www.hanyang.ac.kr/ - 19 -
) form 태그의 method 속성중 get과 post 확인 1 변수를사용하는웹페이지는 post 또는 get 방식을사용해서버에변 수를전달함 웹페이지가 form태그 method 속성중 post방식을사용하면서버에전 달된변수가바뀌어도웹페이지의주소는바뀌지않음 3 내용이다른여러개웹페이지의주소가바뀌지않고같은주소를사 용할경우검색엔진은이중하나의내용만보여주게됨 4 따라서 post방식을사용할경우검색로봇은여러개의페이지중하나 의페이지만검색할수있음 5 get 방식을사용하게되면변수가웹페이지의주소에표시되어나타나 기때문에페이지의내용이바뀔때마다웹페이지의고유주소를검색 결과로보여주는것이가능함 6 변수를사용하는웹페이지를검색엔진을통해보여주려면 get방식을사 용해야하며브라우저의소스보기에서어떤방식인지확인할수있음 7 소스보기확인결과예시(post 방식) - 0 -
3) 1 가이드라인 POST방식이파라미터를 URL이아닌 HTTP 메시지의 body에삽입하여 보내지만이메시지는암호화되어있지않기때문에간단한도구로그 내용을모두볼수있다. POST를쓴다고반드시보안에좋은것은아니 므로, 페이지가변경됨에따라검색이제한되는상황을최소한다는측면 에서가급적 get방식이용 다만 get방식을이용하면클라이언트에서서버로보낸자료가 URL에모 두노출되기때문에비밀번호와같은개인정보를 것은위험할수있으며 있기때문에내부기준을정해적절히사용 get방식으로보내는 get방식으로보낼수있는자료의양은한계가 - 1 -
iframe+get method (:method는 get으로되어있으나페이지변환시 URL 이바뀌지않는경우) 예시 ) 사이트 부산대학교 / 공지사항 주소 URL http://pusan.ac.kr/kor_pnus/html/05_community/community_popup01.asp?board_part=n1 아래예시 A, B처럼 get 방식으로전송되는웹페이지임에도웹사이트 URL 에쿼리스트링(URL 주소뒤에입력테이터를함께제공하는방법) 이 붙지않아페이지내용이달라졌음에도불구하고 예시 A) URL은변하지않음 예시 B) - -
Ⅲ 조사결과 1. 조사현황 A B C D E robots.txt 조사항목대학교연구기관합계비율 차단 noindex / nofollow ActiveX / Image / Flash User-agent Switcher 검색차단확인 URL 비공개 태그사용 사용 이용한 50개 ( 완전차단 3 개) 1개 ( 완전차단 개) 35개 ( 완전차단 4 개) 85 개 4.5% 4개 6개 10개 5% 58개 43개 101개 50.5% 4개 ( 완전차단 0 개) 16 개 8% 36개 1개 57개 8.5% * 조사기간 : 013년 1월 1 일 ~ 013년 월 0일 * 조사표본수 : 국내국 공립및사립대학교사이트 100 개 / 정부산하연구기관등공공정보사이트 100개. 결과분석 A 항목의경우페이지전체를차단하는경우와특정페이지만차단하는경우로 나누어조사를실시했으며대학의경우상대적으로완전차단비율이높은것으 로조사됨 5 개항목모두의미있는차이를보이지는않았으나연구기관이대학에 비해웹개방성이조금높은것으로조사됨 조사대상서비스의 며 ActiveX / Image / Flash 50.5% 로가장높은비율을나타냄 4.5% 가로봇검색을차단하고있는것으로나타났으 등검색비친화적요소를포함하고있는사이트가 인터넷익스플로러중심의국내웹환경에의한특수성이반영된것으로추정됨 3. 조사결과종합 차단개수대학교연구기관합계비율 5개 0개 0개 0개 0% 4개 개 1개 3개 1.5% 3개 17개 7개 4개 1% 개 31개 3개 54개 7% 1개 39개 37개 76개 38% 0개 11개 3개 43개 1.5% 조사대상 00개사이트중약 78.5% 는어떤형태로든검색로봇의접근을 제한하는것으로나타남 조사대상항목을모두적용해검색을차단하는경우는없었으며대학에 서의차단비율이연구기관에비해상대적으로높았음 - 3 -
4. 조사의한계 본조사의목적이웹개방성에대한실태를파악함과동시에각각의사이트가처한상황에맞는적절한조치를취할수있는가이드라인을제시하는것임에도불구하고조사기관의의도와달리웹사이트관리자가적극적으로개입하지않은경우웹개방성이높은것으로나타날가능성이있음 본가이드라인조사항목중 c는전수조사가아닌해당홈페이지를포 함한 5개메뉴에대한샘플링방식으로진행되었으며 ActiveX와같이일 정한규칙없이필요에따라특정웹페이지에서설치를요구하는경우 를모두포함하지못했기때문에전반적인현황을파악하는데제한적으 로활용됨 5. 조사의제언 본가이드라인 7페이지에언급한것과같이 robots.txt와 noindex를사용 했음에도불구하고검색결과에노출될수있기때문에로봇검색을차단 할때세심한주의가필요함 본조사는웹개방성을측정하기위한다양한요소중일부를이용하여진행된것이므로검색엔진에친화적인웹사이트제작을원하는웹마스터는본가이드라인과함께구글에서제공하는검색엔진최적화 (Search Engine Optimization) 가이드라인을활용해검색친화적인웹사이트를구성하는것이바람직할것으로판단됨 본조사에서사용된화면자료는당시의상황을반영한것이므로, 현재시 점에는달라졌을가능성이있습니다. 검색엔진최적화가이드라인 http://support.google.com/webmasters/bin/answer.py?hl=ko&answer=3591-4 -