검색 결과의 저장된 페이지 제거 및 캐시 차단하기. 로봇 메타 태그

구글 검색은 검색 결과 페이지에서 게시물 페이지의 URL 주소와 본문 일부 텍스트를 함께 보여줍니다. 많은 국내 사용자들은 그런줄 알고 있을 겁니다. 네이버 검색과 다음 검색도 그런줄 알고 있을 겁니다.


하지만 구글 검색은 검색 결과 페이지에서 저장된 페이지도 함께 제공합니다. 네이버와 다음은 일부 검색 결과 페이지에서만 저장된 페이지를 제공합니다. 저장된 페이지는 원본 게시물 페이지의 캐시인데요. 스냅샷이라고도 합니다. 쉽게 임시 백업 페이지라고 이해하면 됩니다.


SEO 검색 엔진 최적화 noarchive


검색 엔진의 검색봇이 인터넷을 이리 저리 쑤시고 다니며 웹문서를 수집합니다. 검색봇이 수집한 웹문서가 바로 캐시로 저장되는 것인데요.


검색 결과의 저장된 페이지

구글 검색 결과 페이지


검색 엔진은 수집한 문서를 색인 서버에 고히 모셔 놓고 혼자만 보는 것이 아니라


링크 우측의 역삼각형 버튼을 누르면 저장된 페이지 링크 표시


모든 사람이 볼 수 있게 캐시 페이지의 링크(저장된 페이지)를 제공합니다. 구글은 모든 검색 결과에서 저장된 페이지를 제공합니다.


구글에 있는 저장된 페이지입니다


저장된 페이지를 클릭하면 위와 같이 페이지의 스냅샷을 확인할 수 있습니다.


네이버 웹사이트 검색 결과 페이지의 저장된 페이지


네이버의 경우는 검색 결과 영역 중 웹페이지 영역 정도만 저장된 문서를 제공합니다.


다음 웹문서 검색 결과의 저장된 페이지


다음도 비슷하게 웹문서 등 특정 검색 영역에서만 저장된 페이지를 제공합니다. 이 저장된 페이지는 검색봇이 다시 웹페이지를 수집하면 최신 내용으로 업데이트 됩니다. 반대로 얘기하자면 검색봇이 다시 방문하기 전까진 저장된 페이지가 그대로 유지된다는 얘기죠.


이 저장된 페이지가 좀 그렇습니다. 누군가가 만든 콘텐츠의 사본이니 말입니다. 구글 검색의 저장된 페이지는 호스팅 서비스를 이용하여 사이트 혹은 블로그를 운영하는 운영자들은 좋아할 수 있을 겁니다. 사이트 접속이 원할하지 않을 때 구글 검색 결과 페이지의 저장된 페이지를 이용하면 저장된 백업 사본 페이지를 볼 수 있으니 말입니다.


하지만 일반적인 사용자들은 저장된 페이지가 있든 말든 알 바 없죠. 그리고 위에서 말했지만 많은 사용자들이 구글 검색 결과에 저장된 페이지가 있는 것을 모르기에 별 의미가 없습니다. 콘텐츠 생상자의 기분만 나쁘게 할 뿐이죠.


검색 결과의 저장된 페이지는 또 다른 문제도 있습니다. 업데이트가 잦은 문서나 삭제하고 싶은 경우에는 오히려 역효과를 낼 수 있죠. 저장된 문서를 일부러 열어 보는 경우는 것의 없지만 웹문서 업데이트가 잦은 경우에는 검색봇이 다시 방문하기 전까진 저장된 페이지가 그대로 유지되기에 꺼름직한 것이 사실입니다. 더 큰 문제는 웹페이지를 삭제했다 하더라도 당장 검색 결과에서 사라지는 것이 아니라는 것이죠. 캐시로 남아 있으니 말입니다. 캐시로 남아 있다는 것은 원본 게시물이 삭제되었더라도 볼 수 있다는 얘기입니다. 삭제하고 싶은 글이 삭제되지 않고 검색 결과에서 보여진다는 얘기입니다. 한 동안은 말입니다.


검색 결과의 저장된 페이지 제거 및 캐시 차단

로봇 메타 태그 noarchive


검색 결과 페이지에 표시되는 저장된 페이지는 사이트 혹은 블로그 운영자가 표시 여부를 선택할 수 있습니다. 저장된 페이지 뿐만 아니라 검색 결과 페이지의 노출 여부 또한 선택할 수 있습니다. 구글 검색은 그런데, 통하지 않는 검색(짝퉁 검색 엔진)도 있습니다. 4월 말 정도로 기억하는데, 몽리넷 블로그 스킨에 noarchive 명령어의 로봇 메타 태그 한 줄 추가해 주었습니다.


다른 로봇 메타 태그 옵션도 설명하긴 하겠지만 우선 noarchive를 설명하자면


<meta name="robots" content="noarchive" />


위와 같은 로봇 메타 태그 한 줄을 <head>와 </head> 사이에 추가해 주면 검색 결과에서 저장된 페이지가 표시되지 않습니다. 메타 네임을 robots으로 하면 모든 검색 엔진에서 저장된 페이지를 표시하지 않습니다. 네임을 yeti로 하면 네이버 검색에서만 저장된 페이지가 표시되지 않습니다. 참고로 네임(name)에는 검색봇 이름을 입력하면 되고, 콘텐츠(content)에는 명령어를 넣으면 됩니다. 하루 아침에 모든 페이지에 적용되진 않습니다. 검색봇이 페이지를 다시 색인하여 검색 엔진에 보고한 후에야 적용됩니다. 검색봇이 방문하여 확인해야 하고 검색 엔진에서 처리해야 하기에 모든 저장된 페이지가 삭제 되려면 시간이 조금 걸립니다. 엄밀히 말하면 저장된 페이지 링크가 표시되지 않게 숨겨지는 것입니다. 구글 검색이 페이지를 저장하는 것은 막을 수 없습니다. 만약 페이지가 저장되는 것을 원치 않는다면 크롤링 자체를 막던가 색인을 차단해야 합니다.


크롤러라고 하는데요. 보통 검색봇(검색 로봇)이라고 합니다. 크롤러가 인터넷을 뒤져 페이지를 수집합니다. 검색 엔진은 수집한 페이지의 복사본을 저장 및 색인하는데요. 사이트 운영자가 검색봇 활동과 검색 엔진의 색인 및 복사본 표시 여부를 제어하고 결정할 수 있습니다. 일종의 명령인데요. 내 사이트에 찾아온 검색봇에게 게시물 페이지 수집 여부를 지시하고, 페이지 본문에 사용된 링크의 추적 여부도 지시할 수 있습니다. 특정 검색 엔진의 검색봇이 마음에 들지 않는다면 기웃거리지 말고 꺼지라고 명령할 수도 있습니다. 검색봇이 페이지를 수집 못하면 그렇습니다. 수집 후 색인 되는 것이기에 색인 자체가 불가능해집니다. 사이트 혹은 블로그 운영자들은 3가지 방법으로 검색 엔진의 색인 생성 여부를 결정(명령)할 수 있습니다. html 페이지나 HTTP 헤더에 로봇 메타 태그를 설정하여 색인을 제어해도 되고, robots.txt 파일로 검색봇의 크롤링을 제어해도 됩니다.


로봇 메타 태그 명령어

none : noindex, nofollow

noindex : 색인 차단

nofollow : 페이지 내의 링크 추적 차단

noimageindex : 페이지 내의 이미지 색인 차단

nosnippet : 검색 결과에서 본문 요약 및 동영상 미리보기 차단

noarchive : 검색 결과에서 저장된 페이지 표시 차단

unavailable_after: [날짜/시간] : 페이지의 크롤링 및 색인 생성 중단 날짜 및 시간 설정

noimageindex : 페이지가 이미지의 참조 페이지로 표시되는 것 차단

notranslate : 검색 결과에서 페이지의 번역 제공 차단

none: noindex, nofollow


all : index, follow

index : 색인 생성

follow : 페이지 내의 링크 추적


로봇 메타 태그 명령어 중에 all과 index, follow는 큰 의미가 없습니다. noindex, nofollow 로봇 메타 태그를 적용하지 않았다면 기본적으로 index, follow 명령어가 기본입니다. all은 index, follow를 의미하는 것이기에 그저 마음의 안식 같은 것이네요. 특별한 경우에만 로봇 메타 태그를 이용하여 검색 엔진을 컨트롤 하면 됩니다. 보통 일반적인 경우에는 아무것도 설정하지 않아도 됩니다.


참고로 몽리넷 블로그 스킨에도 <meta name="robots" content="index,follow">가 설정 되어 있긴 하지만 이는 마음의 평화를 얻기 위함입니다. 로봇 메타 태그가 없다면 검색봇은 페이지를 색인하고, 페이지 내의 링크를 쫓아갑니다.


검색 엔진 검색봇 이름

구글 : Googlebot

구글 이미지 검색 봇 : Googlebot-Image

구글 모바일 검색 봇: Googlebot-Video

네이버 : cowbot, naverbot, yeti

다음 : daumos

빙 : Bingbot

야후 : Slurp, yahoo-slurp


검색 엔진의 검색봇은 종류가 정말 많습니다. 한국 검색봇만해도 몇 개 됩니다. 전세계 검색봇은 어마무시할 정도로 종류가 많습니다. 모든 검색 엔진의 검색봇 이름을 적을 수 없으니 누락된 것은 알아서 찾으시면 되겠습니다.


로봇 메타 태그 예시

<meta name="robots" content="index" />

<meta name="daumos" content="noindex" />

<meta name="yeti" content="nofollow" />


위 예시와 같이 로봇 메타 태그를 설정하면, 모든 검색 엔진이 색인할 수 있지만 다음 검색은 색인이 차단됩니다. 네이버 검색봇은 해당 페이지를 색인할 수 있지만 게시물 페이지 본문내의 링크는 쫓아가지 않게 됩니다. 게시물까지만 크롤링하고 본문의 링크는 따라가지 않기에 링크된 페이지는 크롤링하지 않습니다. 참고로 메타 태그에서 검색봇 이름은 대소문자를 구분하지 않습니다. 대문자로 입력해도 되고, 소문자로 입력해도 됩니다. 그리고 메타 태그는 모든 검색 엔진에 통하지 않습니다.


로봇 메타 태그를 검색 엔진 최적화에서 활용하자면, 특정 검색 엔진 혹은 모든 검색 엔진에 노출되면 불이익이 있을 것 같은 페이지만 noindex, nofollow 설정을 하면 되겠죠. 이런 식으로 검색 엔진 최적화 작업할 때 잘 써먹으시면 되겠습니다. 참고로 티스토리 블로그는 개별 게시물 페이지의 로봇 메타 태크 설정을 지원하지 않습니다. 무료 서비스 블로그 중에는 구글 블로거(구글 블로그 서비스) 정도만 됩니다.


네이버 웹사이트 검색 결과에서 제거된 저장된 페이지 링크


noarchive 로봇 메타 태그 한 줄이면 네이버 검색 결과에서도 더디긴 하지만 저장된 페이지를 보이지 않게 숨길 수 있는데요. 다음 검색의 경우에는 검색 결과에 표시되고 있는 저장된 페이지 링크를 숨기는 것이 불가능합니다. 몽리넷이 알기로는 그렇습니다.


다음 웹문서 검색 결과는 noarchive 로봇 메타 태그를 무시하고 저장된 페이지 표시 중


다음 검색은 컨텐츠 생산자(사이트 혹은 블로그 운영자)가 원치 않더라도 검색 결과 페이지에 저장된 페이지를 제공합니다. noarchive 로봇 메타 태그 추가한 것이 대략 두 달 정도 지났기에 지금쯤이면 다음 검색 결과에 표시되고 있던 저장된 페이지가 대부분 감춰져야 하는데요. 다음 검색 결과를 보면 여전히 저장된 페이지가 표시되고 있습니다. 저장된 페이지의 저장된 날짜를 보면 5월 28일로 되어 있는 것을 알 수 있습니다. noarchive 로봇 메타 태그 추가한 후에 색인된 글임에도 불구하고 여전히 저장된 페이지를 표시하고 있습니다.


보시다시피 일부 짝퉁 검색 엔진의 경우는 일부 태그를 무시 합니다. 국내 포털이 유독 심한데요. 네이버 보다는 다음이 더 무시합니다. 다음은 검색은 엔진 최적화의 기본 중에서도 기본인 캐노니컬 태그도 무시하고, 노아카이브 메타 태그도 무시합니다. 물론 네이버 검색도 캐노니컬 태그를 무시합니다. 메타 태그로 제어할 수 없는 검색봇은 robots.txt 파일 혹은 HTTP 헤더 로봇 메타 태그로 제어하면 됩니다. robots.txt 파일 혹은 HTTP 헤더 로봇 메타 태그를 이용하면 검색봇이 사이트 전체 혹은 특정 폴더를 크롤링할 수 없도록 차단할 수 있습니다. HTTP 헤더 로봇 메타 태그 설정과 robots.txt 설정은 시간 되면 다른 글에서 설명하도록 하겠습니다. 오늘은 끝~


© 꿈속으로(mongri.net), 무단전재 및 재배포 금지. 공유와 직접 링크를 선호합니다.
[저작권 규약, 운영 원칙 및 이용자 준수 사항]