티스토리 블로그 네이버 유사문서 검색 제외 문제에 대하여

며칠 전에 좀 당황스러운 일이 있었습니다. 페이스북의 티스토리 관련 비공개 페이지에서 벌어진 일인데요. 2~3일 전 많은 티스토리 블로그에서 네이버 검색 유입이 큰 폭으로 줄어 드는 일이 발생했습니다.


네이버 검색 유사문서 판독 시스템

A라는 블로거가 관련된 내용으로 다른 블로그의 상태도 파악하고 의견을 듣기 위해 한탄을 담은 짧은 게시물을 페이스북 페이지에 작성하였는데요. 블로거들이 댓글로 의견 및 정보를 나누고 있었는데 갑자기 뜬금없는 댓글이 달리더군요.


웃긴건 최근 50건 글은 왠만하면 괜찮은데 그 이후 과거글 유사문서 파티 열리고 있습니다

B라는 블로거가 “대부분 유사문서 누락되었을겁니다. 전 작년 12월부터 시작되었고 웹마스터에 수집요청하면 다시 원본반영되기도 하지만 몇일 후 다시 유사문서로 누락됩니다.(원본 내용, 캡쳐 이미지는 수정된 내용)”라고 확신에 찬 댓글을 작성하더군요. B블로거가 이전에도 페이스북 그룹에 유사문서 관련된 게시물을 올리는 것을 보았기에 단순히 남 탓하는 것으로 판단하고 끼어 들지 않았습니다.

A 블로거에게 댓글(A블로거가 작성한 게시물의 내 댓글 글타래)로 색인 확인하고 네이버 검색결과 블로그 영역에서 누락 체크하는 방법을 다 설명해주었습니다. A블로거는 오래전부터 알고 지냈기에 블로그 주소를 알고 있어 직접 색인 및 누락 여부를 확인해 보고 대략적인 상태도 얘기를 해주었는데요. 느닷없이 B블로거가 제 댓글 글타래에 끼어들더니 A블로거를 태킹하여 “웃긴건 최근 50건 글은 왠만하면 괜찮은데 그 이후 과거글 유사문서 파티 열리고 있습니다.”라는 내용의 잘못된 사실을 말하더군요. 바로 직전에 확인하고 알려주었던 내용들을 몽따 다 뭉그러트리는 내용으로 말입니다. 한 줄로 제가 댓글 글타래에서 A블로거에게 준 정보 및 확인 내용을 모두 부정해버린 것이죠. 이건 싸우자는 것이죠. 그래서 10년전처럼 한 판 뜰까 하다가 참았습니다. 그리고 B블로거가 뜬금없이 작성한 댓글(A블로거가 작성한 게시물의 B블로거 댓글 글타래)로 찾아가 조용히 물어 보았습니다.


유사문서 문제가 대체 어떤 문제인것이죠?

유사문서 문제를 정확하게 이해는 하고 있는지 확인하기 위해 ‘유사문서 문제라고 잘라 말하시는 뭐 좀 물어 볼께요. 유사문서 문제가 대체 어떤 문제인것이죠?’라고 물어 보았습니다. 오타가 있으나 이해하기엔 무리 없다 판단하여 그냥 두었습니다. 유사문서가 뭔지도 모르는 사람과 유사문서에 관한 싸움을 할 수는 없으니 말입니다.

거짓말 하나 안보태도 질문 댓글 남기고 30초 만에 당황스러웠습니다. B블로거가 댓글로 얼토당토하지도 않은 이상한 소리들을 하더군요. 저는 직진 스타일이라 다른 문제는 제쳐두고 일단 한 가지 사실을 확인하기 위해 계속해서 같은 내용의 질문을 남겼습니다. ‘아뇨 제가 물어 보는 것은 유사 문사 문제를 어떤 것으로 이해하고 말하는 것인지 물어본 것이에요. 예로 교통사고는 교통기관과 엮인 사고이다. 유사문서 문제는? 무엇을 얘기하는 것인지 궁금해서요.’라는 예시까지 달며 질문을 하였지만 답변을 회피하는 것인지 아니면 다른 이유가 있는 것인지 이상한 얘기들만 하더군요. 계속 같은 내용의 질문을 하는 것도 귀찮아져서 ‘저기요. 전 한가지 질문만 하고 있는데요. 그 한 가지 질문에 대답을 안하시고 계속 다른 얘기하잖아요. 말하기 싫으면 싫다고 하시던가요’라고 댓글을 남기고 전투 모드를 해제 하였습니다. 전투는 시작도 못하고 끝낸 사건이었는데요.


페이스북 댓글 수정 내역

B블로거 작성한 댓글들을 쉬지도 않고 계속 수정하더군요. 거의 모든 댓글을 수정하던데, 수정 내역 보니 어후야 저런 사람들하고는 말 자체를 섞지 않는 것이 좋죠. 어떤 블로그를 운영하는지 한 번 구경이나 해보고 싶네요. 페이스북 게시물의 모든 댓글 펼쳐서 스크롤 캡쳐하였더니 길이가 32710이더라고요. 뭐 그렇다고요.

저런 블로거들 보면 정말 답답합니다. 대체 어떤 블로그를 운영하는지 모르겠지만 자신이 운영하는 블로그에서 벌어지는 일들이 다른 모든 블로그에서 벌어지는 것으로 알고 있습니다. 정말 잘못된 것이죠. 성급한 일반화의 오류입니다.

네이버 검색의 유사문서 판독 시스템

네이버의 유사문서 판독 시스템은 그리 오래되지 않았습니다. 원본 글이 펌글 보다 우선 노출되는 방식으로 개편한 것이 2012년 10월 말부터이었는데요. 효과는 별로 없었죠. 2016년 겨울부터 포스트도 유사문서가 적용되어, 2017년 1월부터 통합검색 결과에서 유사문서 포스트 결과가 제외 되기 시작하였습니다. 2018년 10월에는 유사문서 판독 시스템에 대규모 업데이트가 있었습니다. 2018년 10월 공지가 “네이버 UGC (블로그/카페/포스트/리뷰/VIEW 검색 전반) 검색에는 글 원작자의 권리를 보호하기 위해, ‘유사문서 판독시스템’이 적용되어 있습니다.”라고 시작하는데요.

네이버 검색의 공식 블로그에 가서 유사 문서로 검색하면 관련된 정보를 확인할 수 있습니다. 네이버의 관련 공지나 관련 기사 몇 개 정독하였다면 네이버의 유사문서 판독 시스템은 Duplicate Content 필터링이 아니라는 것을 알 수 있습니다. Duplicate Content 필터링과 Similar Content 필터링이 합쳐진 것입니다. 중복 콘텐츠만 필터링 하는 것이 아니라 유사한 콘텐츠까지 필터링 하는 것이 네이버의 유사문서 판독 시스템입니다.

유사한 콘텐츠의 명확한 기준은 네이버만이 알고 있습니다. 하지만 지금까지 공개된 내용을 미루어 보면 네이버 유사문서 판독 시스템은 글의 구성, 이미지, 동영상, 링크 등까지 고려하여 판독한다는 것을 알 수 있습니다.


네이버 검색에서 정의하는 유사 문서

네이버 검색에서 정의하는 유사 문서는 위와 같습니다. 내용을 보면 정말 황당하죠. 제목, 본문 텍스트, 사진, 동영상 등까지 모두 포함됩니다. 더욱 황당스러운 것은 “구성 요소가 서로 닮은 문서” 부분입니다. “일정 수준 이상 비슷한 경우를 유사 문서”로 규정한다고 합니다만 여기까지 갈 것도 없습니다.

블로그고 사이트고 게시물 작성할 때 동일한 제목, 내용, 사진, 동영상 등을 사용하면 유사 문서 낙인이 찍힐 수 있습니다. 내가 쓴 글이고 내가 찍은 사진인데 왜 그러냐굽쇼? 네이버 검색에서 같은 내용 반복해서 쓰지 말고, 같은 사진 반복해서 사용하지 말라니 어쩝니까. 로마에선 로마법을 따라야죠. 네이버 검색 유입이 필요 없다면 그냥 무시하시면 되겠죠. 그렇지 않다면 방법 없죠. 하지말라는 것을 하지 말아야 합니다.

동일한 링크를 반복적으로 사용하는 것도 안됩니다. 네이버 검색은 “동일한 링크를 많은 포스트에 반복적으로 사용하는 경우에도 도배성 포스트로 분류”하겠다고 공지한 바 있습니다. 그리고 “홍보성 문구를 이미지에 넣어 포스트에 첨부하면 내용과 무관하게 광고성 포스트로 인식”될 수 있다고 하였습니다. “특히나 이러한 이미지를 반복적으로 사용한다면 더욱 검색 결과에 좋지 않은 영향을 줄 수 있습니다.”고 하였으니 이 부분도 주의하여야 합니다. 홍보성 문구나 반복적 사용에 꽂히면 안됩니다. 광고성 포스트 부분이 더 중요합니다.

네이버 검색에는 전혀 어울리는 용어가 아니지만 Contents SEO 측면에서 보자면 내가 찍은 사진과 동영상으로 내가 직접 글을 작성하였다 하더라도

구성 요소가 다른 문서와 일정 수준 이상 비슷하면

비슷한 키워드 제목의 글을 남발하면

동일한 사진/동영상을 여러 게시물에 반복 사용하면

홍보성 문구 넣은 이미지를 사용하면

동일한 링크를 많은 글에 반복적으로 사용하면

광고글 작성하면

어떻게 될까요? 한 번은 괜찮을 수 있겠죠. 반복되면 뭐다? 유사 문서 직행이란 소리죠. 유사 문사로 끝나면 다행입니다. 도메인 자체가 검색 결과에 좋지 않은 영향을 받을 수 있습니다. 일명 저품질행이죠.

저의 경우는 오래 전에 작성한 글은 내용을 기억 못합니다. 어떤 경우는 이미 작성하여 발행한 줄도 모르고 또 작성하는 경우가 있는데요. 내용이 완전히 똑같진 않겠지만 같은 사람이 글을 작성하였기에 내용이 비슷합니다. 저는 그렇더라고요. 이런 경우 인지했던 인지하지 못했던 네이버 검색에서 정의하는 유사 문서에 걸릴 수 있겠죠.

티스토리 블로그 자체 생산되는 유사문서 문제


캐노니컬 태그가 명확하게 지정되지 않아 구글 검색 결과에 색인된 티스토리 기본 도메인 페이지들

다른 CMS들은 어떤지 모르겠지만 티스토리 블로그는 Technical SEO에 치명적인 문제가 있습니다. 우선 티스토리 블로그는 설정한 주소 형식에 따라 SEO에서 큰 손해를 봅니다. 개인 도메인 연결 여부도 SEO에 큰 영향을 끼칩니다. 티스토리 블로그의 일부 페이지들은 캐노니컬(Canonical) 태그를 지원하지 않기에 검색에서 손해를 볼 수 있습니다. 아니 분명히 손해 보고 있습니다. 색인도 손해보고 모바일 친화적 페이지에서도 손해를 보고 있습니다.


블로그 검색 결과가 없습니다

티스토리 블로그 캐노니컬태그와 모바일 친화적 페이지의 상관관계 글에서 상세하게 설명했지만 티스토리는 하나의 게시물이 여러 개의 주소를 갖습니다. 최소 4개 이상의 주소를 갖게 됩니다. 티스토리 블로그는 자체적으로 중복 문서와 유사 문서를 생산합니다. 그것도 대량으로 말이죠.


유사 문서 포함 시 나타나는 검색 결과들

똑똑한 검색엔진도 가끔은 실수합니다. 구글 검색이 그렇죠. 중복 문서 판정나면 검색 결과 페이지에서 쉽게 볼 수 없는 위치로 밀립니다. 하지만 다행이도 구글 검색 엔진은 끊임없이 검색봇으로 크롤링하고 잘못된 부분을 바로 잡아 색인에 반영합니다. 네이버 검색은 더 바라지도 않습니다. 처음 색인된 그대로 그냥 좀 유지되길 바랄뿐입니다. 진심으로요!


구글 서치 콘솔의 링크 거부

티스토리 블로그는 댓글 작성자의 링크 부분도 SEO에서 큰 손해죠. 댓글 작성자가 입력한 링크에 nofollow 설정을 할 수 없기에 잠시 블로그를 방치하거나 스팸 댓글을 관리 안해주면 스팸 댓글 때문에 저품질이라는 깊은 수렁에 빠질 수 있습니다. 열심히 링크 광리를 하고 있다면 구글 검색 엔진은 구글 서치 콘솔을 통해 disavow-links 파일로 링크 거부를 할 수 있지만 네이버 검색은 링크 거부 기능이 없죠. 가장 기본적인 캐노니컬 태그도 씹어 먹는 네이버 검색이니 더 길게 설명할 것도 없습니다. 댓글 백링크 관리 소흘히 하면 자기도 모르는 사이에 네이버 검색 저품질 직행할 수 있습니다.

참고로 생각하기도 싫은 큰 사고는 Technical SEO 실수로 발생됩니다. 스킨 헤더의 메타 태그 한 줄로 검색봇의 크롤링을 차단하고, 검색 엔진의 색인도 차단할 수 있으니까요. robots.txt 문서 한 줄로도 와장창 망가트릴 수 있죠. 하지만 가장 무서운 사고는 Contents SEO 실수에서 비롯됩니다. Technical SEO 실수는 시간이 걸리겠지만 복구할 수 있습니다. 실수를 말하는 겁니다. 작정하고 키워드 스터핑, 페이지 클로킹, 링크 파밍 등으로 어뷰징한 것은 당연히 예외입니다. 되돌릴 수 없는 사고는 Contents SEO 실수로 터집니다. Duplicate Content 문제 지속적으로 발생 시키거나 아웃 링크 몇 개 잘못 걸면 저품질 직행할 수 있습니다.

자 이제 이해가 좀 되시려나요? 네이버 검색이 좀 멍텅구리한 것이 맞긴 합니다. 하지만 멍텅구리한 네이버 검색이 왜 멍텅구리한지는 알고 욕을 해야 합니다. 다짜고짜 유사문서 때문에 내 블로그 방문자 폭락했다고 무작정 탓해봐야 아무것도 해결 못합니다. 아몰랑~ 암튼 네이버 검색 탓이야 하고 뭐가 다르나요. 블로그 상태부터 파악하고 그리고 그에 맞게 대책을 세워 문제 해결을 도모해야 합니다. 티스토리 블로그는 태생적으로 유사문서 문제에서 자유로울 수 없습니다. 이 문제를 직시하고 인정한 상태에서 해결 방법을 모색해야 합니다. 아몰랑~ 우주의 기운을 받아 해결해줘~ 이런 것은 통하지 않습니다. 티스토리 블로그는 자체적으로 유사문서 문제를 발생시키고 있으니까요.

해결 방법을 모색하라는 것이지 외국의 고수 형님들이 작성한 Technical SEO와 Contents SEO 등을 연구하라고 하는 것이 아닙니다. 우선 먼저 하지 말라고 하는 것을 자기도 모르는 사이 해왔는지부터 되짚어 보고 해당 사항이 있다면 그 문제부터 해결하시기 바랍니다. 네이버 검색 공식 블로그에 공지 올라옵니다. 공지만 꼼꼼히 챙겨 보아도 많은 문제를 해결할 수 있습니다. 오늘 위에서 얘기한 것들만 짚어 보아도 당장 큰 문제 몇 가지는 해결하거나 피할 수 있을 겁니다. 검색 최적화 Technical SEO와 Contents SEO는 언제 시간날 때 정리하는 것으로 하고 그럼 끝~

Leave a Comment