씨랭크 비밀문서

이 문서는 2016년 네이버 컴퍼런스에서 나온 내용을 그대로 정리한 내용입니다.
정리된 파일이 TEXT파일이라 이 부분을 GPT-pro 버전으로 정리하여 올려놓았습니다. 부디 여러분들 이 문서를 정독하셔서 네이버 씨랭크의 비밀을 제대로 파악하시기 바랍니다.
네이버 1페이지 올릴려면 이제 무조건 씨랭크 블로그가 되어야 합니다.
검색서비스, 웹크롤링, 웹스팸 대응, 웹 랭킹, 웹사이트 품질 등 다양한 주제 발표
2016년 네이버 컴퍼런스!!
검색서비스가 사용자에게 계속 사랑을 받으려면
빠짐없이 빠르고 정확하고 공정하게
웹사이트탭 ( 신설 )
보기어려웠던 검색결과
빠짐없이 (웹수집 분석 김기동 7년차 엔지니어)
- 담당자도 동영상을 가져와서 사용해도 되는지를 잘 모름
- 우주의 별을 보면서 웹으로 생각
Web Crawl
Web Space & Page Analysis
World Wide Web
1) 규모의 문제 : 웹 공간은 어마무시하게 큽니다.
2) 품질의 문제 : 모아 놓으면 절반이 쓰레기 입니다.
4년 리서치 추정 – 약 100조개 이상
네이버에서 웹세상 – 1조 규모 ( 1 / 100 정도 관찰 )
스팸이나 저품질은 아니겠지만 이라는 문구를 사용 ( 사이트 저품질, 스팸 분류기준 ) – 직접 말함
해외, 학교 사이트 수집 대상
페루에 있는 쇼핑몰 기준
(저희 나라라는 단어를 사용)
해외에 있는 로컬사이트는 검색에서 제외대상
인터넷 도메인 개수는 3억개 이상
웹사이트 수는 10억개 이상
KR 도메인 약 100만개 수준
공익성(군/정부기관, 교육기관) 도메인 수집 100%
★ 최대 1천만개 사이트 정도 ★
웹사이트의 활성화 현황 ★★★★★★
- 검색 대상 웹 사이트 기준
- 하루 평균 21% 사이트만이 사용자의 선택을 받음
- 가치있게 소비되는 브랜딩 사이트는 약 3% 수준
나에게 브랜드화되어져있다
Crawler 이름은 Sunny 입니다 ★★★★
우선순위 결정하는 알고리즘 ★★★
“IDEAL” Crawler
출처로서의 가치 x 문서자체의 가치
CrawlPriority(c, c’, m) = w * NKCE(c, m) + (1-w) * NKACE(c’,m)
c= class of target url
c’= class of source url
m = monitoring time
NKCE(c,m)
얼마나 자주: RFC (Recently Fetched url Cache)
얼마나 많이: Crawl Ticket Count
어떻게 확장: Link-Extension Policy
가치부여!! 의미 부여 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
2. 웹공간과 웹페이지 분석
분석 알고리즘 기법
White Network
웹문서는 중요한 정보가 문서의 외부에서 발견되는 경우도 많습니다. ★★★★★★★
Page Link
공유의 중요성!!!!!!!!!!!!!!!!!
레퍼값의 중요성 강조 ★★★★★★★
트러스트 링크 개념
학술정보, 해외사이트 검색이 안됩니다
– 실제로 부족한게 맞습니다 (직접 인정) 악순환, 찾을 수 없고, 고민되고, 어려움, 트러스트 링크 개념 주장
의미있는 결과들도 많이 나오고 ★★★★★★★★★★★★★★★
자동으로 하자 실험!!! ★★★★★★★★★★★★ 괜찮은 결과 나와서 적용
2017년 4월 19일 부터 약 5.5배 증가 (확장 White Site)
의미있는 결과들이 나왔다고 생각이 들고 ★★★★★★★★★★★★★★(계속 강조)
뻔히 보이는데 왜 나쁜게 나와요? 사람이 느끼는 직관적인 느낌을 수치화 ★★★★★ 시도 ★★★★
크랭크? 씨랭크? (왜 자꾸 크랭크라고 말하는지는 정확히 파악이 안됨)
Scoring on ML
국립중앙도서관
P-RANK 상위 0.9%
저품질 사이트
P-RANK 상위 82.2%
검색 지표중에 반영 %로 적용되어 실제 순위와는 다르게 나올 수 있다 (랭킹 자료)
웹공간은 상상이상으로 방대합니다. ‘헉’ 하는 소리가 날 정도로 ‘촘촘하고 똑똑하게 수집 좋은 지표 발굴을 위해 도전적인 연구를 진행하고 있습니다’ 라고 싶지만은… 이라고 표현
야근도 할 수 있고 고민을 하는 사람이 있다 정도로 알고 있으면 좋겠다
고맙습니다. ( 1교시 끝 )
2교시 웹스팸과의 전쟁
나쁜놈들 전성시대
- 스팸대응 실패사례
- 스팸잡기 어려운이유
- 네이버는 그럼에도 불구하고 열심히 잡고있습니다.
흥망성쇠를 결정하는 스팸
돈 좀 버나 싶을 때 스팸이 등장
스팸피해사례 1
tumblr. 스팸 무시 대응안하다가 뒤늦게 늦음
서비스 품질을 나빠지게 하는 녀석
스팸피해사례 2
‘070 스팸전화’ 인식 탓? 전화 안 받는다 (인터넷전화 가입자 24만명 감소)
070차단 앱 소개
스팸피해사례 3
1위기업이 망가진 이유
한메일 – 스팸메일
온라인우표제 – 1통당 10원씩
아이디 만들어서 99통씩 보내서 피함
한메일 -> 네이버 메일로 변경 ★★★★★
스팸처리는 왜 해야하는가?
- 서비스나 업체에게 신뢰를 더해줌
- 안정적인 성장을 가능하게 하는 원동력
- 데이터 순결성 유지
문제는?
- 고비용이 발생: 서비스 품질 저하로 인해 사용자 만족도 감소
- 스팸을 무시하자니 저품질된다는 말을 함 ★★★★★★★★
- 비용을 최소화하면서 스팸을 최대로 줄일 수 있는 비용과 정책 추진
검색엔진의 동작원리 ★★★
웹문서수집 -> 웹문서정제 & 색인 -> 웹문서노출
(이전에 발표하신 김기동님이라고 표현, 직책에 대한 부분은 없는 것으로 파악)
수집해야 할지 안할지를 웹문서정제 부분에서 판단
이곳에서 넘어가면 랭키 여부 결정 / 통과하지 못하면 더 이상 그쪽에서 수집을 하지 않도록 함
전체 문서의 약 25~30% 정도가 스팸으로 추정
사용자에게 의미 없는 문서
- 자동 생성 컨텐츠
- 워드 샐러드
- 히든 텍스트 (문법에 맞지 않는 것), 태그 히든 사이트
잘못되거나 부정확한 정보를 전달하는 문서
- 유사 공공 사이트
- 유사 포탈 사이트
개인정보 수집을 목적으로 하는 문서
보험사 사이트 ★★★★★★
성인/도박 게시물 광고
스팸사이트로의 방문유도
- 컨텐츠 소비(성인/도박/토렌트)
- 광고수입(유사 포탈)
- 개인정보수집
스팸을 잡기 어려운 이유 (1/2)
스패머는
(지적으로) 정상 사용자들보다 웹 환경과 검색 엔진을 더 잘 이해
(양적으로) 스팸 문서를 꾸준히 생성
(질적으로) 스팸처리 로직이 적용될 때마다 이를 피하기 위해 로직 고도화
스팸이 살아있는 생명
네이버를 괴롭히고 있다
검색 엔진이 고도화 / 기술적으로 발전
- 기술적으로 고품질 문서 구분짓는 건 쉽지않음
- 명품과 아주 잘 만들어진 이미테이션을 구별하는 것과 동일함
- 문서내용을 충분히 이해하는 수준 ★★★★★★★★★★★★
- 문서클러스터링 새로 개발 ★★★★
스팸의 유형
- web contents spam 내용 자체가 스팸
- 사람이 안들어옴 / 광고를 함 게시판 도배하고 링크 (웹링크 스팸)
- 리다이렉트
- 정상사이트로 보이게 하거나 웹검색로봇은 정상 / 유저에게는 나쁜문서 (클로킹)
- 해킹 (대량유입)
TextCNN
단어셋학습 (딥러닝 알고리즘)
– 성인, 도박, 보험 관련 스팸 제거 (단어 세트가 포함될 경우 스팸제거) – 블로그에도 적용되어져 있음
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
Grammar
문법에 맞지 않는 문서
– 자동생성 컨텐츠 제거
Information
– 문서가 가진 정보량 측정
Named entity 분류 및 문서 내 중요 단어 추출
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
가격, 호텔이름, 연도가 실제 정보 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
이러한 단어가 없다면 스팸으로 처리
★ 정보가 많으면 좋은 문서로 판단 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
GRAPH
사이트간의 통계적 분석을 이용한 스팸 호스트 및 광고 링크 추출
성균관대학교 황지영 교수 팀과 산학 연구 진행 중
————————————
논문으로 서브미션 ★★★★★★★★★★★★★★★★★★★★
클로킹 스팸의 특징
– 수집 시에는 정상페이지를 보여줌
– 반면, 네이버 검색 결과를 통해 들어간 경우에는 스팸 페이지로 보여줌
(자바스크립트 분석)
정상 사이트 내에 기생하고 있는 스팸 영역을 추출(NLU + GRAPH) 해킹 확인
– 문서 외형 (Layout)을 이용한 클러스터링
자동일 때는 대량으로 된다 ★★★★★★★★★★
Conclusion
잘되는 서비스에는 항상 스팸이 나타납니다.
(이상입니다)
2교시 끝
웹 검색과 랭킹 – 김상범
웹검색하고 의미있는 검색 서비스
랭킹학습한다는 의미
랭킹시그널을 비밀로 하는 이유
——-
검색 잘하고 싶은데 어렵습니다 (직접 발언)
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
Google
Bing (빙은 구글을 카피한다)
야후 – 빙+구글 믹스
Baidu – 중국정부가 구글을 철수시키고 구글따라함
Yangdex – 러시아 (구글이 추격중) 2년동안 23% -> 8%차로 격차줄어들었습니다
Seznam – 체코 검색서비스 (구글이 지금 더 우세)
네이버 – 우리도 사라질려나 하면서 일한다(직접발언)
지역, 쇼핑, 쉬운플랫폼(알고있는것에 쏟아붇는 전략)
순수하게 웹검색은 격차가 있다
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
웹검색이 뉴스검색과 블로그 검색과 다른점
- 검색대상의 양과 위치: 뉴스/블로그(대략 알수 있다) > 웹은 얼마나 많은 문서가 어디에서 있는지 파악문제
- 브라우저 – 사람들이 가는 URL 수집을 위해 ★★★★
- 검색컨텐츠의 품질: 일정부분 관리 가능 vs 웹은 관리 불가능
- 사용자가 원하는 문서: 여러 좋은 문서 중 몇 개 vs 오직 그 웹페이지
whois 가서 도메인 정보를 간접적으로 수집 (도메인 날짜 매우 중요 / 생성일, 기간, 만료일)
키워드를 검색해서 정확하게 꼭 나와야 하는 페이지를 찾아야 한다 ★★★★★★★★★★★★
롯데타워 전망대 가격 키워드 검색하면…
블로그, 뉴스는 최대한 비슷한거 만들 수 있지만
웹문서는 부정적인 부분과 기술적으로 파악을 해야함, 그래서 어려움 ★★★
제목이 잘 매칭되고 어느 정도 문맥과 상관없이 웹문서는 나와야 한다는 표현에서 블로그와 뉴스의 알고리즘이 나옴 ★★★
1. 네이버가 지향하는 좋은 검색결과
검색어가 문제인데 이 키워드의 핵심이 무엇일까!!!! ★★★★
네이버의 철학은 인물에 대해서는 무조건 1등으로 나와야 한다는 지향이 존재
2. 검색평가 가이드라인 문서로 평가
- 5점짜리는 그 URL로 가면 끝인 경우
- 4점짜리는 원하는 정보를 거의 다 얻을 수 있는 정보
- 3점짜리는 다른것도 같이 봐야하는 것
- 2점짜리는 안봐도 상관없는 것
- 1점짜리는 …
4. 데이타셋 생성 (기계학습)
나중에 여기에 없는 데이터를 바탕으로 평가를 하는 기술
샘플 만개를 만들어놓고 반자동이라는 말 함 ★★★★ 수동이란 이야기
정확한 값을 지정하는 위치에는 무조건 사람의 손이 필요함
방갯수, 지역 등 특정 키워드가 포함되면 아파트 가격을 예측하는 문서로 표현 ★★★★★★★★
이미지는 픽셀 매트릭스가 데이터
음성인식은 시그널 그 자체가 입력
검색은 특정키워드와의 관계를 벡터로 표현
5. 엔지니어들의 시그널 발굴
(개발자 엔지니어가 매일 하는 일 / 월급받고 하는 일)
- 커리 단어가 있는지 없는지 여부
- 스팸 같아 아니야 여부
- 벡터로 만들 수 있는 모든 재료들
-> 점수로 나오면 이걸 더해서 랭킹 부여
A/B 온라인 테스트 하고 (욕, 비난) 하는지 여부 검토
랭킹모듈을 “학습” 한다
위키피디아 Learning-to-Rank 검색하면 내용 나옴 ★★★★
전형적인 기계학습의 예
만약 아래와 같이 입력에 대해 출력값을 내주는 함수 f의 w1, w2를 구하려면?
f = x1*w1 + x2*w2
x1 x2 f
0 0 0.0
0 1 0.3
1 0 0.7
1 1 1.0
향후에
x1 x2 f
0.1 0.1 0.1
x 0.1 0.66
x 0.9 0.34
x 0.6 0.6
x1과 x2를 무엇을 쓰냐에 따라 기업의 검색 품질이 정해짐 ★★★★★
x1 -> 네이버 개발자 연봉 (3단어 / 1개가 매칭되면 , 2개가 매칭되면, 3개가 매칭되면)
★★★★★★ 사용자 키워드가 많이 들어갈수록 점수가 높아짐
공개를 하는 순간 순위조작
x2에 제목에 단어를 넣을 경우 보완제로 활용 (많이 쓰면 내려감)
어떤 url에서 머무른 시간 – 오래 있더라 -> 좋은문서로 쓸 수 있냐?
시그널이 무력화되는 순간 야근을 해야함 ★★★★★
구글 200개 정도의 시그널 사용
50개는 안변한다
Schmidt: Listing Google’s 200 Ranking Factors Would Reveal Business Secrets
랭킹 시그널을 뭘쓰는지 외부에서 알게되면 알고리즘이 무력화되어 서로 힘들어져서 오픈 못함
★★★★★★
SEO Business 연구하면서 개발하고 따라와주길 바랍니다. ★★★★★★★
네이버는 랭킹 시그널 150개를 사용한다고 직접 이야기함 ★★★★
밖에서 가져온 것을 가져와서 보여주고 싶지만 그것 자체가 어려워서 내부적인 부분 위주로 해왔다 (직접 발언) ★★
엔진검색시그널 찾는것이 엔지니어의 업무 ★★★★
랭킹성능
이상적인 랭킹 : 5, 4, 3, 2, 1
A가 5, 4, 3, 1, 2 검색할때는 -> 0.996
DCG = 5 + 4/log2(3) + 3/log2(4) + 2/log2(5) + 1/log2(6) = 10.27
2011년에서 야후에서 사용하던 알고리즘
사용자가 검색 순서를 어떻게 했냐에 따라 점수가 매겨지는 알고리즘 존재 ★★★★★ (직접 피피티로 알려줌)
랭킹이 이상한 건 조작이 아니라 기술력의 한계 ★★★★★
- 사용자가 만족할만한 검색서비스를 제공하는 회사는 지구상에 얼마 남지 않았다.
- 랭킹은 학습집합을 만들고 기계학습알고리즘으로 랭킹함수를 계산해내는 전형적인 컴퓨터과학의 문제입니다
- 랭킹시그널을 공개할수없는 이유는 공개하는 순간 그 시그널은 무력화되고 새로운 시그널을 찾아 헤매야 함
- 아직 기술력 부족
지구상에서 의미있는 서비스 있기를 원함 ★★★★
이상으로 마침!!
네이버 웹검색 서비스 – 김종범
웹검색의 변화와 방향
90’s 검색 초창기 (90년대말)
“사이트”검색
검색등록
신청 & 에디터DB 구축
사이트
– Hubness, 메인페이지, 페이지들의 중심
– 사이트를 이용 각 문서를 찾아가는 방식
– 같은 주제군의 사이트를 모아 카테고리로 구분
직접 검색 반영했지만 변경 및 삭제 대응 불가, 파악이 어려움 ★★★★★
스팸 & 변질 취약 어려움
검토 및 보강 투입 (인력 투입)
검색 등록을 할 수 밖에 없던 환경
- 수집 비허용
- 제목 등 메타태그 누락
- 여러 URL 사용
한사이트가 여러URL을 사용할 경우 판단 어려움 ★★★★
전반적으로 웹표준에 대한 인지 & 인식 부족
웹 환경의 변화
- 정보 측면에서 사이트 내의 다양한 정보를 직접 노출하고 이동하는 환경
- 내외부의 차별논란에서 외부 정보를 가져오는 방식에 대한 개선이 필요
네이버의 방향과 대응
- 수집한 컨텐츠를 잘 분석하고 이해하고
- 영역을 집중하여 사용자들의 니즈에 맞춰 대응하는 방향
- 컨텐츠 생산자도 더 많은 노출기회를 확보하고 경쟁이나 노출이 투명한 환경 제공
(한 분야에 집중한다는 이야기)
검색로봇이 자동으로 발견한 정보를 노출하는 수집 기반 방식 ★★★★★★★★★★★★
3년 전부터 도입해서 체감
– 적응하기 위한 노력이 필요하더라도 본질부터 개선 Feat 네이버웹마스터도구
가끔은 기존보다 더 오래 걸려요.
왜 노출 안되요.
등등
수집 기반 이후 변화
- 웹표준을 준수하는 사이트로 관리해야 한다는 인식 확대
- 접근 개서 – MEAT 적용 등 (40% 상향)
- 웹공간을 더 잘 이해할 수 있고 양질의 출처를 찾는데 도움
★ 웹수집 시스템의 개선
★ 좋은 문서 출처 판독 기술 확보
★ 커뮤니케이션과 교육
통검에서 사이트 영역 통합
18년 1월
17년 12월 웹사이트 통합 ★★★
12월 7일
오늘부터 웹문서와 사이트 탭을 “웹사이트” 탭으로 통합
★★★★★★★★★★★★★★★★★★★★ 오늘부터 적용
2018년 1분기
통합검색에서도 웹문서와 사이트 통합 ★★★★★★★★★★★★★★★
PC, 모바일에서도 통일감 있는 UI제공 ★★★
다변화 UI
- 대상 웹사이트와 템플릿 확대
- 리뷰 – 별점 노출
- 지역 – 핀을 마킹
- 방송 – 재생정보 채널정보 장르 표출
서브링크
대상 및 노출방식 확대
서브 메뉴 (2018년 배포시 정식출시) – 사이트 표준화 – 사이트맵 메뉴 노출 ★★★★★
브랜드화되어질 경우 더욱 강화 ★★★
브랜딩이 잘된 페이지 루트를 찾는다면
공공기관 제한적으로 사용되었지만 대상확장과 기준공개로 브랜드 노출할 수 있도록 공개
찾는 방법이 달라도 좋은 결과로
여권사진 머리, 여권사진 모자, 여권사진 규격, 여권사진 조건, 규정 등
외교부 사이트를 1순위로 보여줌!! ★★★★★
사용자 분들께 드리고자 하는 가치
- 생산자
- 좋은 결과를 검색결과로 노출할 수 있는 기회의 확장
- 사이트 연관질의 (브랜드)에 대해서는 노출빈도 확대
- 소비자
- 좋은 정보로 찾아가는 과정을 최소화
- 동일 의미로 찾는 사용자를 모아주는 서비스
감사합니다 마침
2부
웹사이트 검색
네이버가 알려주는 웹검색 공략 – 김종범
네이버 검색 이용자
– 검색에 잘 노출 문서생산자
– 검색을 보고 조하는 소비자
만족도의 결정요소 / 만족도 평가 방법
(웹문서 – 누구나 수긍하고 인정할 수 있는 정보)
관련성 / 신뢰성 / 접근성 ★★★★★★★★★★★★★★★
내 문서를 검색에 잘 노출하기 위한 방법 ★★★★★
1. 검색에 대한 이해 (검색 = 수집해온 페이지를 저장하고 색인하여 검색어에 맞춰 랭킹을 제공) 2. 수집 – 페이지의 구성 (기계가 이해하기 쉬운지 / 웹표준 관점에서의 페이지 규약 준수) 3. 랭킹 – 컨텐츠의 구성 (사용자가 찾는 정보가 존재 / 경쟁관계 문서보다 내가 더 우세한지 여부)
수집 -> 기계가 이해하기 좋게 최적화된 상태
필수조건 – 웹마스터도구를 이용한 사이트 품질 향상법 ★★★★
- 여러 URL보다 한 개의 집중된 URL 사용(캐노니컬 설정 등)
- 시의적, 환경에 맞는 META정보 갱신
- 접속 안정성 / 수집허용, 스팸이나 외부 공격에 대한 대비
- 독창적 브랜딩 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★
- 주제 맞춰 커스텀 작업 병행(CMS에서 제공하는 기본 템플릿보다는…)
- 채워야 할 항목들을 비우지는 않았는지 ★★★★★★★★★★★★★★★★
웹서포트센터, 블로그 등으로 통해 업데이트
웹마스터도구 블로그, 웹마스터도구 시작하기 참조
랭킹
사이트 구조를 기본으로
컨텐츠에 따라 결정!
컨텐츠 생산과 방향 ★★★★★★★★★★★★★★★★★
랭킹 – 다수의 피쳐들의 조합을 수식화하여 검색어별 순위결정
“가이드라인”에 의해 평가된 결과의 누적
- 사용자의 만족도
- 접속의 원활성
- 외부의 평판
- 등등등
공개는 할 수 없다. 일부는 네이버 블로그를 통해 공개
피쳐 = 시그널
랭킹 = 만족도
웹검색의 철학 & 방향성
관련성 – 사용자의 입력한 질의와 얼마나 연계도는지 여부
- 검색어와 연관도 ★★★★
- 다루지 않은 컨텐츠를 선점 ★★★★
- 일반적인 키워드에서 경쟁
- 반복횟수가 많다고 관련성이 높아지는 것은 아님
- 적절한 사용여부는 연구대상
신뢰성 – 내가 지닌 페이지가 좋은 평판을 갖는 것
- 운영기간
- 신규컨텐츠, 컨텐츠 리프레시
- 외부에서의 언급 – 타 신뢰한만한 사이트, 링크횟수
- 타 신뢰사이트에서의 링크
접근성 – 읽기 신속 편리 – 사이트의 운영/컨텐츠의 최적화
- 스팸(글 읽을 때 상위에 광고여부)
- 읽기편한지
신뢰도에서 밀리기 시작 – 비트코인 키워드의 경우 전문성까지 띄지 않으면 접근도 어려움
채널과 연계한 평판 관리 – 팁 ★★★★★★★
- 적절수준의 연관 채널을 운영
- 각 페이지 간의 연관성과 정보의 구성을 분리
- SNS : 이벤트, 휘발성, 시의성 컨텐츠
- 웹페이지 : 더 공들여 작성한 정보, 히스토리/아카이빙
SNS에서 이벤트하고 블로그에서는 정보만 제공해달라 ★★★★★★★★★★★★★★★★★★★★★
웹수집 이미지의 확장 (올해부터 적극적으로 반영)
- PV 높은 이미지 영역에도 웹문서내 이미지가 대량 반영(10억건)
- 노출기회의 확장, 다변화 등과 연계하여 리치한 정보를 통해 사용자 유인 & 확보 가능토록 할 계획
- ALT, 캡션 등 활용
게시판 운영 등의 판단 – 가이드
- 펌글 위주, 이슈성 게시물이 집중된다면
- 일반 방문자도 쉽게 게시글을 작성할 수 있다면 -> 스팸도배 -> 노출?
게시판은 꼭 쓰지 않아도 된다!! ★★★★★★★★★★★★
이용자 – 사용자가 무엇을 찾을지 !!! ★★★★★★★
- 검색이용자들이 찾고 볼만한 컨텐츠를 공략 -> 연관성 높은 키워드에 대해
- 연관채널을 이용하여 방문에 집중
- 주제에 충실한 컨텐츠
블로그 C랭크처럼 사이트 역시 동일 ★★★★★★
소문 & 질문
- 네이버는 큰 규모의 사이트만 우대한다 – 사실은 아니다
- 내부컨텐츠만 우선하여 노출한다 – 사실은 아니다 (기술부족에 대한 언급)
- 사이트의 모든 문서가 노출되지 않는다 – 사실입니다.
- 검색 허용된 문서의 모든 노출을 보장하지 않습니다. 소비가 없거나 찾지 않은 경우 리소스 효율상 검색 대상 문서는 계속 변화
- 웹사이트의 최적화 작업은 어렵다 – 단기간은 어렵다! ★★★
- 웹표준, 신디케이션은 답이 있는 경우이지만 어느정도 기술적 지식 필요
- 잘 지원할 수 있는 에이전시 등을 이용하는 것도 필요
컨텐츠 측면에서는 장기간의 사용자 선호의 누적 필요 ★★★★★★
– 각 웹사이트들이 더 성장하고 평가를 받는 도움이 될 수 있는 네이버의 역할과 노력은 계속 고민하겠습니다.
– 마케팅, SEO 전문가 분들과 협력해서 오픈해 나가겠습니다.
감사합니다.
내 사이트와 연관된 채널, 네이버 검색에 알려주세요 – 이다해
네이버에서 내 브랜드를 검색하면 ★★★★
검색하면 대표사이트, 블로그, 모두, 인스타그램, 페이스북 등 여러가지 검색결과가 나옴
대표사이트 하단에 연관채널 굴비처럼 묶어서 연구 ★★★★
어떤 방식으로 이걸 잘 수집해서 보여주지??
- 요청에 의한 연관채널 추가 – 과거의 검색등록과 동일한 문제점으로 인해 유지관리가 어려움 x
- 누구나 알만한 사이트 채널만 – 검색로봇 등록 사람판단이 필요해서 경계자체가 모호함 x
- 사이트 <-> 채널 서로 언급
schema.org 구조화데이터 마크업소스로 연동(안내하고 구축)
웹마스터도구는 잘 적용되었는지 확인해주는 용도로만 사용해주세요 ★
전체의 1%만 제출
82% -> 블로그, 페이스북, 인스타그램
근데 이거 믿을 수 있는 정보 맞아?
- 도메인이 각각 다른사이트를 마크업 할 경우 신뢰도가 떨어짐(서비를 해야하나 말아야하나 고민)
- 사이트와 채널의 연관도를 검증
- 채널의 변질을 감지 (판매, 변경, 삭제)
- 사이트 오너가 쉽게 채널을 삭제 할 수 있는 도구
일부 사이트에 시범적으로 연관채널을 적용 ★★★★
내 사이트는 언제부터 노출할수있느냐
~ 2018년 3월까지는 사이트 확대해서 운영계획 ★★★★★★★
★★★★★★★★★★★★★★★★★★★★
내 사이트와 연관된 채널, 네이버 검색에 알려주세요
서브링크(내부적으로 통칭)
내 사이트 서브링크 만드는 방법 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
내 사이트와 같은 도메인 !!!
현재 확대적용 검토중이며 잘 노출되길 원한다면? TIP
- 웹표준을 준수해주세요.
- javascript link 사용은 검색로봇이 이해하기 어렵습니다.
- anchor text를 정확하게 달아주세요
- text로 쓸 내용을 image로 표현하는 경우 해석하기 어렵습니다.
- 꼭 이미지를 써야하는 경우 img alt 사용해 이미지를 설명해주세요.
- 구조화된 GNB(Global Navigation Bar), LNB(Local Navigation Bar) 구성 및 사이트맵을 제공해주시면 좋습니다.
- 사이트 활성화 지수를 높여주세요.
- 사람들이 많이 찾는 (PV가 높은) 사이트일 수록 중요 링크가 무엇인지 파악하기 쉽습니다.
- 사이트를 잘 만들고 좋은 컨텐츠를 채워 놓을 수록 서브링크의 노출 확률도 높아집니다.
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
감사합니다 (악수사진)
사이트 품질향상을 위한 웹마스터도구 활용법 – 홍상현 (검색 10년차 / 웹문서가 제일 어렵다)
퍼스트 스쿨? 1시간 분량 7번째 교육 ★★ 검토해볼것
웹서포트센터 – 오늘 자료 공유해서 올릴 예정 ★★★★ 검색확인
목차
- 수집부터 노출까지, 검색시스템에 대한 이해
- 사이트 품질 진단 및 개선 방법
- 구조화 데이터에 대한 이해
- 사이트 품질향상을 위한 기본 가이드
1. 그냥 소문이 나서 방문자들이 마구마구 올 경우 자동으로 사이트가 등록되었습니다.
2. 웹마스터도구 등록하면 2-3일 / 6-7 / 3주 -5 / 2달
3. 비밀로!!…
웹마스터 등록에 등록 안되어 있어도 검색로봇이 수집해서 적용되는 경우 존재 ★★★★
50만개 정도가 등록되어져 있습니다. -> 이중에서 1%와 82% 계산 언급…
1. 수집정보 / 2. 색인정보 / 3. 품질정보 ★★★★★★★★★★★★★★★
사이트 최적화 점검 기능
웹마스터 등록된 수치 상위 1% (50만개 중)
품질정보가 랭킹 재료로 사용됩니다 ★★★★★★
좋은 품질을 유지하는 것이 매우 중요 (기본재료라고 표현) ★★★★★★
사람이 손으로 평가하지 않는다 – 모두 알고리즘이 알아서 판단 (수동검수 존재함: 언급안함)
1. 검색로봇 수집 – 로봇룰
사이트의 품질 진단을 위해서는 사이트 내 콘텐츠의 검색로봇 방문이 우선되어야 합니다.
- 웹서버 혹은 방화벽에서 네이버 검색로봇의 접근을 허용해주세요
- robots.txt 설정을 통해 네이버 검색로봇의 접근을 허용해주세요
- 메타태그를 통해 검색 노출 여부를 설정할 수 있습니다.
- 검색노출차단
- 검색노출허용
사이트 간단체크를 통해서 robots.txt로봇 메타 태그 상태를 확인하실 수 있습니다.
2. 검색로봇 수집 – sitemap.xml
사람이 보는 사이트맵을 검색로봇이 해석할 수 있는 sitemap.xml로 만들어야 합니다.
- 하위 웹페이지의 URL
- 마지막 업데이트된 날짜
- 변경빈도
- 상대적인 중요도
★★★★★★★★★★★★★★★★★★★★★★★★★★ (신생사이트의 시간을 줄이기 위함)
3. 콘텐츠 관리
검색창에 site:사이트 질의를 입력하여 내 사이트의 콘텐츠 검색반영 상태를 확인하세요.
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
웹문서 1-10 / 10건
검색반영 콘텐츠 수를 바탕으로 알 수 있습니다.
해당하는 페이지마다 검색엔진이 이해할 수 있도록 구조화해야합니다 ★★★
안나오면 웹마스터도구에 들어가서 수집해야합니다 ★★★★★★★★★★★★★★★★
4. 사이트 구조 – HTML 마크업
웹 페이지의 HTML 이 검색로봇이 이해할 수 있는 구조로 작성되어 있는지, 웹표준을 준수하고 있는지 확인하는 과정이 필요합니다.
★★★★★★ 메인컨텐츠를 절대 frame 태그로 감싸지 말아주세요 (권장하지 않음).
검색로봇이 해석하기 어렵습니다.
5. 사이트 구조 – 링크빌딩
웹 페이지 구성에 적합한 링크빌딩은 사용자에겐 콘텐츠 소비 촉진을, 검색로봇에게는 수집효율을 높여줍니다.
6. 사이트 활성화 – 앵커텍스트
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
<a href=”http://….”>웹마스터도구</a>
<img src=”img/main.jpg” alt=”웹마스터도구” />
7. 사이트 활성화 – 백링크
동일 사이트내의 다른 사이트는 모니터링함
8. 구조화 데이터 정의
구조화 데이터는 다양한 정보를 담고 있는 콘텐츠를 논리적으로 조직화하여 가공한 데이터입니다.
이를 위해선 범용적인 데이터 타입 및 관계에 대한 정의가 필요합니다.
9. 리치 스니펫 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
웹콘텐츠의 구조화 데이터는 글로벌 표준기구인 schema.org에서 정의
네이버 검색엔진은 구조화 데이터를 해석하여 검색결과의 스니펫으로 활용합니다.
(저희도 이것을 할려고 해요 / 이거 할려고 해요 / 하고있죠 / 일부 하고 있죠) 말 바뀜
10. 연관채널
사이트와 연관된 네이버 내의 서비스 및 SNS 채널을 구조화된 데이터로 적용하세요.
11. 연관채널 제출을 위한 마크업 – 웹마스터도구 템플릿 참고
(내년 3월까지 날짜를 지정해주셨네요 할꺼에요 ㅎㅎㅎ)
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
12. 사이트 품질향상을 위한 기본 가이드
- 내 사이트의 브랜드에 적합한 도메인을 사용합니다.
- 페이지는 가볍게 구성하며, 리치미디어는 필요시에만 사용합니다.
- HTTP 프로토콜을 준수하여 삭제(404), 리다이렉트(3xx)를 적절하게 활용합니다.
- 검색엔진이 잘 이해할 수 있는 HTML태그를 사용합니다.
- 모바일 등 다양한 환경/사용성을 고려합니다.
- 링크의 앵커텍스트는 해당문서를 대표할 수 있는 간결한 문구를 사용합니다.
- 검색엔진이 풍부한 검색결과를 제공할 수 있도록 구조화된 데이터를 활용합니다.
- 웹마스터도구의 수집, 색인, 품질 리포트를 지속적으로 모니터링합니다.
- 인위적인 낚시성 키워드를 통한 사용자 방문유도는 사이트의 브랜드를 기억하는데 도움이 되지 않습니다.
- 사이트 구축 시부터 에이전시가 검색엔진이 잘 이해할수 있는 사이트의 품질 향상에 관심을 기울이고 있는지 확인하세요.
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
웹마스터도구 담당자 – 홍상현 (메일 주세요)
감사합니다.
목차