씨랭크 비밀문서

이 문서는 2016년 네이버 컴퍼런스에서 나온 내용을 그대로 정리한 내용입니다.
정리된 파일이 TEXT파일이라 이 부분을 GPT-pro 버전으로 정리하여 올려놓았습니다. 부디 여러분들 이 문서를 정독하셔서 네이버 씨랭크의 비밀을 제대로 파악하시기 바랍니다.

네이버 1페이지 올릴려면 이제 무조건 씨랭크 블로그가 되어야 합니다.

검색서비스, 웹크롤링, 웹스팸 대응, 웹 랭킹, 웹사이트 품질 등 다양한 주제 발표

2016년 네이버 컴퍼런스!!

검색서비스가 사용자에게 계속 사랑을 받으려면

빠짐없이 빠르고 정확하고 공정하게

웹사이트탭 ( 신설 )
보기어려웠던 검색결과

빠짐없이 (웹수집 분석 김기동 7년차 엔지니어)

담당자도 동영상을 가져와서 사용해도 되는지를 잘 모름
우주의 별을 보면서 웹으로 생각

Web Crawl

Web Space & Page Analysis

World Wide Web

1) 규모의 문제 : 웹 공간은 어마무시하게 큽니다.
2) 품질의 문제 : 모아 놓으면 절반이 쓰레기 입니다.

4년 리서치 추정 – 약 100조개 이상

네이버에서 웹세상 – 1조 규모 ( 1 / 100 정도 관찰 )

스팸이나 저품질은 아니겠지만 이라는 문구를 사용 ( 사이트 저품질, 스팸 분류기준 ) – 직접 말함

해외, 학교 사이트 수집 대상

페루에 있는 쇼핑몰 기준
(저희 나라라는 단어를 사용)
해외에 있는 로컬사이트는 검색에서 제외대상

인터넷 도메인 개수는 3억개 이상
웹사이트 수는 10억개 이상

KR 도메인 약 100만개 수준

공익성(군/정부기관, 교육기관) 도메인 수집 100%

★ 최대 1천만개 사이트 정도 ★

웹사이트의 활성화 현황 ★★★★★★

검색 대상 웹 사이트 기준
하루 평균 21% 사이트만이 사용자의 선택을 받음
가치있게 소비되는 브랜딩 사이트는 약 3% 수준

나에게 브랜드화되어져있다

Crawler 이름은 Sunny 입니다 ★★★★

우선순위 결정하는 알고리즘 ★★★

“IDEAL” Crawler

출처로서의 가치 x 문서자체의 가치
CrawlPriority(c, c’, m) = w * NKCE(c, m) + (1-w) * NKACE(c’,m)
c= class of target url
c’= class of source url
m = monitoring time
NKCE(c,m)

얼마나 자주: RFC (Recently Fetched url Cache)
얼마나 많이: Crawl Ticket Count
어떻게 확장: Link-Extension Policy

가치부여!! 의미 부여 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

2. 웹공간과 웹페이지 분석

분석 알고리즘 기법
White Network

웹문서는 중요한 정보가 문서의 외부에서 발견되는 경우도 많습니다. ★★★★★★★
Page Link
공유의 중요성!!!!!!!!!!!!!!!!!
레퍼값의 중요성 강조 ★★★★★★★
트러스트 링크 개념

학술정보, 해외사이트 검색이 안됩니다
– 실제로 부족한게 맞습니다 (직접 인정) 악순환, 찾을 수 없고, 고민되고, 어려움, 트러스트 링크 개념 주장

의미있는 결과들도 많이 나오고 ★★★★★★★★★★★★★★★

자동으로 하자 실험!!! ★★★★★★★★★★★★ 괜찮은 결과 나와서 적용

2017년 4월 19일 부터 약 5.5배 증가 (확장 White Site)

의미있는 결과들이 나왔다고 생각이 들고 ★★★★★★★★★★★★★★(계속 강조)

뻔히 보이는데 왜 나쁜게 나와요? 사람이 느끼는 직관적인 느낌을 수치화 ★★★★★ 시도 ★★★★
크랭크? 씨랭크? (왜 자꾸 크랭크라고 말하는지는 정확히 파악이 안됨)

Scoring on ML
국립중앙도서관
P-RANK 상위 0.9%
저품질 사이트
P-RANK 상위 82.2%

검색 지표중에 반영 %로 적용되어 실제 순위와는 다르게 나올 수 있다 (랭킹 자료)

웹공간은 상상이상으로 방대합니다. ‘헉’ 하는 소리가 날 정도로 ‘촘촘하고 똑똑하게 수집 좋은 지표 발굴을 위해 도전적인 연구를 진행하고 있습니다’ 라고 싶지만은… 이라고 표현
야근도 할 수 있고 고민을 하는 사람이 있다 정도로 알고 있으면 좋겠다

고맙습니다. ( 1교시 끝 )

2교시 웹스팸과의 전쟁

나쁜놈들 전성시대

스팸대응 실패사례
스팸잡기 어려운이유
네이버는 그럼에도 불구하고 열심히 잡고있습니다.

흥망성쇠를 결정하는 스팸

돈 좀 버나 싶을 때 스팸이 등장

스팸피해사례 1

tumblr. 스팸 무시 대응안하다가 뒤늦게 늦음
서비스 품질을 나빠지게 하는 녀석

스팸피해사례 2

‘070 스팸전화’ 인식 탓? 전화 안 받는다 (인터넷전화 가입자 24만명 감소)
070차단 앱 소개

스팸피해사례 3

1위기업이 망가진 이유
한메일 – 스팸메일

온라인우표제 – 1통당 10원씩
아이디 만들어서 99통씩 보내서 피함
한메일 -> 네이버 메일로 변경 ★★★★★

스팸처리는 왜 해야하는가?

서비스나 업체에게 신뢰를 더해줌
안정적인 성장을 가능하게 하는 원동력
데이터 순결성 유지

문제는?

고비용이 발생: 서비스 품질 저하로 인해 사용자 만족도 감소
스팸을 무시하자니 저품질된다는 말을 함 ★★★★★★★★
비용을 최소화하면서 스팸을 최대로 줄일 수 있는 비용과 정책 추진

검색엔진의 동작원리 ★★★

웹문서수집 -> 웹문서정제 & 색인 -> 웹문서노출

(이전에 발표하신 김기동님이라고 표현, 직책에 대한 부분은 없는 것으로 파악)

수집해야 할지 안할지를 웹문서정제 부분에서 판단
이곳에서 넘어가면 랭키 여부 결정 / 통과하지 못하면 더 이상 그쪽에서 수집을 하지 않도록 함

전체 문서의 약 25~30% 정도가 스팸으로 추정

사용자에게 의미 없는 문서

자동 생성 컨텐츠
워드 샐러드
히든 텍스트 (문법에 맞지 않는 것), 태그 히든 사이트

잘못되거나 부정확한 정보를 전달하는 문서

유사 공공 사이트
유사 포탈 사이트

개인정보 수집을 목적으로 하는 문서
보험사 사이트 ★★★★★★

성인/도박 게시물 광고

스팸사이트로의 방문유도

컨텐츠 소비(성인/도박/토렌트)
광고수입(유사 포탈)
개인정보수집

스팸을 잡기 어려운 이유 (1/2)

스패머는
(지적으로) 정상 사용자들보다 웹 환경과 검색 엔진을 더 잘 이해
(양적으로) 스팸 문서를 꾸준히 생성
(질적으로) 스팸처리 로직이 적용될 때마다 이를 피하기 위해 로직 고도화
스팸이 살아있는 생명

네이버를 괴롭히고 있다

검색 엔진이 고도화 / 기술적으로 발전

기술적으로 고품질 문서 구분짓는 건 쉽지않음
명품과 아주 잘 만들어진 이미테이션을 구별하는 것과 동일함
문서내용을 충분히 이해하는 수준 ★★★★★★★★★★★★
문서클러스터링 새로 개발 ★★★★

스팸의 유형

web contents spam 내용 자체가 스팸
- 사람이 안들어옴 / 광고를 함 게시판 도배하고 링크 (웹링크 스팸)
리다이렉트
정상사이트로 보이게 하거나 웹검색로봇은 정상 / 유저에게는 나쁜문서 (클로킹)
해킹 (대량유입)

TextCNN
단어셋학습 (딥러닝 알고리즘)
– 성인, 도박, 보험 관련 스팸 제거 (단어 세트가 포함될 경우 스팸제거) – 블로그에도 적용되어져 있음
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

Grammar
문법에 맞지 않는 문서
– 자동생성 컨텐츠 제거

Information
– 문서가 가진 정보량 측정
Named entity 분류 및 문서 내 중요 단어 추출
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
가격, 호텔이름, 연도가 실제 정보 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
이러한 단어가 없다면 스팸으로 처리
★ 정보가 많으면 좋은 문서로 판단 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

GRAPH
사이트간의 통계적 분석을 이용한 스팸 호스트 및 광고 링크 추출
성균관대학교 황지영 교수 팀과 산학 연구 진행 중
————————————
논문으로 서브미션 ★★★★★★★★★★★★★★★★★★★★

클로킹 스팸의 특징
– 수집 시에는 정상페이지를 보여줌
– 반면, 네이버 검색 결과를 통해 들어간 경우에는 스팸 페이지로 보여줌
(자바스크립트 분석)

정상 사이트 내에 기생하고 있는 스팸 영역을 추출(NLU + GRAPH) 해킹 확인

– 문서 외형 (Layout)을 이용한 클러스터링
자동일 때는 대량으로 된다 ★★★★★★★★★★

Conclusion

잘되는 서비스에는 항상 스팸이 나타납니다.

(이상입니다)

2교시 끝

웹 검색과 랭킹 – 김상범

웹검색하고 의미있는 검색 서비스
랭킹학습한다는 의미
랭킹시그널을 비밀로 하는 이유
——-
검색 잘하고 싶은데 어렵습니다 (직접 발언)

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
Google
Bing (빙은 구글을 카피한다)
야후 – 빙+구글 믹스
Baidu – 중국정부가 구글을 철수시키고 구글따라함
Yangdex – 러시아 (구글이 추격중) 2년동안 23% -> 8%차로 격차줄어들었습니다
Seznam – 체코 검색서비스 (구글이 지금 더 우세)
네이버 – 우리도 사라질려나 하면서 일한다(직접발언)

지역, 쇼핑, 쉬운플랫폼(알고있는것에 쏟아붇는 전략)
순수하게 웹검색은 격차가 있다

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

웹검색이 뉴스검색과 블로그 검색과 다른점

검색대상의 양과 위치: 뉴스/블로그(대략 알수 있다) > 웹은 얼마나 많은 문서가 어디에서 있는지 파악문제
브라우저 – 사람들이 가는 URL 수집을 위해 ★★★★
검색컨텐츠의 품질: 일정부분 관리 가능 vs 웹은 관리 불가능
사용자가 원하는 문서: 여러 좋은 문서 중 몇 개 vs 오직 그 웹페이지

whois 가서 도메인 정보를 간접적으로 수집 (도메인 날짜 매우 중요 / 생성일, 기간, 만료일)

키워드를 검색해서 정확하게 꼭 나와야 하는 페이지를 찾아야 한다 ★★★★★★★★★★★★

롯데타워 전망대 가격 키워드 검색하면…
블로그, 뉴스는 최대한 비슷한거 만들 수 있지만
웹문서는 부정적인 부분과 기술적으로 파악을 해야함, 그래서 어려움 ★★★
제목이 잘 매칭되고 어느 정도 문맥과 상관없이 웹문서는 나와야 한다는 표현에서 블로그와 뉴스의 알고리즘이 나옴 ★★★

1. 네이버가 지향하는 좋은 검색결과

검색어가 문제인데 이 키워드의 핵심이 무엇일까!!!! ★★★★
네이버의 철학은 인물에 대해서는 무조건 1등으로 나와야 한다는 지향이 존재

2. 검색평가 가이드라인 문서로 평가

5점짜리는 그 URL로 가면 끝인 경우
4점짜리는 원하는 정보를 거의 다 얻을 수 있는 정보
3점짜리는 다른것도 같이 봐야하는 것
2점짜리는 안봐도 상관없는 것
1점짜리는 …

4. 데이타셋 생성 (기계학습)

나중에 여기에 없는 데이터를 바탕으로 평가를 하는 기술
샘플 만개를 만들어놓고 반자동이라는 말 함 ★★★★ 수동이란 이야기

정확한 값을 지정하는 위치에는 무조건 사람의 손이 필요함

방갯수, 지역 등 특정 키워드가 포함되면 아파트 가격을 예측하는 문서로 표현 ★★★★★★★★

이미지는 픽셀 매트릭스가 데이터
음성인식은 시그널 그 자체가 입력
검색은 특정키워드와의 관계를 벡터로 표현

5. 엔지니어들의 시그널 발굴

(개발자 엔지니어가 매일 하는 일 / 월급받고 하는 일)

커리 단어가 있는지 없는지 여부
스팸 같아 아니야 여부
벡터로 만들 수 있는 모든 재료들

-> 점수로 나오면 이걸 더해서 랭킹 부여
A/B 온라인 테스트 하고 (욕, 비난) 하는지 여부 검토

랭킹모듈을 “학습” 한다
위키피디아 Learning-to-Rank 검색하면 내용 나옴 ★★★★
전형적인 기계학습의 예

만약 아래와 같이 입력에 대해 출력값을 내주는 함수 f의 w1, w2를 구하려면?

f = x1*w1 + x2*w2
x1  x2  f
0    0    0.0
0    1    0.3
1    0    0.7
1    1    1.0

향후에

x1  x2  f
0.1 0.1 0.1
x  0.1  0.66
x  0.9  0.34
x  0.6  0.6

x1과 x2를 무엇을 쓰냐에 따라 기업의 검색 품질이 정해짐 ★★★★★

x1 -> 네이버 개발자 연봉 (3단어 / 1개가 매칭되면 , 2개가 매칭되면, 3개가 매칭되면)

★★★★★★ 사용자 키워드가 많이 들어갈수록 점수가 높아짐
공개를 하는 순간 순위조작

x2에 제목에 단어를 넣을 경우 보완제로 활용 (많이 쓰면 내려감)

어떤 url에서 머무른 시간 – 오래 있더라 -> 좋은문서로 쓸 수 있냐?
시그널이 무력화되는 순간 야근을 해야함 ★★★★★

구글 200개 정도의 시그널 사용
50개는 안변한다

Schmidt: Listing Google’s 200 Ranking Factors Would Reveal Business Secrets

랭킹 시그널을 뭘쓰는지 외부에서 알게되면 알고리즘이 무력화되어 서로 힘들어져서 오픈 못함
★★★★★★

SEO Business 연구하면서 개발하고 따라와주길 바랍니다. ★★★★★★★
네이버는 랭킹 시그널 150개를 사용한다고 직접 이야기함 ★★★★

밖에서 가져온 것을 가져와서 보여주고 싶지만 그것 자체가 어려워서 내부적인 부분 위주로 해왔다 (직접 발언) ★★

엔진검색시그널 찾는것이 엔지니어의 업무 ★★★★

랭킹성능

이상적인 랭킹 : 5, 4, 3, 2, 1
A가 5, 4, 3, 1, 2 검색할때는 -> 0.996
DCG = 5 + 4/log2(3) + 3/log2(4) + 2/log2(5) + 1/log2(6) = 10.27
2011년에서 야후에서 사용하던 알고리즘

사용자가 검색 순서를 어떻게 했냐에 따라 점수가 매겨지는 알고리즘 존재 ★★★★★ (직접 피피티로 알려줌)

랭킹이 이상한 건 조작이 아니라 기술력의 한계 ★★★★★

사용자가 만족할만한 검색서비스를 제공하는 회사는 지구상에 얼마 남지 않았다.
랭킹은 학습집합을 만들고 기계학습알고리즘으로 랭킹함수를 계산해내는 전형적인 컴퓨터과학의 문제입니다
랭킹시그널을 공개할수없는 이유는 공개하는 순간 그 시그널은 무력화되고 새로운 시그널을 찾아 헤매야 함
아직 기술력 부족

지구상에서 의미있는 서비스 있기를 원함 ★★★★

이상으로 마침!!

네이버 웹검색 서비스 – 김종범

웹검색의 변화와 방향

90’s 검색 초창기 (90년대말)
“사이트”검색

검색등록
신청 & 에디터DB 구축
사이트
– Hubness, 메인페이지, 페이지들의 중심
– 사이트를 이용 각 문서를 찾아가는 방식
– 같은 주제군의 사이트를 모아 카테고리로 구분

직접 검색 반영했지만 변경 및 삭제 대응 불가, 파악이 어려움 ★★★★★
스팸 & 변질 취약 어려움
검토 및 보강 투입 (인력 투입)

검색 등록을 할 수 밖에 없던 환경

수집 비허용
제목 등 메타태그 누락
여러 URL 사용

한사이트가 여러URL을 사용할 경우 판단 어려움 ★★★★
전반적으로 웹표준에 대한 인지 & 인식 부족

웹 환경의 변화

정보 측면에서 사이트 내의 다양한 정보를 직접 노출하고 이동하는 환경
내외부의 차별논란에서 외부 정보를 가져오는 방식에 대한 개선이 필요

네이버의 방향과 대응

수집한 컨텐츠를 잘 분석하고 이해하고
영역을 집중하여 사용자들의 니즈에 맞춰 대응하는 방향
컨텐츠 생산자도 더 많은 노출기회를 확보하고 경쟁이나 노출이 투명한 환경 제공

(한 분야에 집중한다는 이야기)

검색로봇이 자동으로 발견한 정보를 노출하는 수집 기반 방식 ★★★★★★★★★★★★
3년 전부터 도입해서 체감

– 적응하기 위한 노력이 필요하더라도 본질부터 개선 Feat 네이버웹마스터도구

가끔은 기존보다 더 오래 걸려요.
왜 노출 안되요.
등등

수집 기반 이후 변화

웹표준을 준수하는 사이트로 관리해야 한다는 인식 확대
접근 개서 – MEAT 적용 등 (40% 상향)
웹공간을 더 잘 이해할 수 있고 양질의 출처를 찾는데 도움

★ 웹수집 시스템의 개선
★ 좋은 문서 출처 판독 기술 확보
★ 커뮤니케이션과 교육

통검에서 사이트 영역 통합

18년 1월

17년 12월 웹사이트 통합 ★★★

12월 7일
오늘부터 웹문서와 사이트 탭을 “웹사이트” 탭으로 통합
★★★★★★★★★★★★★★★★★★★★ 오늘부터 적용

2018년 1분기
통합검색에서도 웹문서와 사이트 통합 ★★★★★★★★★★★★★★★
PC, 모바일에서도 통일감 있는 UI제공 ★★★

다변화 UI

대상 웹사이트와 템플릿 확대
리뷰 – 별점 노출
지역 – 핀을 마킹
방송 – 재생정보 채널정보 장르 표출

서브링크
대상 및 노출방식 확대
서브 메뉴 (2018년 배포시 정식출시) – 사이트 표준화 – 사이트맵 메뉴 노출 ★★★★★
브랜드화되어질 경우 더욱 강화 ★★★

브랜딩이 잘된 페이지 루트를 찾는다면
공공기관 제한적으로 사용되었지만 대상확장과 기준공개로 브랜드 노출할 수 있도록 공개

찾는 방법이 달라도 좋은 결과로
여권사진 머리, 여권사진 모자, 여권사진 규격, 여권사진 조건, 규정 등
외교부 사이트를 1순위로 보여줌!! ★★★★★

사용자 분들께 드리고자 하는 가치

생산자
- 좋은 결과를 검색결과로 노출할 수 있는 기회의 확장
- 사이트 연관질의 (브랜드)에 대해서는 노출빈도 확대
소비자
- 좋은 정보로 찾아가는 과정을 최소화
- 동일 의미로 찾는 사용자를 모아주는 서비스

감사합니다 마침

2부

웹사이트 검색

네이버가 알려주는 웹검색 공략 – 김종범

네이버 검색 이용자
– 검색에 잘 노출 문서생산자
– 검색을 보고 조하는 소비자

만족도의 결정요소 / 만족도 평가 방법
(웹문서 – 누구나 수긍하고 인정할 수 있는 정보)
관련성 / 신뢰성 / 접근성 ★★★★★★★★★★★★★★★

내 문서를 검색에 잘 노출하기 위한 방법 ★★★★★

1. 검색에 대한 이해 (검색 = 수집해온 페이지를 저장하고 색인하여 검색어에 맞춰 랭킹을 제공) 2. 수집 – 페이지의 구성 (기계가 이해하기 쉬운지 / 웹표준 관점에서의 페이지 규약 준수) 3. 랭킹 – 컨텐츠의 구성 (사용자가 찾는 정보가 존재 / 경쟁관계 문서보다 내가 더 우세한지 여부)

수집 -> 기계가 이해하기 좋게 최적화된 상태

필수조건 – 웹마스터도구를 이용한 사이트 품질 향상법 ★★★★

여러 URL보다 한 개의 집중된 URL 사용(캐노니컬 설정 등)
시의적, 환경에 맞는 META정보 갱신
접속 안정성 / 수집허용, 스팸이나 외부 공격에 대한 대비
독창적 브랜딩 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★
주제 맞춰 커스텀 작업 병행(CMS에서 제공하는 기본 템플릿보다는…)
- 채워야 할 항목들을 비우지는 않았는지 ★★★★★★★★★★★★★★★★

웹서포트센터, 블로그 등으로 통해 업데이트

웹마스터도구 블로그, 웹마스터도구 시작하기 참조

랭킹

사이트 구조를 기본으로
컨텐츠에 따라 결정!
컨텐츠 생산과 방향 ★★★★★★★★★★★★★★★★★

랭킹 – 다수의 피쳐들의 조합을 수식화하여 검색어별 순위결정
“가이드라인”에 의해 평가된 결과의 누적

사용자의 만족도
접속의 원활성
외부의 평판
등등등

공개는 할 수 없다. 일부는 네이버 블로그를 통해 공개

피쳐 = 시그널

랭킹 = 만족도
웹검색의 철학 & 방향성

관련성 – 사용자의 입력한 질의와 얼마나 연계도는지 여부

검색어와 연관도 ★★★★
다루지 않은 컨텐츠를 선점 ★★★★
일반적인 키워드에서 경쟁
반복횟수가 많다고 관련성이 높아지는 것은 아님
적절한 사용여부는 연구대상

신뢰성 – 내가 지닌 페이지가 좋은 평판을 갖는 것

운영기간
신규컨텐츠, 컨텐츠 리프레시
외부에서의 언급 – 타 신뢰한만한 사이트, 링크횟수
타 신뢰사이트에서의 링크

접근성 – 읽기 신속 편리 – 사이트의 운영/컨텐츠의 최적화

스팸(글 읽을 때 상위에 광고여부)
읽기편한지

신뢰도에서 밀리기 시작 – 비트코인 키워드의 경우 전문성까지 띄지 않으면 접근도 어려움

채널과 연계한 평판 관리 – 팁 ★★★★★★★

적절수준의 연관 채널을 운영
각 페이지 간의 연관성과 정보의 구성을 분리
- SNS : 이벤트, 휘발성, 시의성 컨텐츠
- 웹페이지 : 더 공들여 작성한 정보, 히스토리/아카이빙

SNS에서 이벤트하고 블로그에서는 정보만 제공해달라 ★★★★★★★★★★★★★★★★★★★★★

웹수집 이미지의 확장 (올해부터 적극적으로 반영)

PV 높은 이미지 영역에도 웹문서내 이미지가 대량 반영(10억건)
노출기회의 확장, 다변화 등과 연계하여 리치한 정보를 통해 사용자 유인 & 확보 가능토록 할 계획
ALT, 캡션 등 활용

게시판 운영 등의 판단 – 가이드

펌글 위주, 이슈성 게시물이 집중된다면
일반 방문자도 쉽게 게시글을 작성할 수 있다면 -> 스팸도배 -> 노출?

게시판은 꼭 쓰지 않아도 된다!! ★★★★★★★★★★★★

이용자 – 사용자가 무엇을 찾을지 !!! ★★★★★★★

검색이용자들이 찾고 볼만한 컨텐츠를 공략 -> 연관성 높은 키워드에 대해
연관채널을 이용하여 방문에 집중
주제에 충실한 컨텐츠

블로그 C랭크처럼 사이트 역시 동일 ★★★★★★

소문 & 질문

네이버는 큰 규모의 사이트만 우대한다 – 사실은 아니다
내부컨텐츠만 우선하여 노출한다 – 사실은 아니다 (기술부족에 대한 언급)
사이트의 모든 문서가 노출되지 않는다 – 사실입니다.
- 검색 허용된 문서의 모든 노출을 보장하지 않습니다. 소비가 없거나 찾지 않은 경우 리소스 효율상 검색 대상 문서는 계속 변화
웹사이트의 최적화 작업은 어렵다 – 단기간은 어렵다! ★★★
- 웹표준, 신디케이션은 답이 있는 경우이지만 어느정도 기술적 지식 필요
- 잘 지원할 수 있는 에이전시 등을 이용하는 것도 필요

컨텐츠 측면에서는 장기간의 사용자 선호의 누적 필요 ★★★★★★

– 각 웹사이트들이 더 성장하고 평가를 받는 도움이 될 수 있는 네이버의 역할과 노력은 계속 고민하겠습니다.
– 마케팅, SEO 전문가 분들과 협력해서 오픈해 나가겠습니다.

감사합니다.

내 사이트와 연관된 채널, 네이버 검색에 알려주세요 – 이다해

네이버에서 내 브랜드를 검색하면 ★★★★
검색하면 대표사이트, 블로그, 모두, 인스타그램, 페이스북 등 여러가지 검색결과가 나옴

대표사이트 하단에 연관채널 굴비처럼 묶어서 연구 ★★★★

어떤 방식으로 이걸 잘 수집해서 보여주지??

요청에 의한 연관채널 추가 – 과거의 검색등록과 동일한 문제점으로 인해 유지관리가 어려움 x
누구나 알만한 사이트 채널만 – 검색로봇 등록 사람판단이 필요해서 경계자체가 모호함 x
사이트 <-> 채널 서로 언급

schema.org 구조화데이터 마크업소스로 연동(안내하고 구축)
웹마스터도구는 잘 적용되었는지 확인해주는 용도로만 사용해주세요 ★
전체의 1%만 제출

82% -> 블로그, 페이스북, 인스타그램

근데 이거 믿을 수 있는 정보 맞아?

도메인이 각각 다른사이트를 마크업 할 경우 신뢰도가 떨어짐(서비를 해야하나 말아야하나 고민)
사이트와 채널의 연관도를 검증
채널의 변질을 감지 (판매, 변경, 삭제)
사이트 오너가 쉽게 채널을 삭제 할 수 있는 도구

일부 사이트에 시범적으로 연관채널을 적용 ★★★★

내 사이트는 언제부터 노출할수있느냐
~ 2018년 3월까지는 사이트 확대해서 운영계획 ★★★★★★★

★★★★★★★★★★★★★★★★★★★★
내 사이트와 연관된 채널, 네이버 검색에 알려주세요

서브링크(내부적으로 통칭)

내 사이트 서브링크 만드는 방법 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
내 사이트와 같은 도메인 !!!

현재 확대적용 검토중이며 잘 노출되길 원한다면? TIP

웹표준을 준수해주세요.
- javascript link 사용은 검색로봇이 이해하기 어렵습니다.
- anchor text를 정확하게 달아주세요
- text로 쓸 내용을 image로 표현하는 경우 해석하기 어렵습니다.
- 꼭 이미지를 써야하는 경우 img alt 사용해 이미지를 설명해주세요.
구조화된 GNB(Global Navigation Bar), LNB(Local Navigation Bar) 구성 및 사이트맵을 제공해주시면 좋습니다.
사이트 활성화 지수를 높여주세요.
- 사람들이 많이 찾는 (PV가 높은) 사이트일 수록 중요 링크가 무엇인지 파악하기 쉽습니다.
- 사이트를 잘 만들고 좋은 컨텐츠를 채워 놓을 수록 서브링크의 노출 확률도 높아집니다.

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

감사합니다 (악수사진)

사이트 품질향상을 위한 웹마스터도구 활용법 – 홍상현 (검색 10년차 / 웹문서가 제일 어렵다)

퍼스트 스쿨? 1시간 분량 7번째 교육 ★★ 검토해볼것
웹서포트센터 – 오늘 자료 공유해서 올릴 예정 ★★★★ 검색확인

사이트 최적화 점검 기능
웹마스터 등록된 수치 상위 1% (50만개 중)
품질정보가 랭킹 재료로 사용됩니다 ★★★★★★
좋은 품질을 유지하는 것이 매우 중요 (기본재료라고 표현) ★★★★★★
사람이 손으로 평가하지 않는다 – 모두 알고리즘이 알아서 판단 (수동검수 존재함: 언급안함)

1. 검색로봇 수집 – 로봇룰

사이트의 품질 진단을 위해서는 사이트 내 콘텐츠의 검색로봇 방문이 우선되어야 합니다.

웹서버 혹은 방화벽에서 네이버 검색로봇의 접근을 허용해주세요
robots.txt 설정을 통해 네이버 검색로봇의 접근을 허용해주세요
메타태그를 통해 검색 노출 여부를 설정할 수 있습니다.
- 검색노출차단
- 검색노출허용

사이트 간단체크를 통해서 robots.txt로봇 메타 태그 상태를 확인하실 수 있습니다.

2. 검색로봇 수집 – sitemap.xml

사람이 보는 사이트맵을 검색로봇이 해석할 수 있는 sitemap.xml로 만들어야 합니다.

하위 웹페이지의 URL
마지막 업데이트된 날짜
변경빈도
상대적인 중요도

★★★★★★★★★★★★★★★★★★★★★★★★★★ (신생사이트의 시간을 줄이기 위함)

3. 콘텐츠 관리

검색창에 site:사이트 질의를 입력하여 내 사이트의 콘텐츠 검색반영 상태를 확인하세요.
★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★
웹문서 1-10 / 10건
검색반영 콘텐츠 수를 바탕으로 알 수 있습니다.

해당하는 페이지마다 검색엔진이 이해할 수 있도록 구조화해야합니다 ★★★
안나오면 웹마스터도구에 들어가서 수집해야합니다 ★★★★★★★★★★★★★★★★

4. 사이트 구조 – HTML 마크업

웹 페이지의 HTML 이 검색로봇이 이해할 수 있는 구조로 작성되어 있는지, 웹표준을 준수하고 있는지 확인하는 과정이 필요합니다.
★★★★★★ 메인컨텐츠를 절대 frame 태그로 감싸지 말아주세요 (권장하지 않음).
검색로봇이 해석하기 어렵습니다.

5. 사이트 구조 – 링크빌딩

웹 페이지 구성에 적합한 링크빌딩은 사용자에겐 콘텐츠 소비 촉진을, 검색로봇에게는 수집효율을 높여줍니다.

6. 사이트 활성화 – 앵커텍스트

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

<a href=”http://….”>웹마스터도구</a>
<img src=”img/main.jpg” alt=”웹마스터도구” />

7. 사이트 활성화 – 백링크

동일 사이트내의 다른 사이트는 모니터링함

8. 구조화 데이터 정의

구조화 데이터는 다양한 정보를 담고 있는 콘텐츠를 논리적으로 조직화하여 가공한 데이터입니다.
이를 위해선 범용적인 데이터 타입 및 관계에 대한 정의가 필요합니다.

9. 리치 스니펫 ★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

웹콘텐츠의 구조화 데이터는 글로벌 표준기구인 schema.org에서 정의
네이버 검색엔진은 구조화 데이터를 해석하여 검색결과의 스니펫으로 활용합니다.

(저희도 이것을 할려고 해요 / 이거 할려고 해요 / 하고있죠 / 일부 하고 있죠) 말 바뀜

10. 연관채널

사이트와 연관된 네이버 내의 서비스 및 SNS 채널을 구조화된 데이터로 적용하세요.

11. 연관채널 제출을 위한 마크업 – 웹마스터도구 템플릿 참고

(내년 3월까지 날짜를 지정해주셨네요 할꺼에요 ㅎㅎㅎ)

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

12. 사이트 품질향상을 위한 기본 가이드

내 사이트의 브랜드에 적합한 도메인을 사용합니다.
페이지는 가볍게 구성하며, 리치미디어는 필요시에만 사용합니다.
HTTP 프로토콜을 준수하여 삭제(404), 리다이렉트(3xx)를 적절하게 활용합니다.
검색엔진이 잘 이해할 수 있는 HTML태그를 사용합니다.
모바일 등 다양한 환경/사용성을 고려합니다.
링크의 앵커텍스트는 해당문서를 대표할 수 있는 간결한 문구를 사용합니다.
검색엔진이 풍부한 검색결과를 제공할 수 있도록 구조화된 데이터를 활용합니다.
웹마스터도구의 수집, 색인, 품질 리포트를 지속적으로 모니터링합니다.
인위적인 낚시성 키워드를 통한 사용자 방문유도는 사이트의 브랜드를 기억하는데 도움이 되지 않습니다.
사이트 구축 시부터 에이전시가 검색엔진이 잘 이해할수 있는 사이트의 품질 향상에 관심을 기울이고 있는지 확인하세요.

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★

웹마스터도구 담당자 – 홍상현 (메일 주세요)
감사합니다.

게시됨

2025-03-16

카테고리

씨랭크 테스트, 키워드마스터

작성자

keywordmstart

태그:

2016년 네이버 컨퍼런스, 네이버 블로그 알고리즘, 네이버 컨퍼런스, 블로그 비밀문서, 블로그로직, 씨랭크, 씨랭크 PDF, 씨랭크 비밀문서

씨랭크 비밀문서