로 루슬란 야쿠셰프
IIS 검색 엔진 최적화 도구 키트에는 웹 사이트에 대한 Robots.txt 파일의 콘텐츠를 관리하는 데 사용할 수 있는 로봇 제외 기능이 포함되어 있으며 사이트의 사이트 맵을 관리하는 데 사용할 수 있는 Sitemaps 및 Sitemap 인덱스 기능이 포함되어 있습니다. 이 연습에서는 이러한 기능을 사용하는 방법과 이유를 설명합니다.
배경
검색 엔진 크롤러는 웹 사이트에서 제한된 시간과 리소스를 소비합니다. 따라서 다음을 수행하는 것이 중요합니다.
- 크롤러가 중요하지 않거나 검색 결과 페이지에 표시되지 않아야 하는 콘텐츠를 인덱싱하지 않도록 합니다.
- 크롤러가 인덱싱에 가장 중요하다고 판단되는 콘텐츠를 가리킵니다.
이러한 작업을 수행하는 데 일반적으로 사용되는 두 가지 프로토콜인 로봇 제외 프로토콜과 Sitemaps 프로토콜이 있습니다.
로봇 제외 프로토콜은 웹 사이트를 크롤링할 때 요청해서는 안 되는 URL을 검색 엔진 크롤러에 알리는 데 사용됩니다. 제외 지침은 웹 사이트의 루트에 있는 Robots.txt 텍스트 파일에 배치됩니다. 대부분의 검색 엔진 크롤러는 일반적으로 이 파일을 찾고 해당 파일의 지침을 따릅니다.
Sitemaps 프로토콜은 웹 사이트에서 크롤링에 사용할 수 있는 URL에 대해 검색 엔진 크롤러에 알리는 데 사용됩니다. 또한 Sitemaps는 마지막으로 수정된 시간, 수정 빈도, 상대 우선 순위 등 사이트의 URL에 대한 몇 가지 추가 메타데이터를 제공하는 데 사용됩니다. 검색 엔진은 웹 사이트를 인덱싱할 때 이 메타데이터를 사용할 수 있습니다.
필수 조건
1. 웹 사이트 또는 애플리케이션 설정
이 연습을 완료하려면 IIS 7 이상의 호스트된 웹 사이트 또는 사용자가 제어하는 웹 애플리케이션이 필요합니다. 없는 경우 Microsoft 웹 애플리케이션 갤러리에서 설치할 수 있습니다. 이 연습에서는 인기 있는 블로깅 애플리케이션 DasBlog를 사용합니다.
2. 웹 사이트 분석
웹 사이트 또는 웹 애플리케이션이 있으면 이를 분석하여 일반적인 검색 엔진이 콘텐츠를 크롤링하는 방법을 이해할 수 있습니다. 이렇게 하려면 "사이트 분석을 사용하여 웹 사이트 크롤링" 및 "사이트 분석 보고서 사용" 문서에 설명된 단계를 수행합니다. 분석을 수행할 때 검색 엔진이 크롤링할 수 있는 특정 URL이 있지만 크롤링 또는 인덱싱되는 데는 실질적인 이점이 없다는 것을 알 수 있습니다. 예를 들어 검색 엔진 크롤러에서 로그인 페이지 또는 리소스 페이지를 요청해서는 안 됩니다. 이와 같은 URL은 Robots.txt 파일에 추가하여 검색 엔진에서 숨겨야 합니다.
Robots.txt 파일 관리
IIS SEO 도구 키트의 로봇 제외 기능을 사용하여 검색 엔진에 웹 사이트의 어떤 부분을 크롤링하거나 인덱싱해서는 안 되었는지 알려주는 Robots.txt 파일을 작성할 수 있습니다. 다음 단계에서는 이 도구를 사용하는 방법을 설명합니다.
- 시작 메뉴 INETMGR을 입력하여 IIS 관리 콘솔을 엽니다.
- 왼쪽의 트리 보기(예: 기본 웹 사이트)를 사용하여 웹 사이트로 이동합니다.
- 관리 섹션 내에서 검색 엔진 최적화 아이콘을 클릭합니다.
- SEO 기본 페이지의 로봇 제외 섹션 내에서 "새 허용되지 않는 규칙 추가" 작업 링크를 클릭합니다.
허용 허용 규칙 추가
"허용되지 않는 규칙 추가" 대화 상자가 자동으로 열립니다.
로봇 제외 프로토콜은 "허용" 및 "허용 안 함" 지시문을 사용하여 검색 엔진에 크롤링할 수 있는 URL 경로와 크롤링할 수 없는 URL 경로에 대해 알립니다. 이러한 지시문은 모든 검색 엔진 또는 사용자 에이전트 HTTP 헤더로 식별된 특정 사용자 에이전트에 대해 지정할 수 있습니다. "허용 안 함 규칙 추가" 대화 상자에서 "Robot(사용자 에이전트)" 필드에 크롤러의 사용자 에이전트를 입력하여 지시문이 적용되는 검색 엔진 크롤러를 지정할 수 있습니다.
URL 경로 트리 뷰는 허용되지 않아야 하는 URL을 선택하는 데 사용됩니다. "URL 구조" 드롭다운 목록을 사용하여 URL 경로를 선택할 때 몇 가지 옵션 중에서 선택할 수 있습니다.
- 물리적 위치 - 웹 사이트의 실제 파일 시스템 레이아웃에서 경로를 선택할 수 있습니다.
- 사이트 분석(분석 이름) - IIS 사이트 분석 도구를 사용하여 사이트를 분석할 때 검색된 가상 URL 구조에서 경로를 선택할 수 있습니다.
- <새 사이트 분석 실행...> - 새 사이트 분석을 실행하여 웹 사이트의 가상 URL 구조를 가져온 다음, 해당 위치에서 URL 경로를 선택할 수 있습니다.
필수 구성 요소 섹션에 설명된 단계를 완료하면 사이트 분석을 사용할 수 있습니다. 드롭다운 목록에서 분석을 선택한 다음 , "URL 경로" 트리 뷰의 검사 상자를 사용하여 검색 엔진에서 숨겨야 하는 URL을 검사.
허용되지 않는 데 필요한 모든 디렉터리 및 파일을 선택한 후 확인을 클릭합니다. 기본 기능 보기에 새 허용되지 않는 항목이 표시됩니다.
또한 사이트에 대한 Robots.txt 파일이 업데이트되거나 존재하지 않는 경우 생성됩니다. 해당 콘텐츠는 다음과 유사합니다.
User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Robots.txt 작동 방식을 확인하려면 사이트 분석 기능으로 돌아가서 사이트에 대한 분석을 다시 실행합니다. 보고서 요약 페이지의 링크 범주에서 Robots.txt 의해 차단된 링크를 선택합니다. 이 보고서에는 방금 만든 Robots.txt 파일에서 크롤링되지 않은 링크가 모두 표시됩니다.
Sitemap 파일 관리
IIS SEO 도구 키트의 Sitemaps 및 Sitemap 인덱스 기능을 사용하여 웹 사이트에서 사이트 맵을 작성하여 크롤링 및 인덱싱해야 하는 페이지의 검색 엔진에 알릴 수 있습니다. 이렇게 하려면 다음 단계를 수행하세요.
- 시작 메뉴에서 INETMGR을 입력하여 IIS 관리자를 엽니다.
- 왼쪽의 트리 보기를 사용하여 웹 사이트로 이동합니다.
- 관리 섹션 내에서 검색 엔진 최적화 아이콘을 클릭합니다.
- SEO 기본 페이지의 Sitemaps 및 Sitemap 인덱스 섹션 내에서 "새 사이트 맵 만들기" 작업 링크를 클릭합니다.
- 사이트맵 추가 대화 상자가 자동으로 열립니다.
- 사이트맵 파일의 이름을 입력하고 확인을 클릭합니다. URL 추가 대화 상자가 나타납니다.
사이트맵에 URL 추가
URL 추가 대화 상자는 다음과 같습니다.
Sitemap 파일은 기본적으로 변경 빈도, 마지막으로 수정한 날짜 및 상대 우선 순위와 같은 일부 메타데이터와 함께 URL을 나열하는 간단한 XML 파일입니다. URL 추가 대화 상자를 사용하여 Sitemap xml 파일에 새 URL 항목을 추가합니다. sitemap의 각 URL은 정규화된 URI 형식이어야 합니다(예: 프로토콜 접두사를 포함하고 이름을 기본). 따라서 가장 먼저 지정해야 하는 것은 sitemap에 추가하려는 URL에 사용되는 do기본입니다.
URL 경로 트리 뷰는 인덱싱을 위해 사이트맵에 추가할 URL을 선택하는 데 사용됩니다. "URL 구조" 드롭다운 목록을 사용하여 여러 옵션 중에서 선택할 수 있습니다.
- 물리적 위치 - 웹 사이트의 실제 파일 시스템 레이아웃에서 URL을 선택할 수 있습니다.
- 사이트 분석(분석 이름) - 사이트 분석 도구를 사용하여 사이트를 분석할 때 검색된 가상 URL 구조에서 URL을 선택할 수 있습니다.
- <새 사이트 분석 실행...> - 새 사이트 분석을 실행하여 웹 사이트의 가상 URL 구조를 가져온 다음 인덱싱을 위해 추가할 URL 경로를 선택할 수 있습니다.
필수 구성 요소 섹션의 단계를 완료하면 사이트 분석을 사용할 수 있습니다. 드롭다운 목록에서 선택한 다음 사이트맵에 추가해야 하는 URL을 검사.
필요한 경우 변경 빈도, 마지막으로 수정한 날짜 및 우선 순위 옵션을 수정한 다음 확인을 클릭하여 사이트맵에 URL을 추가합니다. sitemap.xml 파일이 업데이트되거나 파일이 없는 경우 생성되며 해당 콘텐츠는 다음과 같습니다.
<urlset>
<url>
<loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
<lastmod>2009-06-03T16:05:02</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
<url>
<loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
<lastmod>2009-06-03T16:05:01</lastmod>
<changefreq>weekly</changefreq>
<priority>0.5</priority>
</url>
</urlset>
Robots.txt 파일에 사이트맵 위치 추가
이제 사이트 맵을 만들었으므로 검색 엔진이 사이트맵을 사용하기 시작할 수 있도록 해당 위치가 어디에 있는지 알려야 합니다. 이 작업을 수행하는 가장 간단한 방법은 Robots.txt 파일에 sitemap 위치 URL을 추가하는 것입니다.
Sitemaps 및 Sitemap 인덱스 기능에서 방금 만든 사이트 맵을 선택한 다음 작업 창에서 Robots.txt 추가를 클릭합니다.
Robots.txt 파일은 다음과 유사합니다.
User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx
Sitemap: http://myblog/sitemap.xml
검색 엔진에 사이트맵 등록
Robots.txt 파일에 사이트맵 위치를 추가하는 것 외에도 사이트맵 위치 URL을 주요 검색 엔진에 제출하는 것이 좋습니다. 이렇게 하면 검색 엔진의 웹 마스터 도구에서 웹 사이트에 대한 유용한 상태 및 통계를 얻을 수 있습니다.
요약
이 연습에서는 IIS 검색 엔진 최적화 도구 키트의 로봇 제외 및 사이트맵 및 Sitemap 인덱스 기능을 사용하여 웹 사이트의 Robots.txt 및 사이트맵 파일을 관리하는 방법을 알아보았습니다. IIS 검색 엔진 최적화 도구 키트는 검색 엔진에서 사용하기 전에 Robots.txt 및 sitemap 파일의 정확성을 작성하고 유효성을 검사하는 데 도움이 되는 통합된 도구 집합을 제공합니다.