다음을 통해 공유


사이트 분석을 사용하여 웹 사이트 크롤링

작성자 : Ruslan Yakushev

IIS 사이트 분석은 검색 엔진 크롤러에 대한 사이트의 콘텐츠, 구조 및 URL을 최적화하기 위해 웹 사이트를 분석하는 데 사용할 수 있는 IIS 검색 엔진 최적화 도구 키트 내의 도구입니다. 또한 이 도구를 사용하여 사이트 사용자 환경에 부정적인 영향을 주는 사이트 콘텐츠의 일반적인 문제를 검색하고 해결할 수 있습니다. IIS 사이트 분석 도구에는 공개적으로 사용 가능한 모든 사이트 링크 및 리소스를 크롤링하고 사이트 분석에 사용할 콘텐츠를 다운로드하는 웹 크롤러가 포함되어 있습니다.

웹 사이트 크롤링

웹 사이트를 분석하는 첫 번째 단계는 사이트에서 공개적으로 노출되는 모든 리소스 및 URL을 크롤링하는 것입니다. 이는 IIS 사이트 분석 도구가 새 사이트 분석을 만들 때 수행하는 작업입니다. IIS 사이트 분석 도구가 웹 사이트를 크롤링하고 분석을 위해 데이터를 수집하도록 하려면 다음 단계를 수행합니다.

  1. 프로그램 파일 IIS 7.0 확장 시작으로 이동하여 SEO 도구를 시작하고 >SEO(검색 엔진 최적화) 도구 키트 아이콘을 클릭합니다.>

  2. 연결 창에서 서버 노드 선택합니다. SEO 기본 페이지가 자동으로 열립니다.

  3. 사이트 분석 섹션 내에서 "새 분석 만들기" 작업 링크를 클릭합니다.
    검색 엔진 최적화 도구 키트 시작 화면의 스크린샷.

  4. 새 분석 대화 상자에서 분석 보고서를 고유하게 식별하는 이름을 입력합니다. 또한 크롤러가 시작될 URL을 입력합니다.
    S E O 도구 키트 사이트 분석 페이지의 스크린샷. 새 분석 대화 상자가 열려 있습니다.
    연결 창에서 서버 노드가 선택되었으므로(서버에서 특정 웹 사이트를 선택하지 않았음) 인터넷에서 공개적으로 액세스할 수 있는 웹 사이트를 크롤링할 수 있습니다. "새 분석" 대화 상자에 대한 자세한 내용은 "웹 크롤러 설정 " 섹션을 참조하세요.

  5. 모든 매개 변수가 지정되면 확인을 클릭하여 분석을 시작합니다.
    분석 결과를 표시하는 새 분석 대화 상자의 스크린샷
    분석 중에 보고된 두 숫자는 다음과 같습니다.

    • 링크 처리됨 - 웹 크롤러에서 크롤링 및 다운로드한 총 링크 수입니다.
    • 총 링크 - 웹 사이트를 크롤링하는 동안 발견된 총 링크 수입니다.

참고

웹 크롤러는 항상 클라이언트 컴퓨터에서 실행됩니다. 원격 IIS 서버에 연결하고 새 분석을 시작하는 경우 웹 크롤러는 원격 IIS 서버에 연결된 로컬 컴퓨터의 IIS 관리자 프로세스(InetMgr.exe) 내에서 호스트됩니다. 수집된 모든 데이터와 캐시된 웹 콘텐츠는 로컬 클라이언트 파일 시스템에 유지됩니다.

웹 사이트를 크롤링하고 분석한 후에는 사이트 분석 보고서 요약 보기가 표시됩니다. SEO 및 콘텐츠 관련 문제를 분석하는 방법에 대한 자세한 내용은 "사이트 분석 보고서 사용" 문서를 참조하세요.

웹 크롤러 설정

새 분석을 시작할 때 지정할 수 있는 다른 매개 변수는 다음과 같습니다.

  • 최대 링크 수 - 이 설정은 크롤링 중에 웹 사이트에서 처리 및 다운로드할 고유 링크 수를 제어합니다. 링크는 하이퍼링크, 이미지 파일 참조, css 파일 및 javascript 파일을 포함하여 페이지의 태그 내에서 사용되는 모든 URL입니다. 이 수를 늘리면 보고서 파일의 크기가 증가하고 크롤링 프로세스가 더 오래 실행됩니다.
  • 링크당 최대 다운로드 크기 - 이 설정은 링크당 다운로드되는 콘텐츠의 킬로바이트 수를 제어합니다. 이 수를 늘리면 로컬 파일 시스템의 사이트 분석에서 저장한 캐시된 콘텐츠의 크기가 증가합니다.
  • 'nofollow' 특성 무시 - 'nofollow' 특성 및 'nofollow' 메타 태그는 검색 엔진 크롤러가 페이지의 특정 또는 모든 하이퍼링크를 따르지 않도록 지시하는 데 사용됩니다. 블로그 댓글에서 스팸을 방지할 수 있는 수단입니다. 사이트의 페이지에서 이 특성을 사용하는 경우 사이트 분석 중에 해당 페이지의 하이퍼링크가 처리되거나 분석되지 않습니다. 이미지, css 및 javascript 파일과 같은 리소스에 대한 링크는 계속 처리됩니다. 이 특성을 사용하는 하이퍼링크도 분석해야 하는 경우 이 설정을 사용하여 'nofollow' 특성 및 메타 태그를 무시합니다.
  • 'noindex' 메타 태그 무시 - 'noindex' 태그는 검색 엔진 크롤러에게 페이지의 콘텐츠를 인덱싱하지 않도록 지시하는 데 사용됩니다. 사이트의 페이지에서 이 메타 태그를 사용하는 경우 해당 페이지의 콘텐츠는 위반을 검색하지 않습니다. 이 특성을 사용하는 페이지도 분석해야 하는 경우 이 설정을 사용하여 'noindex' 메타 태그를 무시합니다.
  • 외부 링크 - 웹 사이트에 하위 도메인이 있거나 사이트 내의 특정 디렉터리에서 분석을 실행하려는 경우 이 드롭다운 목록을 사용할 수 있습니다. 이 설정은 하위 도메인 및/또는 하위 디렉터리를 외부 또는 내부 링크로 처리해야 하는지 여부를 제어합니다.

또한 작업 창에서 기능설정 편집을 선택하여 웹 크롤러에 대해 다음과 같은 일반 설정을 구성할 수 있습니다.

  • 최대 동시 요청 수 - 이 설정은 웹 크롤러가 수행할 동시 요청 수를 제어합니다.
  • 보고서 디렉터리 - 크롤링된 모든 데이터와 캐시된 웹 사이트 콘텐츠가 저장되는 로컬 파일 시스템의 디렉터리를 지정합니다.

IIS 사이트 분석 웹 크롤러 차단

IIS 사이트 분석 웹 크롤러에서 수행한 모든 HTTP 요청에는 HTTP 헤더 "user-agent"가 다음으로 설정됩니다.

"iisbot/1.0 (+http://www.iis.net/iisbot.html)"

IIS 사이트 분석 웹 크롤러는 로봇 제외 프로토콜을 완전히 준수합니다. 즉, Robots.txt 파일을 사용하여 IIS 사이트 분석 웹 크롤러가 웹 사이트를 크롤링하지 못하도록 할 수 있습니다. 다른 사용자가 웹 사이트에 대해 IIS 사이트 분석을 실행하지 못하도록 하는 데 사용할 수 있습니다.

IIS 사이트 분석 크롤러가 웹 사이트를 크롤링하지 못하도록 하려면 사이트의 루트 디렉터리에 있는 Robots.txt 파일 끝에 다음 줄을 추가합니다.

User-Agent: iisbot
Disallow: /

요약

이제 웹 사이트를 크롤링하고 사이트의 콘텐츠 및 구조에 대한 데이터를 수집하도록 IIS 사이트 분석 도구를 성공적으로 구성했습니다. 사이트 분석 보고서를 사용하여 수집된 데이터를 분석하는 방법에 대한 자세한 내용은 "사이트 분석 보고서 사용"을 참조하세요.