FAST Search 웹 크롤러 구성
적용 대상: FAST Search Server 2010
마지막으로 수정된 항목: 2011-01-21
FAST Search 웹 크롤러는 세부적으로 사용자 지정할 수 있으며 조직에서 많은 외부 웹 사이트를 크롤링하는 경우 같은 대규모 환경에 맞게 조정할 수 있습니다.
FAST Search 웹 크롤러를 설치하려면 먼저 FAST Search Server 2010 for SharePoint를 설치합니다. 설치 후에는 사용 사례에 맞게 FAST Search 웹 크롤러를 구성해야 합니다.
구성 파일 서식 파일
FAST Search 웹 크롤러는 XML 파일 복사본을 편집하여 구성합니다. FAST Search 웹 크롤러는 다양한 명령줄 도구를 통해 사용할 수 있습니다.
<FASTSearchFolder>\etc 폴더에서 다음 세 가지 구성 서식 파일을 찾을 수 있습니다. 여기서 *<FASTSearchFolder>*는 FAST Search Server 2010 for SharePoint를 설치한 폴더의 경로입니다(예: C:\FASTSearch).
-
CrawlerConfigTemplate-Simple.xml
-
CrawlerConfigTemplate-Advanced.xml
-
CrawlerConfigTemplate-RSS.xml
단순 서식 파일에는 입력해야 할 최소 개수의 구성 매개 변수가 들어 있습니다. 이 서식 파일은 FAST Search 웹 크롤러를 설정하기 위한 시작점입니다. 고급 서식 파일은 대부분의 옵션을 설명하며 다양한 설명이 들어 있습니다. 이 파일을 참조로 사용하여 복잡한 FAST Search 웹 크롤러 환경을 설정할 수 있습니다. RSS 서식 파일에는 RSS 콘텐츠 크롤링을 설정하는 데 필요한 구성 옵션이 들어 있습니다.
경고
첫 번째 FAST Search 웹 크롤러 구성을 설정하기 전에 <FASTSearchFolder>\META\config\profiles\default\templates\installer</STRONG>에 있는 CrawlerCollectionDefaults.xml.generic.template 파일을 <FASTSearchFolder\etc 폴더로 복사합니다. 그런 다음 이 파일의 이름을 CrawlerCollectionDefaults.xml로 바꿉니다.
다중 서버 배포 환경에 대비하여 FAST Search 웹 크롤러 구성 요소를 호스팅하는 팜 내 각 서버의 <FASTSearchFolder>\etc 폴더로 CrawlerCollectionDefaults.xml 파일을 복사합니다.
FAST Search Server 2010 for SharePoint가 시작된 경우 변경 내용을 적용하려면 FAST Search 웹 크롤러 프로세스를 다시 시작해야 합니다.
기본 FAST Search 웹 크롤러 구성을 설정하려면 <FASTSearchFolder>\etc 폴더에서 찾을 수 있는 CrawlerConfigTemplate-Simple.xml 파일을 복사합니다. 복사한 파일에 고유한 새 이름을 지정하고 환경에 사용할 수 있도록 구성합니다. 같은 폴더에서 CrawlerCollectionDefaults.xml 및 CrawlerGlobalDefaults.xml 파일을 찾을 수 있습니다. 이러한 파일은 모든 모음의 몇 가지 기본 설정을 포함하며, 편집할 필요가 없습니다.
팁
구성 파일의 특정 섹션을 사용하지 않으려는 경우 이러한 섹션을 XML에서 제거하는 대신에 구성 파일에서 이를 빈 값으로 유지하는 것이 좋습니다. 이렇게 하면 나머지 구성을 원래대로 유지할 수 있으므로 이후 단계에서 부분 구성을 보다 쉽게 구현할 수 있습니다.
권장 설정
최소 FAST Search 웹 크롤러 구성에는 FAST Search 웹 크롤러에서 크롤링을 시작해야 할 위치, 크롤링할 항목, 크롤링 속도 및 크롤링 시간에 대한 정보가 포함되어야 합니다. 먼저 시작 URL을 지정하고 나서 추가 포함 및 제외 규칙을 설정하여 크롤링되는 웹 사이트 수를 제한합니다. 추가 규칙을 설정하지 않으면 모든 웹 사이트가 크롤링되며, 이 경우에는 시스템에 과부하가 발생하고 원하지 않는 내용까지도 크롤링될 가능성이 높습니다.
그런 다음 FAST Search 웹 크롤러에서 다른 요청을 실행하기 전에 웹 사이트에 대해 요청하는 각 다운로드 사이의 대기 시간을 지정합니다.
새로 고침 간격은 크롤링하는 웹 사이트의 콘텐츠 유형과 양에 따라 달라집니다. 예를 들어 개별 모음 안에 동적 수준이 높은 웹 사이트를 구성하고 새로 고침이 자주 발생하도록 이 모음을 구성할 수 있습니다.
필요한 새로 고침 간격을 계산하려면 최대 웹 사이트의 예상 웹 항목 양과 요청 속도를 곱한 다음 60으로 나눕니다. 예를 들어 1,000개 항목이 포함된 웹 사이트를 요청 속도 30(검색 간격이 30초)으로 크롤링하려면 최소한 (1000*30)/60=500분의 새로 고침 간격이 필요합니다.
마지막으로 콘텐츠에 액세스하는 방법을 결정합니다. 예를 들어 proxy 설정을 사용하여 FAST Search 웹 크롤러에 대해 HTTP 프록시를 지정해야 할 수도 있습니다. 또한 logins 설정을 사용하여 필요한 인증 체계와 자격 증명을 구성해야 할 수도 있습니다. 고급 구성 설정에 대한 자세한 내용은 웹 크롤러 XML 구성 참조를 참조하십시오.