웹 크롤러 XML 구성 참조
적용 대상: FAST Search Server 2010
마지막으로 수정된 항목: 2016-11-29
FAST Search 웹 크롤러는 웹 사이트에서 정보를 검색하여 Microsoft FAST Search Server 2010 for SharePoint 인덱스에 전달합니다. FAST Search 웹 크롤러를 구성하려면 이 문서에 지정된 형식으로 XML 구성 파일을 만들고 crawleradmin.exe 명령줄 도구를 사용하여 웹 크롤러에 제출합니다.
이 문서에 설명된 형식은 새 크롤링 모음에 대한 모든 기본 옵션/값이 포함된 crawlercollectiondefaults.xml 파일에도 사용됩니다. 이를 수정하는 경우 모든 새 모음에 대한 기본값이 변경됩니다. 특정 크롤링 모음의 XML 구성에 지정되어 있지 않은 모든 옵션에는 기본값이 사용됩니다.
이러한 구성 파일의 형식은 XML 스키마를 따라야 합니다. 이 문서에는 단순한 구성 파일과 일반적인 구성 파일의 예가 나와 있습니다. 구성 파일의 요소와 섹션에 대한 개요를 보려면 crawlercollectiondefaults.xml 빠른 참조에 나와 있는 표를 참조하십시오.
주요 용어
웹 사이트. SharePoint 사이트가 아니라 www.contoso.com과 같은 웹 사이트의 콘텐츠를 나타냅니다.
호스트 이름. http://contoso/의 "contoso"나 http://download.contoso.com/의 "download.contoso.com"을 나타냅니다. 호스트 이름은 정규화된 이름일 수도 있고 그렇지 않을 수도 있습니다. 이 문서에서 웹 사이트는 실제 사이트와 사이트의 콘텐츠를 의미하는 반면 호스트 이름은 특정 웹 서버에 연결하는 데 사용되는 네트워크 이름을 의미한다는 점에서 두 용어는 서로 차이가 있습니다. 단일 사이트에 호스트 이름이 여러 개 있을 수 있습니다.
새 크롤링 구성 만들기
참고
구성 파일을 수정하려면 FAST Search Server 2010 for SharePoint이 설치된 컴퓨터에서 FASTSearchAdministrators 로컬 그룹의 구성원이어야 하는 최소 요구 사항을 만족하는지 확인합니다.
다음 단계에 따라 이 XML 구성 형식을 사용하여 새 크롤링 구성을 만듭니다.
<FASTSearchFolder>\etc에 있는 세 가지 제공된 크롤링 구성 서식 파일 중 하나를 MyCollection.xml과 같은 새 파일에 복사하거나 새 파일을 만듭니다. 여기서 <FASTSearchFolder>는 FAST Search Server 2010 for SharePoint를 설치한 폴더의 경로(예: C:\FASTSearch)입니다. 텍스트 편집기에서 파일을 편집하여 사용해야 할 요소와 설정을 포함합니다.
참고
메모장 같은 텍스트 편집기를 사용하여 crawlercollectiondefaults.xml을 변경합니다. 범용 XML 편집기는 사용하지 마십시오.
crawleradmin.exe –f MyCollection.xml을 실행하여 크롤링 구성을 크롤러에 추가합니다. MyCollection.xml 을 1단계에서 지정한 파일 이름으로 바꿉니다.
자세한 내용은 crawleradmin.exe 참조를 참조하십시오.
crawlercollectiondefaults.xml 사용자 지정
경고
다음과 같은 경우에는 이 파일에서 변경한 모든 내용이 덮어쓰이고 손실됩니다.
-
Set-FASTSearchConfiguration Windows PowerShell cmdlet을 실행하는 경우
-
FAST Search Server 2010 for SharePoint 업데이트나 서비스 팩을 설치하는 경우
Set-FASTSearchConfiguration Windows PowerShell cmdlet을 실행하거나 FAST Search Server 2010 for SharePoint 업데이트 또는 서비스 팩을 설치한 후에는 변경 내용을 다시 적용해야 합니다.
참고
구성 파일을 수정하려면 사용자가 FAST Search Server 2010 for SharePoint이 설치된 컴퓨터에서 FASTSearchAdministrators 로컬 그룹의 구성원이어야 하는 최소 요구 사항을 만족하는지 확인합니다.
이 파일을 편집하려면
텍스트 편집기에서 crawlercollectiondefaults.xml 을 편집하여 사용해야 할 요소와 설정을 포함합니다. <FASTSearchFolder>\etc\ 에 있는 기존 파일을 시작 지점으로 사용합니다.
참고
메모장 같은 텍스트 편집기를 사용하여 crawlercollectiondefaults.xml을 변경합니다. 범용 XML 편집기는 사용하지 마십시오.
nctrl.exe restart crawler를 실행하여 1단계에서 설정한 옵션으로 FAST Search 웹 크롤러 프로세스를 다시 시작합니다.
웹 크롤러 XML 구성 빠른 참조
이 표에는 웹 크롤러 XML 구성 형식에 포함되는 요소가 나와 있습니다. 다음과 같은 몇 가지 사항만 제외하면 요소는 어떠한 순서로도 나올 수 있습니다. 먼저 CrawlerConfig는 DomainSpecification 요소를 포함해야 합니다. SubDomain, Login 및 Node의 주 요소는 DomainSpecification 요소 내에 포함해야 합니다. section 및 attrib 하위 요소는 모든 주 요소 내에 어떠한 순서로도 포함할 수 있습니다. member 하위 요소는 attrib 요소 내에만 포함해야 합니다.
<CrawlerConfig>
<DomainSpecification>
<SubDomain/>
<Login/>
<Node/>
<attrib>
<member/>
</attrib>
<section/>
</DomainSpecifcation>
</CrawlerConfig>
일반적으로 SubDomain, Login 및 section 요소는 attrib와 section 하위 요소를 모두 포함합니다. Node 요소는 이러한 모든 요소와 하위 요소를 포함할 수 있습니다.
요소 | 설명 |
---|---|
CrawlerConfig |
이 최상위 요소는 이 요소 다음에 나오는 XML이 웹 크롤러 구성 개체임을 지정합니다. |
DomainSpecification |
이 요소는 크롤링 모음을 지정합니다. |
SubDomain |
이 요소는 크롤링 하위 모음의 구성을 지정합니다. |
Login |
이 요소는 HTML 양식 기반 인증에 사용됩니다. |
Node |
이 요소는 특정 노드 스케줄러에 대한 크롤링 모음 또는 크롤링 하위 모음의 구성 매개 변수를 재정의합니다. |
attrib |
이 하위 요소는 구성 설정을 해당 값이나 구성원 요소 집합으로 지정합니다. |
member |
이 하위 요소는 구성 설정을 목록 형식으로 지정합니다. |
section |
이 하위 요소는 유형별로 그룹화된 여러 설정을 포함하는 섹션을 지정합니다. 다음은 가능한 모든 섹션이 나와 있는 표입니다. |
이 표에는 Web Crawler XML 구성 형식의 section 옵션이 정의되어 있습니다. CrawlerConfig 요소 내에는 section을 포함할 수 없습니다.
섹션 이름 | 설명 |
---|---|
include_domains |
크롤링 모음에 포함할 URL을 지정하는 호스트 이름 필터 집합을 정의합니다. |
exclude_domains |
크롤링 모음에서 제외할 URL을 지정하는 호스트 이름 필터 집합을 정의합니다. |
include_uris |
크롤링 모음에 포함할 URI를 지정하는 URI 규칙 집합을 정의합니다. |
exclude_uris |
크롤링 모음에서 제외할 URI를 지정하는 URI 규칙 집합을 정의합니다. |
log |
웹 크롤러 프로세스의 로깅 동작을 지정합니다. |
storage |
웹 크롤러가 콘텐츠와 메타데이터를 저장하는 방식을 지정합니다. |
pp |
노드 스케줄러의 사후 처리 동작을 지정합니다. |
ppdup |
중복 서버 설정을 지정합니다. |
feeding |
크롤링 모음에 대한 표현을 인덱싱 엔진으로 보내는 방법을 지정하는 하나 이상의 section 요소로 이루어집니다. |
cachesize |
웹 크롤러 프로세스의 캐시 크기를 구성합니다. |
http_errors |
HTTP/HTTPS 오류 응답 코드와 조건을 처리하는 방법을 지정합니다. |
ftp_errors |
FTP URI 응답 코드와 오류 조건을 처리하는 방법을 지정합니다. |
workqueue_priority |
크롤링 큐의 우선 순위 수준을 지정하고, 큐에 URI를 삽입하거나 큐에서 URI를 추출하는 데 사용되는 규칙과 모드를 지정합니다. |
link_extraction |
따라서 이동할 하이퍼링크의 종류를 지정합니다. |
limits |
크롤링 모음에 대한 유사 시 대기 제한을 지정합니다. |
focused |
집중된 일정을 구성합니다. |
passwd |
인증이 필요한 웹 사이트의 자격 증명을 구성합니다. |
ftp_acct |
FTP URI를 크롤링하는 데 사용할 FTP 계정을 지정합니다. |
exclude_headers |
HTTP 헤더 필드의 내용을 기준으로 크롤링에서 제외할 항목을 지정합니다. |
variable_delay |
다른 지연 요청 속도를 사용하는 시간 슬롯을 지정합니다. |
adaptive |
빠른 증분 크롤링 옵션을 지정합니다. |
weights |
빠른 증분 크롤링 프로세스에서는 각 URI에 점수가 할당됩니다. weights 섹션은 adaptive 섹션 내에 포함해야 합니다. |
sitemap_weights |
사이트 맵의 <URL> 항목은 URI를 수정할 수 있는 빈도를 지정하는 changefreq 요소를 포함할 수 있습니다. 빠른 증분 크롤링에서는 문자열 값이 숫자 가중치로 변환됩니다. sitemap_weights 섹션은 adaptive 섹션 내에 포함해야 합니다. |
site_clusters |
노드 스케줄러에서 호스트 이름을 라우팅하는 크롤러의 일반적인 동작을 재정의하는 구성 매개 변수를 지정합니다. |
crawlmode |
크롤링 모음의 범위를 제한합니다. |
post_payload |
콘텐츠를 HTTP POST 요청에 전송합니다. |
rss |
크롤링 모음에서 RSS 피드 지원을 초기화하고 구성합니다. |
logins |
Login 요소의 특별한 경우입니다. 여러 Login 요소를 하나의 logins 섹션에 통합할 수 있습니다. HTML 양식 기반 인증을 정의하는 경우 logins 섹션 하나 또는 Login 요소가 하나 이상 필요합니다. 일부 구성의 작동 방식 때문에 로그인을 제거하려면 logins를 사용해야 합니다. crawleradmin을 사용하여 크롤러에서 구성을 내보내면 Login 요소가 반환됩니다. |
parameters |
HTML 양식에서 사용되는 인증 자격 증명을 설정합니다. Login 요소나 logins 섹션에 포함해야 합니다. |
subdomains |
크롤링 하위 모음의 구성을 지정합니다. SubDomain 요소의 특별한 경우입니다. 여러 SubDomain 요소를 하나의 subdomains 섹션에 통합할 수 있습니다. 일부 구성의 작동 방식 때문에 하위 도메인을 제거하려면 subdomains를 사용해야 합니다. crawleradmin을 사용하여 크롤러에서 구성을 내보내면 SubDomain 요소가 반환됩니다. |
웹 크롤러 XML 구성 파일 형식
구성 파일의 XML 요소는 <
로 시작해서 />
로 끝납니다.
기본 요소 형식은 다음과 같습니다.
<attrib name=" 값 " type=" 값 "> 값 </attrib>
예를 들면 다음과 같습니다.
<attrib name="accept_compression" type="boolean"> yes </attrib>
요소, 섹션 이름, 특성 및 특성 값은 대/소문자를 구분합니다. 특성 이름과 형식은 따옴표(" ")로 묶어야 합니다. 요소 정의는 여러 줄에 입력할 수 있습니다. 요소 정의에서 공백, 캐리지 리턴, 라인 피드 및 탭 문자는 무시됩니다.
예를 들면 다음과 같습니다.
<attrib
name=" accept_compression "
type="boolean"
> yes </attrib
>
팁
매개 변수 정의가 긴 경우 값을 여러 줄에 배치하고 들여쓰기를 사용하여 파일을 알아보기 쉽게 만듭니다.
<CrawlerConfig>
요소는 특수한 경우이며 필수 요소입니다. 다른 모든 요소는 <CrawlerConfig>
요소 내에 포함되며 이 요소는 </CrawlerConfig>.
를 사용하여 닫습니다.
다음은 XML 파일의 기본 구조를 보여 주는 예입니다.
<?xml version="1.0"?>
<CrawlerConfig>
<DomainSpecification>
...
</DomainSpecification>
</CrawlerConfig>
<!--
와 -->
로 구분하여 어디에든 주석을 추가할 수 있습니다.
CrawlerConfig
이 최상위 요소는 이 요소 다음에 나오는 XML이 웹 크롤러 구성 개체임을 지정합니다. CrawlerConfig XML 요소는 웹 크롤러 구성 파일에 하나만 포함할 수 있습니다.
DomainSpecification
이 요소는 크롤링 모음을 지정합니다.
예
<CrawlerConfig>
<DomainSpecification name="sp">
...
</DomainSpecification>
</CrawlerConfig>
"sp"
를 크롤링 모음 이름으로 바꿉니다.
attrib
이 요소는 구성 옵션을 단일 값으로 지정하거나 member 요소를 사용하여 목록으로 지정합니다.
특성
이름 | 형식 | 값 | 의미 |
---|---|---|---|
info |
문자열 |
크롤링 모음에 대한 텍스트 설명입니다. |
|
fetch_timeout |
정수 |
<초> |
웹 항목의 최대 다운로드 시간(초)을 지정합니다. 느린 웹 서버에서 크기가 큰 웹 항목을 다운로드하는 경우 이 값을 늘립니다. 기본값: 300 |
allowed_types |
목록-문자열 |
유효한 웹 항목 MIME 형식을 지정합니다. 웹 크롤러 프로세스에서는 지정된 것 외의 다른 MIME 형식은 삭제합니다. 이 구성 매개 변수는 전체 필드에 대한 와일드카드 확장을 지원합니다. 와일드카드는 별표 문자로 나타납니다. 예를 들어 "text/*"나 "*/*"는 지원되지만 "*/html"이나 "application/ms*"는 지원되지 않습니다. 기본값:
|
|
force_mimetype_detection |
부울 |
yes|no |
웹 크롤러 프로세스에서 항목에 대해 고유의 MIME 형식 검색을 사용하도록 지정합니다. 대부분의 경우 웹 서버에서는 웹 항목이 다운로드될 때 HTTP 헤더의 일부로 웹 항목의 MIME 형식을 반환합니다. 이 옵션을 설정하면 웹 항목에 가장 적합한 형식(웹 서버에서 받은 형식이나 크롤러 검색의 결과로 받은 형식)이 지정됩니다. 기본값: no |
allowed_schemes |
목록-문자열 |
HTTP HTTPS FTP |
웹 크롤러가 처리해야 할 URI 스키마를 지정합니다. 기본값: HTTP |
ftp_passive |
부울 |
yes|no |
웹 크롤러가 수동 FTP 모드를 사용하도록 지정합니다. 기본값: yes |
domain_clustering |
부울 |
yes|no |
호스트 이름을 동일한 도메인에서 동일한 사이트 관리자 프로세스로 라우팅할지 여부를 지정합니다. 이 특성은 쿠키 같은 정보를 공유해야 하는 여러 호스트 이름을 처리할 때 유용한데 이러한 정보는 사이트 관리자 프로세스 간에 교환되지 않기 때문입니다. 다중 노드 구성에서 이 특성을 설정하면 동일한 도메인의 여러 호스트 이름(예: www.contoso.com 과 forums.contoso.com)도 동일한 노드 스케줄러로 라우팅됩니다. 단일 노드의 경우 기본값: no 다중 노드의 경우 기본값: yes |
max_inter_docs |
정수 |
양의 정수 또는 값 없음 |
웹 사이트를 인터리빙하기 전에 크롤링할 최대 항목 수를 지정합니다. 기본적으로 크롤러는 리소스가 다 소모될 때까지 또는 웹 사이트당 최대 항목 수에 도달할 때까지 웹 사이트를 크롤링합니다. 그러나 웹 사이트 간을 인터리빙하여 웹 사이트의 웹 항목 "일괄 처리"를 한 번에 크롤링하도록 크롤러를 구성할 수 있습니다. 이 특성은 크롤러가 인터리빙하여 다른 서버를 크롤링하기 전에 한 서버에서 연속적으로 크롤링할 웹 항목 수를 지정합니다. 리소스가 모두 사용되면 크롤러는 다시 이전 서버로 돌아가 크롤링을 수행합니다. 기본값: 비어 있음(사용 안 함) |
max_redirects |
정수 |
<값> |
URI에서 따라서 이동할 최대 HTTP 리디렉션 수를 지정합니다. 기본값: 10 |
diffcheck |
부울 |
yes|no |
웹 크롤러가 중복된 항목 검색을 수행하도록 지정합니다. 중복된 항목 검색은 둘 이상의 웹 항목에 동일한 콘텐츠가 포함되어 있는지 여부를 확인하는 방식으로 수행됩니다. 기본값: yes |
near_duplicate_detection |
부울 |
yes|no |
웹 크롤러가 덜 엄격한 중복된 항목 검색 알고리즘을 사용하도록 지정합니다. 이 경우 중복된 항목은 고유한 단어 패턴을 식별하여 검색됩니다. 기본값: no |
max_uri_recursion |
정수 |
<값> |
URI의 반복 패턴을 확인하려면 이 특성을 사용합니다. 이 옵션은 결과 URI를 삭제하기 전까지 패턴을 반복할 수 있는 최대 횟수를 지정합니다. 값이 0이면 테스트가 해제됩니다. 예를 들어 https://www.contoso.com/widget/widget 으로 연결되는 https://www.contoso.com/widget 에서는 요소가 1회 반복됩니다. 기본값: 5 |
ftp_searchlinks |
부울 |
yes|no |
웹 크롤러가 FTP 서버에서 다운로드한 항목에서 하이퍼링크를 검색하도록 지정합니다. 기본값: yes |
use_javascript |
부울 |
yes|no |
웹 크롤러에 JavaScript 지원을 설정할지 여부를 지정합니다. 설정할 경우 웹 크롤러는 모든 외부 JavaScript에서 링크를 다운로드하여 구문 분석/실행하고 추출합니다. 참고 JavaScript 처리에는 리소스가 많이 사용되므로 대규모 크롤링에 대해서는 설정하지 않아야 합니다. 참고 JavaScript를 처리하는 데 Browser Engine 구성 요소가 사용됩니다. 자세한 내용은 beconfig.xml 참조를 참조하십시오. 기본값: no |
javascript_keep_html |
부울 |
yes|no |
인덱싱 엔진에 전송할 항목을 지정합니다. 이 매개 변수를 yes로 설정하면 JavaScript 처리 결과로 얻은 HTML이 사용됩니다. 그렇지 않은 경우에는 원래 HTML 항목이 사용됩니다. use_javascript 구성 매개 변수를 yes로 설정하지 않은 경우에는 이 옵션을 사용하지 마십시오. |
javascript_delay |
실수 |
<초> 값이 비어 있으면 웹 크롤러가 delay 구성 매개 변수와 동일한 값을 사용한다는 것을 의미합니다. |
JavaScript와 함께 HTML 항목과 관련된 종속성을 검색할 때 사용할 지연 시간(초)을 지정합니다. 기본값: 0(지연 없음) |
exclude_exts |
목록-문자열 |
<쉼표로 구분된 파일_확장명 목록> |
크롤링에서 제외할 확장명을 지정합니다. 기본 목록: 비어 있음 |
use_http_1_1 |
부울 |
yes|no |
웹 크롤러가 HTTP/1.1을 사용하도록 지정합니다. no로 설정하면 HTTP/1.0이 사용됩니다. 기본값: yes |
accept_compression |
부울 |
yes|no |
웹 크롤러가 웹 서버로부터 압축된 웹 항목을 허용하도록 지정합니다. use_http_1_1 구성 매개 변수를 설정하지 않으면 이 매개 변수를 설정해도 아무런 효과가 없습니다. 기본값: yes |
dbswitch |
정수 |
<값> |
웹 크롤러가 발견하지 못한 상태로 웹 항목이 삭제되기 전에 크롤링 저장소와 인덱스에 웹 항목이 유지될 수 있는 크롤링 주기 수를 지정합니다. dbswitch_delete 매개 변수는 이 크롤링 주기 수 동안 발견되지 않은 웹 항목에 대해 수행될 작업을 결정합니다. 참고 이 값을 1이나 2로 낮게 설정하면 웹 항목이 실수로 삭제될 수 있습니다. 기본값: 5 |
dbswitch_delete |
부울 |
yes|no |
웹 크롤러는 웹 서버에서 제거된 웹 항목을 검색하려고 합니다. 이 매개 변수는 이러한 웹 항목에 대해 수행될 작업을 결정합니다. 웹 항목을 즉시 삭제하거나, 검색이 가능하도록 작업 큐에 배치하여 더 이상 사용할 수 없는지 확인할 수 있습니다. yes로 설정하면 오래된 웹 항목이 삭제됩니다. no로 설정하면 웹 항목이 다시 검색되도록 예약되며 웹 서버에 더 이상 없는 경우에만 삭제됩니다. 이 검사는 각 새로 고침 주기가 시작될 때 각 웹 사이트에 대해 독립적으로 수행됩니다. 참고 이 옵션은 기본값으로 유지해야 합니다. 기본값: no |
html_redir_is_redir |
부울 |
yes|no |
이 매개 변수를 html_redir_thresh와 함께 사용하면 HTML 웹 항목 내의 META Refresh 태그를 HTTP 리디렉션처럼 처리할 수 있습니다. 이 매개 변수를 설정하면 META Refresh를 포함하는 웹 항목이 인덱싱되지 않고, 해제하면 일반 웹 항목으로 처리되어 인덱싱됩니다. 기본값: yes |
hmtl_redir_threshold |
정수 |
<값> |
HTML 웹 항목 내의 META Refresh 태그를 HTML 리디렉션으로 처리할 수 있는 최대 시간(초)을 지정합니다. html_redir_is_redir을 설정하지 않으면 이 매개 변수가 무시됩니다. 다음 예를 고려하십시오.
기본값: 3 |
robots_ttl |
정수 |
<초> |
웹 크롤러가 웹 사이트에서 robots.txt 파일을 검색하는 빈도를 지정합니다. 빈도는 초 단위로 지정해야 합니다. 기본값: 86400 |
use_sitemaps |
부울 |
yes|no |
웹 크롤러가 사이트 맵을 검색하고 구문 분석하도록 설정합니다. 웹 크롤러는 사이트 맵의 lastmod 특성을 사용하여 사이트 맵이 마지막으로 검색된 이후에 웹 항목이 수정되었는지 여부를 결정합니다. 수정되지 않은 웹 항목은 다시 크롤링되지 않습니다. 한 가지 예외적인 경우는 모음에서 빠른 증분 새로 고침 모드를 사용할 때입니다. 빠른 증분 새로 고침 모드에서는 크롤러가 사이트 맵의 priority 및 changefreq 특성을 사용하여 웹 항목을 크롤링하는 빈도를 결정합니다. 사이트 맵에 있는 다른 태그는 크롤러의 메타 데이터베이스에 저장되며 크롤링 속성으로 인덱싱 엔진에 전송됩니다. 참고 대부분의 사이트 맵은 robots.txt에 지정됩니다. 따라서 최상의 결과를 얻으려면 robots 특성을 설정해야 합니다. 기본값: no |
max_pending |
정수 |
<값> |
모든 시간대의 단일 웹 사이트에 대한 최대 HTTP 동시 요청 수를 지정합니다. 기본값: 2 |
robots_auth_ignore |
부울 |
yes|no |
웹 서버에서 HTTP 40x 인증 오류가 반환되는 경우 웹 크롤러가 robots.txt 를 무시하도록 할지 여부를 지정합니다. no로 설정하면 오류가 발생할 경우 웹 크롤러가 웹 사이트를 크롤링하지 않습니다. robots.txt 표준에는 이 동작이 웹 크롤러가 웹 사이트를 완전히 무시할 수 있는 힌트로 나와 있지만 웹 서버를 올바르지 않게 구성할 경우 사이트가 크롤링에서 잘못 제외될 수 있습니다. 이 옵션을 설정하여 웹 사이트가 크롤링되도록 하십시오. 기본값: yes |
robots_tout_ignore |
부울 |
yes|no |
robots.txt 에 대한 요청의 시간이 초과할 경우 웹 크롤러가 robots.txt 규칙을 무시하도록 할지 여부를 지정합니다. 웹 사이트를 크롤링하기 전에 웹 크롤러는 웹 서버에서 robots.txt 파일을 요청합니다. robots.txt 표준에 따라 이 파일에 대한 요청의 시간이 초과하면 웹 사이트가 크롤링되지 않습니다. 이 매개 변수를 yes로 설정하면 robots.txt 규칙이 무시되고 웹 사이트가 크롤링됩니다. 참고 크롤링할 웹 사이트의 소유자가 아닌 경우에는 이 옵션을 no로 설정된 상태로 유지해야 합니다. 기본값: no |
rewrite_rules |
목록-문자열 |
URI를 다시 작성하는 데 사용되는 규칙 집합을 지정합니다. 다시 작성 규칙에는 일치시킬 식( 다시 작성 규칙의 형식은 |
|
extract_links_from_dupes |
부울 |
yes|no |
웹 크롤러가 중복된 웹 항목에서 하이퍼링크를 추출하도록 지정합니다. 두 웹 항목에 중복된 콘텐츠가 있는 경우에도 하이퍼링크는 서로 다를 수 있습니다. 이 경우 웹 크롤러가 더 많은 콘텐츠를 찾을 수 있습니다. 기본값: no |
use_meta_csum |
부울 |
yes|no |
웹 크롤러가 생성된 중복 항목 검색 지문에 META 태그를 포함하도록 지정합니다. 기본값: no |
csum_cut_off |
정수 |
<값> |
중복 항목 검색 지문을 생성하는 데 사용할 최대 바이트 수를 지정합니다. 이 매개 변수를 0으로 설정하면 기능이 해제됩니다. 즉, 바이트가 무제한으로 또는 모두 사용됩니다. 기본값: 0 |
if_modified_since |
부울 |
yes|no |
웹 크롤러가 기본값: yes |
use_cookies |
부울 |
yes|no |
웹 크롤러가 쿠키를 보내고 저장하도록 할지 여부를 지정합니다. 이 기능은 로그인을 사용하는 웹 사이트에 대해서는 자동으로 설정되지만 모든 웹 사이트에 대해 기능을 설정할 수도 있습니다. 기본값: no |
uri_search_mime |
목록-문자열 |
<값> |
웹 크롤러가 하이퍼링크를 추출하는 MIME 형식을 지정합니다. 이 구성 매개 변수는 전체 필드 수준에서만 와일드카드 확장을 지원합니다. 와일드카드는 별표 문자로 나타납니다. 예를 들어 기본값:
|
max_backoff_counter |
정수 |
<값> |
이 옵션은 max_backoff_delay와 함께 연결 오류가 발생한 웹 사이트에 대한 연결 빈도를 줄이는 알고리즘을 제어합니다. 연속적으로 발생한 각 네트워크 오류의 경우 해당 웹 사이트에 대한 요청 지연이 원래 지연 설정에 따라 최대 max_backoff_delay초까지 증가합니다. 이 지연은 요청이 성공적으로 완료될 때까지 그리고 최대 max_backoff_counter 요청 수를 초과하기 전까지 유지됩니다. 최대 개수에 도달하면 웹 사이트에 대한 크롤링이 일시적으로 중지됩니다. 그렇지 않은 경우 웹 사이트에 영향을 주는 네트워크 문제가 해결되면 내부 백오프 카운터가 줄어들기 시작하고 원래 지연 설정에 도달할 때까지 성공한 각 웹 항목 다운로드에 대한 요청 지연이 절반으로 줄어듭니다. 기본값: 50 |
max_backoff_delay |
정수 |
<초> |
max_backoff_counter를 참조하십시오. 기본값: 600 |
delay |
실수 |
<초> |
웹 크롤러가 웹 사이트에서 웹 항목을 검색할 수 있는 빈도(초)를 지정합니다. 기본값: 60.0 |
refresh |
실수 |
<분> |
웹 크롤러가 새 크롤링 새로 고침 주기를 시작하는 빈도(분)를 지정합니다. refresh 시 수행되는 작업은 refresh_mode 설정에 따라 결정됩니다. 기본값: 1500.0 |
robots |
부울 |
yes|no |
웹 크롤러가 robot.txt 파일에 있는 규칙을 따르도록 지정합니다. 기본값: yes |
start_uris |
목록-문자열 |
웹 크롤러의 시작 URI를 지정합니다. 웹 크롤러가 크롤링을 시작하려면 start_uris나 start_uri_files가 필요합니다. 참고 크롤링에 IDNA 호스트 이름이 포함되는 경우 DNS 인코딩 형식이 아니라 UTF-8 문자를 사용하여 호스트 이름을 입력하십시오. |
|
start_uri_files |
목록-문자열 |
시작 URI가 포함된 파일 목록을 지정합니다. 이러한 파일은 시작 URI를 한 줄에 하나씩 포함하며 일반 텍스트 파일 형식으로 저장됩니다. 참고 다중 노드 배포에서는 다중 노드 스케줄러를 실행하는 서버에서 이러한 파일을 사용할 수 있어야 합니다. |
|
max_sites |
정수 |
<값> |
동시에 크롤링할 수 있는 웹 사이트의 최대 수를 지정합니다. 다중 노드 웹 크롤러 배포에서 이 값은 전체 웹 크롤러가 아니라 노드 스케줄러별로 적용됩니다. 예를 들어 max_sites를 5로 설정했으며 크롤링할 사이트가 10개인 경우 먼저 5개의 사이트에 대한 크롤링이 완료되어야 크롤러가 다른 5개 사이트를 크롤링할 수 있습니다. 참고 max_sites 값이 높으면 시스템 리소스 사용량에 좋지 않은 영향을 줄 수 있습니다. 기본값: 128 |
mirror_site_files |
목록-문자열 |
지정한 호스트 이름의 미러 사이트가 포함된 파일 목록을 지정합니다. 미러 사이트는 기존 웹 사이트의 복제본입니다. 이 파일의 형식은 공백으로 구분된 호스트 이름 목록(기본 이름이 먼저 나옴)을 포함하는 일반 텍스트 파일입니다. 참고 다중 노드 웹 크롤러 배포에서는 노드 스케줄러가 배포된 모든 서버에서 이 파일을 사용할 수 있어야 합니다. |
|
proxy |
목록-문자열 |
웹 크롤러가 웹 항목을 가져오기 위해 사용하는 HTTP 프록시 집합을 지정합니다. 각 프록시는 다음과 같은 형식으로 지정합니다.
암호는 passwd에 나온 대로 암호화할 수 있습니다. |
|
proxy_max_pending |
정수 |
<값> |
HTTP 프록시당 대기 중인 열린 연결 수에 대한 제한을 지정합니다. 기본값: INT32의 최대값 |
headers |
목록-문자열 |
<헤더> |
웹 서버로 전송된 요청에 추가할 추가 HTTP 헤더를 지정합니다. 현재 기본값은 |
cut_off |
정수 |
항목의 최대 바이트 수를 지정합니다. 이 크기 제한보다 큰 웹 항목은 truncate 구성 매개 변수 값에 따라 삭제되거나 잘립니다. cut_off 구성 매개 변수를 지정하지 않으면 이 옵션이 해제됩니다. 기본값: no cut-off |
|
truncate |
부울 |
yes|no |
웹 항목이 지정된 cut_off 임계값을 초과하면 웹 항목을 자를지 여부를 지정합니다. 기본값: yes |
check_meta_robots |
부울 |
yes|no |
웹 크롤러가 robots META 태그에 지정된 예를 들어 일반적인 META 태그는 다음과 같습니다.
또는
특수 값 기본값: yes |
obey_robots_delay |
부울 |
yes|no |
웹 크롤러가 robots.txt 파일의 crawl-delay 지시문(있는 경우)을 따르도록 지정합니다. 이 지시문이 없는 경우 delay 설정이 사용됩니다. 기본값: no |
key_file |
문자열 |
HTTPS 연결에 사용되는 SSL 클라이언트 인증서 키 파일의 경로를 지정합니다. 이 기능은 웹 크롤러가 클라이언트 인증서를 사용하여 자신을 인증해야 하는 웹 사이트에 사용됩니다. 이 옵션은 cert_file과 함께 사용해야 합니다. 참고 다중 노드 웹 크롤러 배포에서는 이 파일이 모든 노드 스케줄러에 있어야 합니다. |
|
cert_file |
문자열 |
HTTPS 연결에 사용되는 X509 클라이언트 인증서 파일의 경로를 지정합니다. 이 옵션은 key_file과 함께 사용해야 합니다. |
|
max_doc |
정수 |
<값> |
웹 사이트에서 다운로드할 최대 웹 항목 수를 지정합니다. 기본값: 100000 |
enforce_delay_per_ip |
부울 |
yes|no |
웹 크롤러가 공유 IPv4 또는 IPv6 주소에 이름이 매핑되는 웹 서버로만 요청을 제한하도록 지정합니다. 이 매개 변수는 delay 구성 매개 변수에 종속됩니다. 기본값: yes |
wqfilter |
부울 |
yes|no |
웹 크롤러가 크롤링 큐에서 중복 URI를 제거하는 블룸 필터를 사용하도록 할지 여부를 지정합니다. 기본값: yes |
smfilter |
정수 |
<값> |
노드 스케줄러와 연결된 큐에서 중복 URI를 제거하는 블룸 필터의 최대 비트 수를 지정합니다. 블룸 필터는 요소가 지정된 집합의 구성원인지 여부를 테스트하는 데 사용되는 공간 효율적이며 개연적인 데이터 구조(비트 배열)입니다. 기본값: 0 |
mufilter |
정수 |
<값> |
노드 스케줄러에서 다중 노드 스케줄러로 전송된 중복 URI를 제거하는 블룸 필터에 사용되는 최대 비트 수를 지정합니다. 대규모 크롤링의 경우 값을 500000000(500Mb)으로 지정하여 이 필터를 설정하는 것이 좋습니다. 기본값: 0 |
umlogs |
부울 |
yes|no |
모든 로깅을 다중 노드 스케줄러로 보내 저장할지 여부를 지정합니다. 이 매개 변수를 설정하지 않으면 로그가 노드 스케줄러에만 상주합니다. 기본값: yes |
sort_query_params |
부울 |
yes|no |
웹 크롤러가 URI의 쿼리 구성 요소에 있는 매개 변수를 정렬하도록 할지 여부를 지정합니다. 일반적으로 쿼리 구성 요소는 세미콜론이나 앰퍼샌드로 구분된 키-값 쌍입니다. 이 구성 매개 변수를 설정하면 키 이름에 따라 사전순으로 쿼리가 정렬됩니다. 기본값: no |
robots_timeout |
정수 |
<초> |
웹 크롤러가 robots.txt 파일을 다운로드하는 데 사용할 수 있는 최대 시간(초)을 지정합니다. 기본값: 300 |
login_timeout |
정수 |
<초> |
웹 크롤러가 로그인 요청에 사용할 수 있는 최대 시간(초)을 지정합니다. 기본값: 300 |
send_links_to |
문자열 |
추출된 모든 하이퍼링크를 보낼 크롤링 모음 이름을 지정합니다. |
|
cookie_timeout |
정수 |
<초> |
세션 쿠키가 저장되는 최대 시간(초)을 지정합니다. 세션 쿠키는 만료 날짜가 없는 쿠키입니다. 기본값: 300 |
refresh_when_idle |
부울 |
yes|no |
크롤링 새로 고침 주기가 유휴 상태가 되면 웹 크롤러가 새 크롤링 새로 고침 주기를 트리거하도록 할지 여부를 지정합니다. 다중 노드 설치에서는 이 옵션을 사용하지 않아야 합니다. 기본값: no |
refresh_mode |
문자열 |
append|prepend|scratch|soft|adaptive |
크롤링 모음의 새로 고침 모드를 지정합니다. 올바른 값은 다음과 같습니다.
기본값: scratch |
예
<attrib name="delay" type="real"> 60.0 </attrib>
<attrib name="max_doc" type="integer"> 10000 </attrib>
<attrib name="use_javascript" type="boolean"> no </attrib>
<attrib name="info" type="string">
My Web crawl collection crawling my intranet.
</attrib>
<attrib name="allowed_schemes" type="list-string">
<member> http </member>
<member> https </member>
</attrib>
member
이 요소는 옵션 값 목록 형식으로 요소를 지정합니다.
member 요소는 attrib 요소 내에서만 사용할 수 있습니다.
예
<attrib name="allowed_schemes" type="list-string">
<member> http </member>
<member> https </member>
</attrib>
section
이 요소는 관련 옵션 집합을 그룹화합니다. section 요소는 attrib 요소를 포함합니다.
특성
특성 | 값 | 설명 |
---|---|---|
name |
<이름> |
섹션의 이름을 지정합니다. 이 문서에는 지원되는 섹션이 설명되어 있습니다. |
예
<section name="crawlmode">
<attrib name="fwdlinks" type="boolean"> no </attrib>
<attrib name="fwdredirects" type="boolean"> no </attrib>
<attrib name="mode" type="string"> FULL </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
include_domains
이 섹션은 크롤링 모음에 포함할 URI를 지정하는 호스트 이름 필터 집합입니다. 비어 있는 섹션은 모든 호스트 이름과 일치합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
exact |
목록-문자열 |
호스트 이름 목록을 지정합니다. URI의 호스트 이름이 이러한 호스트 이름 중 하나와 정확히 일치하면 이 규칙에 따라 해당 URI가 포함됩니다. |
|
prefix |
목록-문자열 |
호스트 이름 목록을 지정합니다. URI의 호스트 이름이 이러한 호스트 이름 중 하나로 시작하면 이 규칙에 따라 해당 URI가 포함됩니다. |
|
suffix |
목록-문자열 |
호스트 이름 목록을 지정합니다. URI의 호스트 이름이 이러한 호스트 이름 중 하나로 끝나면 이 규칙에 따라 해당 URI가 포함됩니다. |
|
regexp |
목록-문자열 |
정규식 목록을 지정합니다. URI의 호스트 이름이 이러한 정규식 중 하나와 일치하면 이 규칙에 따라 해당 URI가 포함됩니다. |
|
ipmask |
목록-문자열 |
IPv4 주소 마스크 목록을 지정합니다. 검색된 URI의 IPv4 주소가 이러한 IPv4 주소 마스크 중 하나와 일치하면 이 규칙에 따라 해당 URI가 포함됩니다. IPv4 주소 마스크는 다음 형식 중 하나를 따라야 합니다.
|
|
ip6mask |
목록-문자열 |
IPv6 주소 마스크 목록을 지정합니다. 검색된 URI의 IPv6 주소가 이러한 IPv6 주소 마스크 중 하나와 일치하면 이 규칙에 따라 해당 URI가 포함됩니다. IPv6 주소 마스크는 다음 형식 중 하나를 따라야 합니다.
|
예
<section name="include_domains">
<attrib name="exact" type="list-string">
<member> www.contoso.com </member>
<member> www2.contoso.com </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> www </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> .contoso.com</member>
<member> .contoso2.com</member>
</attrib>
<attrib name="regexp" type="list-string">
<member> .*\.contoso\.com </member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myinclude_domains.txt </member>
</attrib>
</section>
exclude_domains
이 섹션은 크롤링 모음에서 제외할 URI를 지정하는 호스트 이름 필터 집합입니다. 비어 있는 섹션은 어떤 호스트 이름과도 일치하지 않습니다.
특성
이 섹션의 attrib 요소는 include_domains에 나오는 표를 참조하십시오.
예
<section name="exclude_domains">
<attrib name="exact" type="list-string">
<member> www.contoso.com </member>
<member> www2.contoso.com </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> www </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> .contoso.com</member>
<member> .contoso2.com</member>
</attrib>
<attrib name="regexp" type="list-string">
<member> .*\.contoso\.com </member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myexclude_domains.txt </member>
</attrib>
</section>
include_uris
이 섹션은 크롤링 모음에 포함할 URI를 지정하는 URI 기반 규칙 집합입니다. 비어 있는 섹션은 모든 URI와 일치합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
exact |
목록-문자열 |
URI 목록을 지정합니다. URI가 이러한 URI 중 하나와 정확히 일치하면 이 규칙에 따라 해당 URI가 포함됩니다. |
|
prefix |
목록-문자열 |
문자열 목록을 지정합니다. URI가 이러한 문자열 중 하나로 시작하면 이 규칙에 따라 해당 URI가 포함됩니다. |
|
suffix |
목록-문자열 |
문자열 목록을 지정합니다. URI가 이러한 문자열 중 하나로 끝나면 이 규칙에 따라 해당 URI가 포함됩니다. |
|
regexp |
목록-문자열 |
정규식 목록을 지정합니다. URI가 이러한 정규식 중 하나와 일치하면 이 규칙에 따라 해당 URI가 포함됩니다. |
예
<section name="include_uris">
<attrib name="exact" type="list-string">
<member> https://www.contoso.com/documents/doc2.html </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/documents/ </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> /doc2.html </member>
</attrib>
<attrib name="regexp" type="list-string">
<member> http://.*\.contoso\.com/documents.*</member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myinclude_uris.txt </member>
</attrib>
</section>
exclude_uris
이 섹션은 크롤링 모음에서 제외할 URI를 지정하는 URI 기반 규칙 집합입니다. 비어 있는 섹션은 어떤 URI와도 일치하지 않습니다.
특성
이 섹션의 attrib 요소는 include_uris에 나오는 표를 참조하십시오.
예
<section name="exclude_uris">
<attrib name="exact" type="list-string">
<member> https://www.contoso.com/documents/doc2.html </member>
</attrib>
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/documents/ </member>
</attrib>
<attrib name="suffix" type="list-string">
<member> /doc2.html </member>
</attrib>
<attrib name="regexp" type="list-string">
<member> http://.*\.contoso\.com/documents.*</member>
</attrib>
<attrib name="file" type="list-string">
<member> c:\myexclude_uris.txt </member>
</attrib>
</section>
log
이 섹션은 웹 크롤러 프로세스의 로깅 동작을 지정합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
fetch |
문자열 |
text|none |
다운로드한 웹 항목에 대한 로깅을 설정/해제합니다. 올바른 값은 다음과 같습니다.
기본값: text |
postprocess |
문자열 |
text|xml|none |
노드 스케줄러 항목 사후 처리에 대한 로깅을 설정/해제합니다. 올바른 값은 다음과 같습니다.
기본값: text |
header |
문자열 |
text|none |
HTTP 헤더 로깅을 설정/해제합니다. 올바른 값은 다음과 같습니다.
|
screened |
문자열 |
text|none |
차단된 모든 URI에 대한 로깅을 설정/해제합니다. 올바른 값은 다음과 같습니다.
|
scheduler |
문자열 |
text|none |
빠른 증분 크롤링에 대한 로깅을 설정/해제합니다. 올바른 값은 다음과 같습니다.
|
dsfeed |
문자열 |
text|none |
인덱싱 엔진으로의 콘텐츠 전송에 대한 로깅을 설정/해제합니다. 올바른 값은 다음과 같습니다.
|
site |
문자열 |
text|none |
크롤링 사이트 단위로 로깅을 설정/해제합니다. 올바른 값은 다음과 같습니다.
|
예
<section name="log">
<attrib name="dsfeed" type="string"> text </attrib>
<attrib name="fetch" type="string"> text </attrib>
<attrib name="postprocess" type="string"> text </attrib>
<attrib name="screened" type="string"> none </attrib>
<attrib name="site" type="string"> text </attrib>
</section>
storage
이 섹션은 웹 크롤러가 데이터와 메타데이터를 저장하는 방식을 지정합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
datastore |
문자열 |
flatfile|bstore |
웹 항목 콘텐츠 저장소의 형식을 지정합니다. 올바른 값은 다음과 같습니다.
기본값: bstore |
store_http_header |
부울 |
yes|no |
웹 크롤러가 수신된 HTTP 헤더를 저장하도록 지정합니다. 기본값: yes |
store_dupes |
부울 |
yes|no |
웹 크롤러가 중복된 웹 항목을 저장하도록 지정합니다. 기본값: no |
compress |
부울 |
yes|no |
다운로드한 항목을 저장하기 전에 압축하도록 지정합니다. 기본값: yes |
compress_exclude_mime |
목록-문자열 |
저장 시 압축하지 않아야 할 웹 항목의 MIME 형식 집합을 지정합니다. 멀티미디어 형식 같은 이미 압축된 웹 항목에 사용합니다. compress 구성 매개 변수를 설정하지 않으면 이 매개 변수가 적용되지 않습니다. |
|
remove_docs |
부울 |
yes|no |
웹 항목이 인덱싱 엔진에 전송되면 곧바로 웹 크롤러가 웹 항목을 웹 크롤러 저장소에서 삭제하도록 지정합니다. 웹 크롤러의 디스크 공간 요구 사항은 줄어들지만 웹 항목을 다시 공급할 수는 없습니다. 기본값: no |
clusters |
정수 |
<값> |
크롤링 모음의 저장소에 사용할 클러스터 수를 지정합니다. 웹 항목은 이러한 여러 저장소 클러스터로 분산됩니다. 기본값: 8 |
defrag_threshold |
정수 |
<백분율> |
데이터 저장소 파일에 대해 조각 모음을 수행하기 전까지의 임계값(사용된 용량을 기준으로 함)을 지정하는 0이 아닌 값입니다. 사용된 공간이 defrag_threshold보다 작으면 파일에 대해 조각 모음을 수행하여 저장된 웹 항목으로 인해 조각화된 공간을 회수할 수 있습니다. 데이터베이스 파일은 조각화 수준에 관계없이 압축됩니다. 기본값 85%는 데이터 저장소 파일에 15%의 회수 가능한 공간이 있어야만 조각 모음이 트리거될 수 있음을 의미합니다. 값이 0이면 조각 모음이 해제됩니다. 이 설정은 storage_format 특성의 기본값: 85 |
uri_dir |
문자열 |
<path> |
웹 항목에서 추출된 모든 하이퍼링크 파일 목록을 저장할 경로를 지정합니다. 각 사이트 관리자 프로세스에 별도의 파일이 사용됩니다. URI 파일의 이름은 프로세스 PID에 |
예
<section name="storage">
<attrib name="store_dupes" type="boolean"> no </attrib>
<attrib name="datastore" type="string"> bstore </attrib>
<attrib name="compress" type="boolean"> yes </attrib>
</section>
pp
이 섹션은 노드 스케줄러의 사후 처리 동작을 지정합니다. 사후 처리는 웹 항목을 인덱스에 공급하는 것과 중복된 항목을 검색하는 두 가지 주요 작업으로 이루어집니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
use_dupservers |
부울 |
yes|no |
웹 크롤러가 하나 이상의 중복 서버를 사용하도록 지정합니다. 이 옵션은 다중 노드 설치에서만 적용됩니다. 기본값: no |
max_dupes |
정수 |
<값> |
웹 항목당 기록할 중복된 최대 항목 수를 지정합니다. 기본값: 10 |
stripe |
정수 |
<값> |
체크섬 데이터를 분산하는 데 사용할 데이터 파일 수를 지정합니다. 이 값을 늘리면 사후 처리 성능이 향상됩니다. 기본값: 1 |
ds_meta_info |
목록-문자열 |
duplicates|redirects|mirrors|metadata |
노드 스케줄러가 인덱싱 엔진에 보고해야 할 메타데이터의 종류를 지정합니다. 올바른 값은 다음과 같습니다. duplicates: 이 항목과 중복되는 항목에 해당하는 URI를 보고합니다. redirects: 이 항목으로 리디렉션된 URI를 보고합니다. metadata: 이 항목의 메타데이터를 보고합니다. mirrors: 이 웹 항목의 모든 미러 URI를 보고합니다. |
ds_max_ecl |
정수 |
<값> |
ds_meta_info 구성 매개 변수에 지정된 대로 인덱싱 엔진에 보고할 최대 중복된 항목 수 또는 리디렉션 횟수를 지정합니다. 기본값: 10 |
ecl_override |
문자열 |
max_dupes에 도달한 경우에도 저장하여 인덱싱 엔진으로 전송해야 하는 중복 URI 및 리디렉션을 식별하는 정규식(예: |
|
ds_send_links |
부울 |
yes|no |
웹 항목에서 추출한 모든 하이퍼링크를 인덱싱 엔진으로 보낼지 여부를 지정합니다. |
ds_paused |
부울 |
yes|no |
노드 스케줄러가 인덱싱 엔진으로의 콘텐츠 전송을 일시 중단하도록 할지 여부를 지정합니다. |
예
<section name="pp">
<attrib name="max_dupes" type="integer"> 10 </attrib>
<attrib name="use_dupservers" type="boolean"> yes </attrib>
<attrib name="ds_paused" type="boolean"> no </attrib>
</section>
ppdup
이 섹션은 중복 서버 설정을 지정합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
format |
문자열 |
gigabase|hashlog|diskhashlog |
중복 서버 데이터베이스 형식을 지정합니다. 올바른 값은 다음과 같습니다.
|
cachesize |
정수 |
<MB> |
중복 서버 데이터베이스 캐시 크기(MB)를 지정합니다. format 구성 매개 변수를 hashlog나 diskhashlog로 설정한 경우 이 매개 변수는 해시 테이블의 초기 크기를 지정합니다. |
stripes |
정수 |
<값> |
콘텐츠를 분산하는 데 사용할 파일 수를 지정합니다. 파일을 여러 개 사용하면 중복 서버 데이터베이스의 성능을 향상시킬 수 있습니다. |
compact |
부울 |
yes|no |
중복 서버 데이터베이스에서 압축을 수행하도록 할지 여부를 지정합니다. hashlog 및 diskhashlog 형식의 경우 crawlerdbtool을 사용하여 수동으로 압축을 수행하거나 이 옵션을 설정하여 자동으로 압축을 수행해야 합니다. 그렇지 않으면 레코드가 기록되거나 업데이트될 때마다 사용량이 증가합니다. 기본값: yes |
예
<section name="ppdup">
<attrib name="format" type="string"> hashlog </attrib>
<attrib name="stripes" type="integer"> 1 </attrib>
<!-- 1 GB memory hash -->
<attrib name="cachesize" type="integer"> 1024 </attrib>
<attrib name="compact" type="boolean"> yes </attrib>
</section>
feeding
feeding 섹션은 크롤링 모음의 표현을 인덱싱 엔진으로 보내는 방법을 지정하는 하나 이상의 section XML 요소로 이루어집니다. 이러한 섹션은 콘텐츠 대상을 지정합니다. name 특성은 콘텐츠 대상의 고유 이름을 지정합니다.
특성
다음 표에는 콘텐츠 대상 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
collection |
문자열 |
<이름> |
웹 항목을 전송하는 데 사용할 콘텐츠 모음의 이름을 지정합니다. 이 구성 매개 변수는 feeding 섹션 내에 지정해야 합니다. |
destination |
문자열 |
default |
예약되어 있습니다. 이 구성 매개 변수는 default 값을 포함해야 합니다. |
paused |
부울 |
yes|no |
웹 크롤러가 인덱싱 엔진으로의 콘텐츠 전송을 일시 중단하도록 할지 여부를 지정합니다. 기본값: no |
primary |
부울 |
yes|no |
이 콘텐츠 대상이 주 콘텐츠 대상인지 아니면 보조 콘텐츠 대상인지를 지정합니다. 인덱싱 엔진으로의 콘텐츠 전송 중 주 콘텐츠 대상은 콜백 정보에 대해 작업을 수행할 수 있습니다. 콘텐츠 대상을 하나만 지정하면 해당 콘텐츠 대상이 주 콘텐츠 대상이 됩니다. |
예
<section name="feeding">
<section name="Global_News">
<attrib name="collection" type="string"> collection_A </attrib>
<attrib name="destination" type="string"> default </attrib>
<attrib name="primary" type="boolean"> yes </attrib>
<attrib name="paused" type="boolean"> no </attrib>
</section>
<section name="Local_News">
<attrib name="collection" type="string"> collection_B </attrib>
<attrib name="destination" type="string"> default </attrib>
<attrib name="primary" type="boolean"> no </attrib>
<attrib name="paused" type="boolean"> no </attrib>
</section>
</section>
cachesize
이 섹션은 웹 크롤러 프로세스의 캐시 크기를 구성합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
참고
표에 기본값이 지정되어 있지 않은 경우 각 특성의 기본값은 웹 크롤러가 런타임에 캐시 크기를 자동으로 결정하는 것입니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
duplicates |
정수 |
<항목 수를 나타내는 값> |
사이트 관리자 프로세스당 중복 체크섬 캐시의 크기를 지정합니다. 이 캐시는 런타임에 중복된 항목 검색의 첫 번째 수준으로 사용됩니다. |
screened |
정수 |
<항목 수를 나타내는 값> |
차단된 URI 캐시의 크기를 하이퍼링크 수로 지정합니다. 차단된 캐시는 최근에 검색 실패의 결과로 인해 생긴 중복 하이퍼링크를 필터링하여 제외합니다. |
smcomm |
정수 |
<항목 수를 나타내는 값> |
노드 스케줄러와 사이트 관리자 간에 이동하는 중복 하이퍼링크를 필터링하여 제외하는 캐시에서 사용하는 블룸 필터의 크기를 지정합니다. |
mucomm |
정수 |
<항목 수를 나타내는 값> |
다중 노드 스케줄러와 노드 스케줄러 간에 이동하는 중복 하이퍼링크를 필터링하여 제외하는 캐시에서 사용하는 블룸 필터의 크기를 지정합니다. |
wqcache |
정수 |
<항목 수를 나타내는 값> |
웹 사이트 크롤링 큐에서 중복 하이퍼링크를 필터링하여 제외하는 캐시의 크기를 지정합니다. |
crosslinks |
정수 |
<항목 수를 나타내는 값> |
교차 연결 캐시의 크기를 지정합니다. 교차 연결 캐시에는 검색된 하이퍼링크와 참조하는 하이퍼링크가 포함됩니다. mufilter를 설정하지 않은 경우 이 캐시는 노드 스케줄러에서 중복 하이퍼링크를 필터링하여 제외합니다. |
routetab |
정수 |
<값> |
크롤링 라우팅 데이터베이스 캐시 크기(바이트)를 지정합니다. 기본값: 1048576 |
pp |
정수 |
<값> |
사후 처리 프로세스 데이터베이스 캐시 크기(바이트)를 지정합니다. 기본값: 1048576 |
pp_pending |
정수 |
<값> |
사후 처리 보류 중 캐시 크기(바이트)를 지정합니다. 보류 중 캐시에는 중복 서버로 전송되지 않은 항목이 포함됩니다. 기본값: 131072 |
aliases |
정수 |
<값> |
별칭 데이터 매핑 데이터베이스 캐시 크기를 지정합니다. 크롤링 사이트 하나에 별칭(대체 호스트 이름)을 하나 이상 연결할 수 있습니다. 기본값: 1048576 |
예
<section name="cachesize">
<!-- Specific cache size values (in number of items) for the following: -->
<attrib name="duplicates" type="integer"> 128 </attrib>
<attrib name="screened" type="integer"> 128 </attrib>
<attrib name="smcomm" type="integer"> 128 </attrib>
<attrib name="mucomm" type="integer"> 128 </attrib>
<attrib name="wqcache" type="integer"> 4096 </attrib>
<!-- Automatic cache size for crosslinks -->
<attrib name="crosslinks" type="integer"> </attrib>
<!-- Cache sizes in bytes for the following -->
<attrib name="routetab" type="integer"> 1048576 </attrib>
<attrib name="pp" type="integer"> 1048576 </attrib>
<attrib name="pp_pending" type="integer"> 1048576 </attrib>
<attrib name="aliases" type="integer"> 1048576 </attrib>
</section>
http_errors
이 섹션은 HTTP/HTTPS 오류 응답 코드와 조건을 처리하는 방법을 지정합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다. name 특성의 값은 여러 가지이므로 이름 열에는 각 이름의 용도가 설명되어 있습니다.
이름 |
형식 |
값 |
의미 |
name 특성은 처리할 HTTP/HTTPS/FTP 응답 코드 번호를 지정합니다. 문자 "X"를 와일드카드로 사용할 수 있습니다(예: 4XX). 그 외 올바른 값은 다음과 같습니다.
|
문자열 |
<값> |
웹 크롤러가 HTTP/HTTPS/FTP 및 네트워크 오류를 처리하는 방법을 지정합니다. 개별 응답 코드를 처리하는 데 사용할 수 있는 옵션은 다음과 같습니다.
옵션에 대해 RETRY[:X]를 지정하면 웹 크롤러가 동일한 크롤링 새로 고침 주기에서 X번만큼만 웹 항목을 다시 다운로드하며 그 이후부터는 다운로드에 실패합니다. 지정하지 않으면 크롤러가 다음 크롤링 새로 고침 주기가 될 때까지 URI를 다운로드하지 않습니다. 기본값: http_errors 섹션의 기본값 및 ftp_errors 섹션의 기본값을 참조하십시오. |
http_errors 섹션의 기본값
다음 표에는 http_errors 섹션의 기본값이 나와 있습니다.
이름 | 값 | 의미 |
---|---|---|
4xx |
DELETE:0 |
바로 삭제합니다. |
5xx |
DELETE:10 |
해당 URI에 대해 이 오류가 10번째 발생하면(일반적으로 10번의 크롤링 주기 이후) 삭제합니다. URI가 검색되면 카운터가 다시 설정됩니다. |
int |
KEEP:0 |
삭제하지 않습니다. |
net |
DELETE:3, RETRY:1 |
세 번째에 삭제합니다. 한 번의 재시도가 지정되어 있습니다. 즉, URI를 여전히 검색할 수 없는 경우 다음 새로 고침 주기에 URI가 삭제됩니다. |
ttl |
DELETE:3 |
세 번째에 삭제합니다. |
예
<section name="http_errors">
<attrib name="408" type="string"> KEEP </attrib>
<attrib name="4xx" type="string"> DELETE </attrib>
<attrib name="5xx" type="string"> DELETE:10, RETRY:3 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
<attrib name="net" type="string"> DELETE:3 </attrib>
<attrib name="int" type="string"> KEEP </attrib>
</section>
ftp_errors
이 섹션은 FTP URI에 대한 응답 코드와 오류 조건을 처리하는 방법을 지정합니다.
특성
이 섹션의 attrib 요소는 http_errors에 나오는 표를 참조하십시오.
ftp_errors 섹션의 기본값
다음 표에는 ftp_errors 섹션의 기본값이 나와 있습니다.
이름 | 값 | 의미 |
---|---|---|
4xx |
DELETE:3 |
이 URI에 대해 이 오류가 세 번째 발생하면(일반적으로 3번의 크롤링 주기 이후) 삭제합니다. URI가 검색되면 카운터가 다시 설정됩니다. |
550 |
DELETE:0 |
바로 삭제합니다. |
5xx |
DELETE:3 |
4xx의 경우와 동일하게 세 번째에 삭제합니다. |
int |
KEEP:0 |
삭제하지 않습니다. |
net |
DELETE:3, RETRY:1 |
세 번째에 삭제합니다. 즉, URI를 여전히 검색할 수 없는 경우 다음 새로 고침 주기에 URI가 삭제됩니다. |
예
<section name="ftp_errors">
<attrib name="4xx" type="string"> DELETE:3 </attrib>
<attrib name="550" type="string"> DELETE:0 </attrib>
<attrib name="5xx" type="string"> DELETE:3 </attrib>
<attrib name="int" type="string"> KEEP:0 </attrib>
<attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>
workqueue_priority
이 섹션은 크롤링 큐의 우선 순위 수준을 지정하고, 큐에 URI를 삽입하거나 큐에서 URI를 추출하는 데 사용되는 규칙과 모드를 지정합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
levels |
정수 |
<값> |
크롤링 큐에 사용되는 우선 순위 수준의 수를 지정합니다. 기본값: 1 |
default |
정수 |
<값> |
크롤링 큐의 URI에 할당되는 기본 우선 순위 수준을 지정합니다. 기본값: 1 |
start_uri_pri |
정수 |
<값> |
시작 URI의 우선 순위 수준을 지정합니다. start_uris 및 start_uri_files 구성 매개 변수를 참조하십시오. 기본값: 1 |
pop_scheme |
문자열 |
default|rr|wrr|pri |
웹 크롤러가 크롤링 큐에서 URI를 추출하는 데 사용하는 모드를 지정합니다. 올바른 값은 다음과 같습니다.
기본값: default |
put_scheme |
문자열 |
default|include |
크롤링 큐에 URI를 삽입할 때 사용할 웹 크롤러 모드를 지정합니다. 올바른 값은 다음과 같습니다.
기본값: default |
우선 순위 수준 섹션
workqueue_priority 섹션 내에 크롤링 큐의 우선 순위 수준과 가중치를 지정하는 일련의 섹션을 정의할 수 있습니다. 이러한 섹션은 pop_scheme 매개 변수를 wrr이나 pri로 설정한 경우에만 사용됩니다. 이러한 섹션의 name 특성은 지정할 우선 순위 수준이어야 합니다. 우선 순위 수준은 1에서 시작해야 합니다(다음 예의 <section name="1">
참조).
include_domains 및 include_uris에 나온 대로 각 우선 순위 수준 섹션 내에 include_domains나 include_uris 섹션을 사용할 수 있습니다. 이러한 규칙과 일치하는 URI는 일치하는 우선 순위 수준을 사용하여 큐에 놓입니다. 다음 표에는 이러한 섹션의 attrib 요소도 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
share |
정수 |
각 크롤링 큐에 사용할 가중치를 지정합니다. 이 가중치는 pop_scheme 구성 매개 변수를 wrr로 설정한 경우에만 사용됩니다. |
예
<section name="workqueue_priority">
<attrib name="levels" type="integer"> 2 </attrib>
<attrib name="default" type="integer"> 2 </attrib>
<attrib name="start_uri_pri" type="integer"> 1 </attrib>
<attrib name="pop_scheme" type="string"> wrr </attrib>
<attrib name="put_scheme" type="string"> include </attrib>
<section name="1">
<attrib name="share" type="integer"> 10 </attrib>
<section name="include_domains">
<attrib name="suffix" type="list-string">
<member> web005.contoso.com </member>
</attrib>
</section>
</section>
<section name="2">
<attrib name="share" type="integer"> 5 </attrib>
<section name="include_domains">
<attrib name="suffix" type="list-string">
<member> web002.contoso.com </member>
</attrib>
</section>
</section>
</section>
link_extraction
이 섹션은 따라서 이동할 하이퍼링크의 종류를 지정합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
a |
부울 |
yes|no |
기본값: yes |
action |
부울 |
yes|no |
HTML 태그의 action 특성에서 하이퍼링크를 추출합니다. 기본값: yes |
area |
부울 |
yes|no |
기본값: yes |
card |
부울 |
yes|no |
기본값: yes |
comment |
부울 |
yes|no |
웹 항목의 주석에서 하이퍼링크를 추출합니다. 기본값: yes |
embed |
부울 |
yes|no |
기본값: yes |
frame |
부울 |
yes|no |
기본값: yes |
go |
부울 |
yes|no |
기본값: yes |
img |
부울 |
yes|no |
기본값: no |
layer |
부울 |
yes|no |
기본값: yes |
link |
부울 |
yes|no |
기본값: yes |
meta |
부울 |
yes|no |
기본값: yes |
meta_refresh |
부울 |
yes|no |
META Refresh HTML 태그( 기본값: yes |
object |
부울 |
yes|no |
기본값: yes |
script |
부울 |
yes|no |
기본값: yes |
script_java |
부울 |
yes|no |
JavaScript가 포함된 기본값: yes |
style |
부울 |
yes|no |
기본값: yes |
예
<section name="link_extraction">
<attrib name="action" type="boolean"> yes </attrib>
<attrib name="img" type="boolean"> no </attrib>
<attrib name="link" type="boolean"> yes </attrib>
<attrib name="meta" type="boolean"> yes </attrib>
<attrib name="meta_refresh" type="boolean"> yes </attrib>
<attrib name="object" type="boolean"> yes </attrib>
<attrib name="script_java" type="boolean"> yes </attrib>
</section>
limits
limits 섹션은 크롤링 모음에 대한 유사 시 대기 제한을 지정합니다. 크롤링 모음이 이 제한을 초과하면 "refresh only" 크롤링 모드로 전환됩니다. 즉, 이전에 크롤링된 URI만 다시 크롤링됩니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
disk_free |
정수 |
<백분율> |
crawlmode 특성에 나온 대로 웹 크롤러가 normal 크롤링 모드에서 작동하는 데 반드시 필요한 사용 가능한 디스크 공간의 백분율을 지정합니다. 이 백분율이 제한값 아래로 떨어지면 웹 크롤러가 "refresh only" 크롤링 모드로 전환됩니다(임계값에 도달한 경우). 이 매개 변수를 0으로 설정하면 이 기능이 해제됩니다. 기본값: 0 |
disk_free_slack |
정수 |
<백분율> |
disk_free 임계값에 대한 여유 시간을 백분율로 지정합니다. 이 옵션은 disk_free 임계값을 기준으로 여유 범위를 만듭니다. 사용 가능한 디스크 공간이 이 여유 범위 내에 있으면 웹 크롤러는 크롤링 모드를 일반 모드로 다시 변경하지 않습니다. 따라서 사용 가능한 디스크 공간의 백분율이 disk_free 매개 변수에 지정된 값에 가까워지더라도 크롤러가 크롤링 모드 간을 전환하지 않습니다. 사용 가능한 디스크 공간의 백분율이 disk_free와 disk_free_slack을 더한 값을 초과하면 다시 일반 크롤링이 시작됩니다. 기본값: 3 |
max_doc |
정수 |
<값> |
초과할 경우 크롤러가 "refresh" 크롤링 모드로 전환되는, 저장된 웹 항목의 수를 지정합니다. 참고 통계 보고는 크롤링에 비해 다소 지연되는 경향이 있으므로 임계값은 엄밀히 제한이라고 볼 수 없습니다. 0으로 설정하면 이 기능이 해제됩니다. 기본값: 0 |
max_doc_slack |
정수 |
<값> |
크롤러가 계속해서 "refresh only" 크롤링 모드와 다른 모든 간을 전환하지 않도록 하려면 절대 임계값과 함께 임계값 범위를 지정합니다. 이 범위는 (임계값 - 여유 범위)-(임계값) 형식으로 정의할 수 있으며 이렇게 하면 크롤링 모드 동작이 변경되지 않습니다. max_doc_slack 특성은 max_doc 구성 매개 변수 임계값에 도달할 때까지 여유 범위에 포함할 수 있는 최대 항목 수를 지정합니다. 기본값: 1000 |
예
<section name="limits">
<attrib name="disk_free" type="integer"> 0 </attrib>
<attrib name="disk_free_slack" type="integer"> 3 </attrib>
<attrib name="max_doc" type="integer"> 0 </attrib>
<attrib name="max_doc_slack" type="integer"> 1000 </attrib>
</section>
focused
이 섹션은 집중된 일정을 구성합니다. exclude_domains 섹션을 focused 섹션 내에 포함하여 이 집중된 일정에서 호스트 이름을 제외할 수 있습니다. exclude_domains 섹션을 정의하지 않으면 모든 호스트 이름이 집중된 일정에 포함됩니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 |
형식 |
값 |
의미 |
languages |
목록-문자열 |
ISO-639-1(영문일 수 있음)에 나온 대로 웹 크롤러가 저장할 수 있는 항목의 언어를 나열합니다. |
|
depth |
정수 |
<값> |
languages 구성 매개 변수에 설정된 언어와 일치하지 않는 웹 항목에 대해 따라서 이동할 페이지 홉 수를 지정합니다. |
예
다음 예에서는 크롤러가 노르웨이어나 영어로 된 모든 항목이나 알 수 없는 언어로 된 콘텐츠를 모두 저장합니다. 지정되지 않은 다른 모든 언어의 경우 크롤러는 두 수준까지만 링크를 따라서 이동합니다. 또한 contoso.com의 모든 콘텐츠는 언어 검사에서 제외되고 자동으로 저장됩니다.
<section name="focused">
<!-- Crawl Norwegian, English and content of unknown language -->
<attrib name="languages" type="list-string">
<member> norwegian </member>
<member> unknown </member>
<member> en </member>
</attrib>
<!--Follow hyperlinks containing other languages for 2 levels -->
<attrib name="depth" type="integer"> 2 </attrib>
<!-- Exclude anything under .contoso.com from language checks, -->
<section name="exclude_domains">
<attrib name="suffix" type="list-string">
<member> .contoso.com </member>
</attrib>
</section>
</section>
passwd
이 섹션은 인증이 필요한 웹 사이트의 자격 증명을 구성합니다. 웹 크롤러는 기본 인증, 다이제스트 인증 및 NTLM 인증을 지원합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
name |
문자열 |
name 특성은 URI나 영역을 포함해야 합니다. 해당 수준이나 그 하위 수준에서 추출된 모든 하이퍼링크는 이러한 인증 설정을 사용하기 때문에 올바른 URI는 접두사 값으로 사용됩니다. |
자격 증명은 자격 증명 문자열의 암호 구성 요소는 암호화할 수 있습니다. 이 구성 요소를 암호화하지 않으면 암호가 일반 텍스트로 제공됩니다. 부호화된 암호는
|
예
<section name="passwd">
<attrib name="https://www.contoso.com/confidential1/" type="string">
user:password:contoso:auto
</attrib>
</section>
ftp_acct
이 섹션은 FTP URI를 크롤링하는 데 사용할 FTP 계정을 지정합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
name |
문자열 |
name XML 특성 값은 이 FTP 계정이 유효한 호스트 이름입니다. |
이 FTP 계정의 사용자 이름과 암호입니다. 이 문자열은 |
예
<section name="ftp_acct">
<attrib name="ftp.contoso.com" type="string"> user:pass </attrib>
</section>
exclude_headers
이 섹션은 HTTP 헤더 필드의 내용을 기준으로 크롤링에서 웹 항목을 제외하는 데 사용됩니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
name name 특성은 테스트할 HTTP 헤더의 이름을 설정하는 데 사용됩니다. |
목록-문자열 |
정규식 목록을 지정합니다. 지정한 HTTP 헤더의 값이 이러한 정규식 중 하나와 일치하면 웹 항목이 크롤링에서 제외됩니다. |
예
<section name="exclude_headers">
<attrib name="Header Name" type="list-string">
<member> .*excluded.*value </member>
</attrib>
</section>
variable_delay
이 섹션은 다른 지연 요청 속도를 사용하는 시간 슬롯을 지정합니다. 시간 슬롯을 지정하지 않으면 크롤러는 attrib에 나온 대로 delay 구성 매개 변수를 사용합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
name은 DDD:HH.MM-DDD:HH.MM 형식입니다. |
문자열 |
<초 단위 값> suspend |
이 시간 슬롯의 지연 요청 속도(초)를 지정합니다. suspend는 이 크롤링 모음의 크롤링이 일시 중단되도록 지정합니다. |
예
다음은 웹 크롤러가 한 주 동안 서로 다른 지연 간격을 사용하는 방법을 보여 줍니다. 수요일 오전 9시부터 오후 7시 사이에는 웹 크롤러가 20초의 지연을 사용하고 월요일 오전 9시와 오후 5시 사이에는 크롤링을 일시 중단하며 그 외 다른 시간에는 60초의 지연을 사용합니다.
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="variable_example">
<section name="variable_delay">
<attrib name="Wed:09-Wed:19" type="string">20 </attrib>
<attrib name="Mon:09-Mon:17" type="string">suspend</attrib>
</section>
</DomainSpecification>
</CrawlerConfig>
adaptive
이 섹션은 빠른 증분 크롤링 옵션을 지정합니다. 웹 크롤러가 이 섹션을 사용하도록 하려면 attrib에 나온 대로 refresh_mode 구성 매개 변수를 adaptive로 설정해야 합니다.
빠른 증분 크롤링 동작은 weights 및 sitemap_weights 섹션을 사용하여 제어할 수 있습니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
refresh_count |
정수 |
<값> |
부 새로 고침 주기 수를 지정합니다. 새로 고침 주기는 부 새로 고침 주기라고 하는 여러 개의 고정 크기 시간 간격으로 나눌 수 있습니다. 기본값: 4 |
refresh_quota |
정수 |
<백분율> |
다시 크롤링된 기존 URI와 표시되지 않는 새로운 URI의 비율을 지정합니다. 백분율을 낮게 설정하면 새 URI에 우선권이 주어집니다. 기본값: 90 |
coverage_min |
정수 |
<값> |
부 새로 고침 주기에서 웹 사이트당 크롤링할 URI의 최소 수를 지정합니다. 소규모 웹 사이트도 크롤링에 포함되도록 하는 데 사용됩니다. 기본값: 25 |
coverage_max_pct |
정수 |
<값> |
부 새로 고침에서 다시 크롤링할 웹 사이트의 백분율을 지정합니다. 부 주기마다 소규모 웹 사이트를 완전히 크롤링하지 않도록 하여 대규모 웹 사이트를 크롤링하는 데 시간이 충분히 할당되도록 합니다. 기본값: 10 |
예
<section name="adaptive">
<attrib name="refresh_count" type="integer"> 4 </attrib>
<attrib name="refresh_quota" type="integer"> 98 </attrib>
<attrib name="coverage_max_pct" type="integer"> 25 </attrib>
<attrib name="coverage_min" type="integer"> 10 </attrib>
<!-- Ranking weights. Each scoring criteria adds a score between -->
<!-- 0.0 and 1.0 which is then multiplied with the associated -->
<!-- weight below. Use a weight of 0 to disable a scorer -->
<section name="weights">
<attrib name="inverse_length" type="real"> 1.0 </attrib>
<attrib name="inverse_depth" type="real"> 1.0 </attrib>
<attrib name="is_landing_page" type="real"> 1.0 </attrib>
<attrib name="is_mime_markup" type="real"> 1.0 </attrib>
<attrib name="change_history" type="real"> 10.0 </attrib>
</section>
</section>
weights
빠른 증분 크롤링 프로세스에서는 이 섹션의 각 URI에 점수가 할당됩니다. 이 점수는 URI에 우선 순위를 부여하며 일련의 규칙에 기반을 둡니다. 각 규칙에는 weights 섹션에 지정된 총 점수에 대한 규칙의 기여도를 결정하는 가중치가 할당됩니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
inverse_length |
실수 |
<값> |
역길이 규칙의 가중치를 지정합니다. 역길이 규칙은 경로 세그먼트 수(슬래시 수로 정의됨)를 적게 포함하는 URI에 더 높은 점수를 할당합니다. 슬래시를 10개 이상 포함하는 URI에는 0점이 할당됩니다. 기본값: 1.0 |
inverse_depth |
실수 |
<값> |
역깊이 규칙의 가중치를 지정합니다. 시작 URI에서부터의 페이지 홉 수가 계산됩니다. 페이지 홉 수가 10 미만인 URI에 높은 점수가 할당됩니다. 이 규칙은 페이지 홉 수가 10 이상인 URI에 0점을 할당합니다. 기본값: 1.0 |
is_landing_page |
실수 |
<값> |
is_landing_page 규칙의 가중치를 지정합니다. 이 규칙은 시작 페이지로 간주되는 URI에 더 높은 점수를 할당합니다. 시작 페이지는 /, /index.html, index.htm, index.php, index.jsp, index.asp, default.html또는 default.htm 중 하나로 끝나는 URI입니다. 이 규칙은 쿼리 구성 요소를 포함하는 URI에는 점수를 할당하지 않습니다. 기본값: 1.0 |
is_mime_markup |
실수 |
<값> |
is_mime_markup 규칙의 가중치를 지정합니다. 이 규칙은 attrib의 uri_search_mime 구성 매개 변수에 해당 MIME 형식이 지정되어 있는 페이지에 점수를 추가로 할당합니다. 기본값: 1.0 |
change_history |
실수 |
<값> |
변경 기록 규칙의 가중치를 지정합니다. 이 규칙은 시간의 경과에 따른 HTTP 헤더 "last-modified" 값을 기반으로 점수를 할당합니다. 자주 변경되는 웹 항목에는 그렇지 않은 웹 항목보다 더 높은 점수가 할당됩니다. 기본값: 10.0 |
sitemap |
실수 |
<값> |
사이트 맵 규칙의 가중치를 지정합니다. 사이트 맵 규칙의 점수는 sitemap_weights에 지정됩니다. 기본값: 10.0 |
예
<!-- Ranking weights. Each scoring criteria adds a score between -->
<!-- 0.0 and 1.0 which is then multiplied with the associated -->
<!-- weight below. Use a weight of 0 to disable a scorer -->
<section name="weights">
<!-- Score based on the number of /'es (segments) in the -->
<!-- URI. Max score with one, no score with 10 or more -->
<attrib name="inverse_length" type="real"> 1.0 </attrib>
<!-- Score based on the number of link "levels" down to -->
<!-- this URI. Max score with none, no score with >= 10 -->
<attrib name="inverse_depth" type="real"> 1.0 </attrib>
<!-- Score added if URI is determined as a "landing page", -->
<!-- defined as e.g. ending in "/" or "index.html". URIs -->
<!-- with query parameters are not given score -->
<attrib name="is_landing_page" type="real"> 1.0 </attrib>
<!-- Score added if URI points to a markup document as -->
<!-- defined by the "uri_search_mime" option. Assumption -->
<!-- being that such content changes more often than e.g. -->
<!-- "static" Word or PDF documents. -->
<attrib name="is_mime_markup" type="real"> 1.0 </attrib>
<!-- Score based on change history tracked over time by -->
<!-- using an estimator based on last modified date given -->
<!-- by the web server. If no modified date returned then -->
<!-- one is estimated (based on whether the document has -->
<!-- changed or not). -->
<attrib name="change_history" type="real"> 10.0 </attrib>
</section>
sitemap_weights
이 섹션에서 사이트 맵의 <URL>
항목에 URI를 수정할 수 있는 빈도를 지정하는 changefreq 요소를 포함할 수 있습니다.
이 요소에 사용할 수 있는 올바른 문자열 값은 always, hourly, daily, weekly, monthly, yearly 및 never입니다. 빠른 증분 크롤링에서는 문자열 값이 숫자 가중치로 변환됩니다. sitemap_weights 섹션은 문자열 값에서 숫자 가중치로의 매핑을 지정합니다. 이 숫자 가중치는 weights 섹션의 사이트 맵 점수를 계산하는 데 사용됩니다.
URI에 대한 빠른 증분 크롤링 점수는 숫자 가중치에 sitemap 구성 매개 변수 가중치를 곱해서 계산됩니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
중요
이 요소의 범위는 0.0~1.0이어야 합니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
always |
실수 |
<값> |
changefreq 값 always의 가중치를 숫자 값으로 지정합니다. 기본값: 1.0 |
hourly |
실수 |
<값> |
changefreq 값 hourly의 가중치를 숫자 값으로 지정합니다. 기본값: 0.64 |
daily |
실수 |
<값> |
changefreq 값 daily의 가중치를 숫자 값으로 지정합니다 기본값: 0.32 |
weekly |
실수 |
<값> |
changefreq 값 weekly의 가중치를 숫자 값으로 지정합니다. 기본값: 0.16 |
monthly |
실수 |
<값> |
changefreq 값 monthly의 가중치를 숫자 값으로 지정합니다. 기본값: 0.08 |
yearly |
실수 |
<값> |
changefreq 값 yearly의 가중치를 숫자 값으로 지정합니다. 기본값: 0.04 |
never |
실수 |
<값> |
changefreq 값 never의 가중치를 숫자 값으로 지정합니다. 기본값: 0.0 |
default |
실수 |
<값> |
<changefreq> 값이 연결되어 있지 않은 모든 URI의 가중치를 지정합니다. 기본값: 0.16 |
예
<section name="sitemap_weights">
<attrib name="always" type="real"> 1.0 </attrib>
<attrib name="hourly" type="real"> 0.64 </attrib>
<attrib name="daily" type="real"> 0.32 </attrib>
<attrib name="weekly" type="real"> 0.16 </attrib>
<attrib name="monthly" type="real"> 0.08 </attrib>
<attrib name="yearly" type="real"> 0.04 </attrib>
<attrib name="never" type="real"> 0.0 </attrib>
<attrib name="default" type="real"> 0.16 </attrib>
</section>
site_clusters
이 섹션은 노드 스케줄러에서 호스트 이름을 라우팅하는 크롤러 동작을 재정의하는 구성 매개 변수를 지정합니다. 이 매개 변수는 일련의 호스트 이름이 동일한 노드 스케줄러와 사이트 관리자로 라우팅되도록 합니다. 이 매개 변수는 use_cookies 설정을 사용하는 경우 유용한데, 쿠키는 한 사이트 관리자 프로세스에서만 전역으로 사용되기 때문입니다. 또한 특정 웹 사이트가 서로 밀접하게 연결되어 있는 것을 알고 있는 경우 해당 호스트 이름을 그룹으로 묶어 내부 통신량을 줄일 수 있습니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
name |
목록-문자열 |
노드 스케줄러로 집계해야 할 호스트 이름 목록을 지정합니다. |
예
<section name="site_clusters">
<attrib name="mycluster" type="list-string">
<member> host1.constoso.com </member>
<member> host2.constoso.com </member>
<member> host3.constoso.com </member>
</attrib>
</section>
crawlmode
이 섹션은 크롤링 모음의 범위를 제한합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
mode |
문자열 |
크롤링의 수준을 지정합니다. 올바른 값은 FULL 또는 DEPTH:#이며 여기서 #은 시작 URI에서부터의 페이지 홉 수입니다. 기본값: FULL |
|
fwdlinks |
부울 |
yes|no |
다른 호스트 이름을 가리키는 하이퍼링크를 따라서 이동할지 여부를 지정합니다. 기본값: yes |
fwdredirects |
부울 |
yes|no |
서버에서 받은 외부 HTTP 리디렉션을 따라서 이동할지 여부를 지정합니다. 외부 리디렉션은 한 호스트 이름에서 다른 호스트 이름을 가리키는 HTTP 리디렉션입니다. 기본값: no |
reset_level |
부울 |
yes|no |
다른 호스트 이름으로 연결되는 하이퍼링크를 따라서 이동할 때 mode에 사용할 페이지 홉 카운터를 다시 설정할지 여부를 지정합니다. 기본값: yes |
예
<section name="crawlmode">
<attrib name="mode" type="string"> DEPTH:1 </attrib>
<attrib name="fwdlinks" type="boolean"> yes </attrib>
<attrib name="fwdredirects" type="boolean"> yes </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
post_payload
이 섹션은 콘텐츠를 HTTP POST 요청에 전송하는 데 사용됩니다. URI 접두사와 일치하거나 URI와 완전히 일치하는 URI로 콘텐츠가 전송됩니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 |
형식 |
값 |
의미 |
name |
문자열 |
페이로드 콘텐츠 문자열을 지정합니다. 이 문자열은 name XML 특성에 설정된 URI나 접두사와 일치하는 URI에 게시됩니다. name 특성에 URI를 지정하는 경우 이 섹션에 일치하는 URI를 지정해야 합니다. URI 접두사를 지정하려면 |
예
<section name="post_payload">
<attrib name="prefix:https://www.contoso.com/secure" type="string"> variable1=value1&variableB=valueB </attrib>
</section>
rss
이 섹션은 크롤링 모음의 RSS 피드 지원을 초기화하고 구성합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 |
형식 |
값 |
의미 |
start_uris |
목록-문자열 |
RSS 피드 항목을 가리키는 시작 URI 목록을 지정합니다. |
|
start_uri_files |
목록-문자열 |
RSS 피드 항목을 가리키는 URI가 포함된 파일의 경로 목록을 지정합니다. 이 파일의 형식은 URI를 한 줄에 하나씩 포함하는 일반 텍스트 파일이어야 합니다. |
|
auto_discover |
부울 |
yes|no |
웹 크롤러가 새 RSS 피드를 검색하도록 할지 여부를 지정합니다. 이 옵션을 설정하지 않으면 RSS start_uris와 RSS start_uri_files 섹션에 지정된 피드만 RSS 피드로 처리됩니다. 기본값: no |
follow_links |
부울 |
yes|no |
웹 크롤러가 RSS 피드에서 찾은 웹 항목의 하이퍼링크를 따라서 이동하도록 지정합니다. 이것이 일반적인 웹 크롤러 동작입니다. 이 옵션을 해제하면 크롤러는 피드에서 홉을 한 번만 수행합니다. 피드와 피드에서 참조하는 웹 항목만 크롤링하려는 경우 이 옵션을 해제하십시오. 기본값: yes |
ignore_rules |
부울 |
yes|no |
웹 크롤러가 include_domains, exclude_domains, include_uris 및 exclude_uris에 나온 대로 포함/제외 규칙에서 포함하도록 설정되어 있는지 여부에 관계없이 RSS 피드에서 참조하는 모든 웹 항목을 크롤링하도록 지정합니다. 기본값: no |
index_feed |
부울 |
yes|no |
웹 크롤러가 RSS 피드 자체를 인덱싱 엔진으로 보낼지 아니면 해당 피드 내에서 하이퍼링크로 연결된 웹 항목만 인덱싱 엔진으로 보낼지를 지정합니다. 기본값: no |
del_expired_links |
부울 |
yes|no |
max_link_age 및 max_link_count에 나온 대로 항목이 만료되면 웹 크롤러가 RSS 피드에서 항목을 삭제하도록 할지 여부를 지정합니다. 기본값: no |
max_link_age |
정수 |
<값> |
RSS 피드에서 웹 항목을 검색할 수 있는 최대 기간(분)을 지정합니다. del_expired_links 구성 매개 변수를 yes로 설정한 경우에만 적용됩니다. 기본값: 0 |
max_link_count |
정수 |
<값> |
웹 크롤러가 RSS 피드에 대해 저장하는 최대 하이퍼링크 수를 지정합니다. 웹 크롤러가 지정된 것보다 많은 하이퍼링크를 발견하면 선입선출 순서로 하이퍼링크가 만료됩니다. del_expired_links 구성 매개 변수를 yes로 설정한 경우에만 적용됩니다. 기본값: 128 |
예
<section name="rss">
<!-- Attempt to discover new rss feeds, yes/no -->
<attrib name="auto_discover" type="boolean"> yes </attrib>
<attrib name="del_expired_links" type="boolean"> yes </attrib>
<attrib name="follow_links" type="boolean"> yes </attrib>
<attrib name="ignore_rules" type="boolean"> no </attrib>
<attrib name="index_feed" type="boolean"> no </attrib>
<attrib name="max_link_age" type="integer"> 0 </attrib>
<attrib name="max_link_count" type="integer"> 128 </attrib>
<attrib name="start_uris" type="list-string">
<member> http://www.startsiden.no/rss.rss </member>
</attrib>
<!-- Start uri files (optional) -->
<attrib name="start_uri_files" type="list-string">
<member> /usr/fast/etc/rss_seedlist.txt </member>
</attrib>
</section>
logins
이 섹션은 HTML 양식 기반 인증에 사용할 logins 섹션 요소를 하나 이상 지정합니다. 각 섹션에는 특정 웹 사이트 로그인이 연결되며 이러한 각 로그인은 name 특성에 고유한 로그인 이름을 포함해야 합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
preload |
문자열 |
<값> |
로그인 양식을 처리하기 전에 검색할 페이지의 전체 URI를 지정합니다. |
scheme |
문자열 |
http|https |
로그인 웹 사이트의 URI 스키마를 지정합니다. 올바른 값은 http 또는 https입니다. |
site |
문자열 |
<값> |
로그인 양식 페이지의 호스트 이름을 지정합니다. |
form |
문자열 |
<값> |
로그인 양식의 경로를 지정합니다. |
action |
문자열 |
GET|POST |
양식에 HTTP POST를 사용할지 아니면 HTTP GET을 사용할지를 지정합니다. 올바른 값은 GET 또는 POST입니다. |
sites |
목록-문자열 |
<값> |
웹 크롤러가 크롤링 프로세스를 시작하기 전에 로그온해야 할 웹 사이트나 호스트 이름의 목록을 지정합니다. |
ttl |
정수 |
<초> |
크롤링을 계속하기 위해 다시 로그인해야 하기 전에 경과될 수 있는 시간(초)을 지정합니다. |
html_form |
문자열 |
<값> |
로그인 양식을 포함하는 HTML 페이지의 URI를 지정합니다. |
autofill |
부울 |
yes|no |
웹 크롤러가 HTML 로그인 양식을 자동으로 채울지 여부를 지정합니다. 이 특성을 yes로 설정하면 html_form 구성 매개 변수를 반드시 지정해야 합니다. |
relogin_if_failed |
부울 |
yes|no |
웹 크롤러가 로그인에 실패한 경우 ttl초 후에 웹 사이트에 대한 로그인을 다시 시도할 수 있는지 여부를 지정합니다. |
주의
Login 요소를 logins 섹션 대신 사용할 수 있습니다.
예
<section name="logins">
<section name="mytestlogin">
<!-- Instructs the crawler to "preload" potential cookies by -->
<!-- fetching this page and register any cookies before -->
<!-- proceeding with login -->
<attrib name="preload" type="string">http://preload.contoso.com/</attrib>
<attrib name="scheme" type="string"> https </attrib>
<attrib name="site" type="string"> login.contoso.com </attrib>
<attrib name="form" type="string"> /path/to/some/form.cgi </attrib>
<attrib name="action" type="string">POST</attrib>
<section name="parameters">
<attrib name="user" type="string"> username </attrib>
<attrib name="password" type="string"> password </attrib>
<attrib name="target" type="string"> sometarget </attrib>
</section>
<!-- Host names of sites requiring this login to crawl -->
<attrib name="sites" type="list-string">
<member> site1.contoso.com </member>
<member> site2.contoso.com </member>
</attrib>
<!-- Time to live for login cookie. Will re-log in when expires -->
<attrib name="ttl" type="integer"> 7200 </attrib>
</section>
</section>
parameters
이 섹션은 HTML 양식에 사용되는 인증 자격 증명을 설정합니다. 이 섹션은 logins 섹션 내에 또는 Login 요소 내에 지정해야 합니다. 자격 증명 매개 변수는 일반적으로 HTML 양식마다 다릅니다.
autofill 구성 매개 변수를 설정한 경우에는 브라우저에서 표시되는 변수(예: username과 password 또는 이에 해당하는 변수)만 지정합니다. 이 경우 웹 크롤러는 HTML 페이지를 검색하고 양식을 전송하는 데 필요한 "숨겨진" 변수만 읽어야 합니다. 구성 매개 변수에 지정된 변수 값은 양식에 저장된 모든 값을 무시합니다.
특성
다음 표에는 이 섹션의 attrib 요소가 나와 있습니다.
이름 | 형식 | 값 | 의미 |
---|---|---|---|
name name XML 특성은 설정할 HTML 양식의 변수를 포함합니다. |
문자열 |
HTML 양식 변수 값을 지정합니다. |
예
<section name="parameters">
<attrib name="user" type="string"> username </attrib>
<attrib name="password" type="string"> password </attrib>
<attrib name="target" type="string"> sometarget </attrib>
</section>
subdomains
이 섹션은 크롤링 하위 모음의 구성을 지정합니다. subdomains 섹션은 크롤링 하위 모음을 지정하는 section XML 요소를 하나 이상 포함해야 합니다. 크롤링 하위 모음 섹션에는 name 특성을 설정하여 고유한 이름을 포함해야 합니다.
주의
subdomains 섹션 대신 SubDomain 요소를 사용할 수 있습니다.
포함/제외 규칙을 지정하여 크롤링 하위 모음의 범위를 제한해야 합니다. 이러한 포함/제외 규칙은 include_domains, exclude_domains, include_uris 및 exclude_uris입니다.
attrib에 나오는 구성 매개 변수 중 일부만 하위 섹션에 사용할 수 있습니다. 이러한 구성 매개 변수는 다음과 같습니다.
-
accept_compression
-
allowed_schemes
-
crawlmode
-
cut_off
-
delay
-
ftp_passive
-
headers
-
max_doc
-
proxy
-
refresh
-
refresh_mode
-
start_uris
-
start_uri_files
-
use_http_1_1
-
use_javascript
-
use_sitemaps
크롤링 하위 모음의 refresh 구성 매개 변수는 주 크롤링 모음의 새로 고침 빈도보다 낮게 설정해야 합니다. include_uris 또는 exclude_uris 설정을 사용하여 크롤링 하위 모음을 지정한 경우에는 use_javascript, use_sitemaps 및 max_doc 구성 매개 변수를 사용할 수 없습니다.
rss 및 variable_delay 섹션도 크롤링 하위 모음에 사용할 수 있습니다.
예
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="subcollection_example">
<section name="subdomains">
<section name="subdomain_1">
<section name="include_uris">
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/index </member>
</attrib>
</section>
<attrib name="refresh" type="real"> 60.0 </attrib>
<attrib name="delay" type="real"> 10.0 </attrib>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com/ </member>
</attrib>
</section>
</section>
</DomainSpecification>
</CrawlerConfig>
SubDomain
이 요소는 크롤링 하위 모음의 구성을 지정합니다. 크롤링 하위 모음은 크롤링 모음 구성원을 해당 정의에 따라 다른 크롤링 모음 구성원과 구별하는 개체입니다. 한 크롤링 모음에 SubDomain 요소를 여러 개 포함할 수 있습니다.
SubDomain 요소의 구성 매개 변수는 subdomains에 나와 있습니다.
SubDomain 요소는 attrib 요소와 section 요소를 포함합니다.
특성
특성 | 값 | 의미 |
---|---|---|
name |
<이름> |
크롤링 하위 모음의 이름을 지정하는 문자열입니다. |
예
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="subcollection_example">
<SubDomain name="subdomain_1">
<section name="include_uris">
<attrib name="prefix" type="list-string">
<member> https://www.contoso.com/index </member>
</attrib>
</section>
<attrib name="refresh" type="real"> 60.0 </attrib>
<attrib name="delay" type="real"> 10.0 </attrib>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com/ </member>
</attrib>
</SubDomain>
</DomainSpecification>
</CrawlerConfig>
Login
이 요소는 HTML 양식 기반 인증에 사용됩니다. Login 요소의 구성 매개 변수는 logins에 나와 있습니다. 한 크롤링 모음에 Login 요소를 여러 개 포함할 수 있습니다. Login 요소는 attrib 요소와 section 요소를 포함합니다.
특성
특성 | 값 | 의미 |
---|---|---|
name |
<값> |
로그인 사양의 이름을 지정하는 문자열입니다. |
예
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="login_example">
<Login name="mytestlogin">
<attrib name="preload" type="string">http://preload.contoso.com/
</attrib>
<attrib name="scheme" type="string"> https </attrib>
<attrib name="site" type="string"> login.contoso.com </attrib>
<attrib name="form" type="string"> /path/to/some/form.cgi </attrib>
<attrib name="action" type="string">POST</attrib>
<section name="parameters">
<attrib name="user" type="string"> username </attrib>
<attrib name="password" type="string"> password </attrib>
</section>
<attrib name="sites" type="list-string">
<member> site1.contoso.com </member>
<member> site2.contoso.com </member>
</attrib>
<attrib name="ttl" type="integer"> 7200 </attrib>
<attrib name="html_form" type="string">
http://login.contoso.com/login.html
</attrib>
<attrib name="autofill" type="boolean"> yes </attrib>
<attrib name="relogin_if_failed" type="boolean"> yes </attrib>
</Login>
</DomainSpecification>
</CrawlerConfig>
Node
이 요소는 특정 노드 스케줄러에 대한 크롤링 모음 또는 크롤링 하위 모음의 구성 매개 변수를 재정의하는 데 사용됩니다. Node 요소의 구성 매개 변수는 SubDomain, Login, attrib 및 section에 나와 있습니다.
Node 요소는 attrib 요소와 section 요소를 포함합니다.
특성
특성 | 값 | 의미 |
---|---|---|
name |
<값> |
구성 매개 변수를 재정의할 노드 스케줄러를 지정하는 문자열입니다. |
예
다음은 다중 노드 설치를 사용하는 예입니다. 노드 스케줄러 중 하나는 이름이 "crawler_node1"입니다. 이 예제에서는 다른 노드와는 다른 delay 구성 매개 변수를 사용하여 "crawler_node1"을 구성합니다.
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="node_example ">
<attrib name="delay" type="real"> 60.0 </attrib>
<Node name="crawler_node1">
<attrib name="delay" type="real"> 90.0 </attrib>
</Node>
</DomainSpecification>
</CrawlerConfig>
XML 스키마
웹 크롤러 구성 파일의 형식은 다음 XML 스키마를 따라야 합니다.
<?xml version="1.0" encoding="UTF-8" ?>
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xs:element name="CrawlerConfig" type="CT_CrawlerConfig"/>
<xs:complexType name="CT_CrawlerConfig >
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="DomainSpecification" type="CT_DomainSpecification"/>
</xs:choice>
</xs:complexType>
<xs:complexType name="CT_DomainSpecification">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib" maxOccurs="unbounded"/>
<xs:element name="section" type="CT_section"/>
<xs:element name="SubDomain" type="CT_SubDomain"/>
<xs:element name="Login" type="CT_Login"/>
<xs:element name="Node" type="CT_Node"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_attrib" mixed="true">
<xs:sequence minOccurs="0" maxOccurs="unbounded">
<xs:element name="member" type="ST_member"/>
</xs:sequence>
<xs:attribute name="name" type="xs:string" use="required"/>
<xs:attribute name="type" type="ST_type" use="required"/>
</xs:complexType>
<xs:complexType name="CT_section">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_SubDomain">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_Login">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:complexType name="CT_Node">
<xs:choice minOccurs="0" maxOccurs="unbounded">
<xs:element name="attrib" type="CT_attrib"/>
<xs:element name="section" type="CT_section"/>
</xs:choice>
<xs:attribute name="name" type="xs:string" use="required"/>
</xs:complexType>
<xs:simpleType name="ST_type">
<xs:restriction base="xs:string">
<xs:enumeration value="boolean"/>
<xs:enumeration value="string"/>
<xs:enumeration value="integer"/>
<xs:enumeration value="list-string"/>
<xs:enumeration value="real"/>
</xs:restriction>
</xs:simpleType>
<xs:simpleType name="ST_member">
<xs:restriction base="xs:string"></xs:restriction>
</xs:simpleType>
</xs:schema>
단순한 구성
다음은 단순한 웹 크롤러 구성을 구성하는 예입니다. 이 예에서는 contoso.com 웹 사이트만 크롤링하도록 구성되어 있습니다.
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="default_example">
<section name="crawlmode">
<attrib name="fwdlinks" type="boolean"> no </attrib>
<attrib name="fwdredirects" type="boolean"> no </attrib>
<attrib name="mode" type="string"> FULL </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com </member>
</attrib>
</DomainSpecification>
</CrawlerConfig>
일반적인 구성
다음은 몇몇 일반적인 구성 매개 변수를 포함하는 크롤러 구성을 보여 주는 예입니다.
<?xml version="1.0" encoding="utf-8"?>
<CrawlerConfig>
<DomainSpecification name="default_example">
<attrib name="accept_compression" type="boolean"> yes </attrib>
<attrib name="allowed_schemes" type="list-string">
<member> http </member>
<member> https </member>
</attrib>
<attrib name="allowed_types" type="list-string">
<member> text/html </member>
<member> text/plain </member>
</attrib>
<section name="cachesize">
<attrib name="aliases" type="integer"> 1048576 </attrib>
<attrib name="pp" type="integer"> 1048576 </attrib>
<attrib name="pp_pending" type="integer"> 131072 </attrib>
<attrib name="routetab" type="integer"> 1048576 </attrib>
</section>
<attrib name="check_meta_robots" type="boolean"> yes </attrib>
<attrib name="cookie_timeout" type="integer"> 900 </attrib>
<section name="crawlmode">
<attrib name="fwdlinks" type="boolean"> yes </attrib>
<attrib name="fwdredirects" type="boolean"> yes </attrib>
<attrib name="mode" type="string"> FULL </attrib>
<attrib name="reset_level" type="boolean"> no </attrib>
</section>
<attrib name="csum_cut_off" type="integer"> 0 </attrib>
<attrib name="cut_off" type="integer"> 5000000 </attrib>
<attrib name="dbswitch" type="integer"> 5 </attrib>
<attrib name="dbswitch_delete" type="boolean"> no </attrib>
<attrib name="delay" type="real"> 60.0 </attrib>
<attrib name="domain_clustering" type="boolean"> no </attrib>
<attrib name="enforce_delay_per_ip" type="boolean"> yes </attrib>
<attrib name="exclude_exts" type="list-string">
<member> .jpg </member>
<member> .jpeg </member>
<member> .ico </member>
<member> .tif </member>
<member> .png </member>
<member> .bmp </member>
<member> .gif </member>
<member> .wmf </member>
<member> .avi </member>
<member> .mpg </member>
<member> .wmv </member>
<member> .wma </member>
<member> .ram </member>
<member> .asx </member>
<member> .asf </member>
<member> .mp3 </member>
<member> .wav </member>
<member> .ogg </member>
<member> .ra </member>
<member> .aac </member>
<member> .m4a </member>
<member> .zip </member>
<member> .gz </member>
<member> .vmarc </member>
<member> .z </member>
<member> .tar </member>
<member> .iso </member>
<member> .img </member>
<member> .rpm </member>
<member> .cab </member>
<member> .rar </member>
<member> .ace </member>
<member> .hqx </member>
<member> .swf </member>
<member> .exe </member>
<member> .java </member>
<member> .jar </member>
<member> .prz </member>
<member> .wrl </member>
<member> .midr </member>
<member> .css </member>
<member> .ps </member>
<member> .ttf </member>
<member> .mso </member>
<member> .dvi </member>
</attrib>
<attrib name="extract_links_from_dupes" type="boolean"> no </attrib>
<attrib name="fetch_timeout" type="integer"> 300 </attrib>
<attrib name="force_mimetype_detection" type="boolean"> no </attrib>
<section name="ftp_errors">
<attrib name="4xx" type="string"> DELETE:3 </attrib>
<attrib name="550" type="string"> DELETE:0 </attrib>
<attrib name="5xx" type="string"> DELETE:3 </attrib>
<attrib name="int" type="string"> KEEP:0 </attrib>
<attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>
<attrib name="headers" type="list-string">
<member> User-Agent: FAST Enterprise Crawler 6 </member>
</attrib>
<attrib name="html_redir_is_redir" type="boolean"> yes </attrib>
<attrib name="html_redir_thresh" type="integer"> 3 </attrib>
<section name="http_errors">
<attrib name="4xx" type="string"> DELETE:0 </attrib>
<attrib name="5xx" type="string"> DELETE:10 </attrib>
<attrib name="int" type="string"> KEEP:0 </attrib>
<attrib name="net" type="string"> DELETE:3, RETRY:1 </attrib>
<attrib name="ttl" type="string"> DELETE:3 </attrib>
</section>
<attrib name="if_modified_since" type="boolean"> yes </attrib>
<attrib name="javascript_keep_html" type="boolean"> no </attrib>
<section name="limits">
<attrib name="disk_free" type="integer"> 0 </attrib>
<attrib name="disk_free_slack" type="integer"> 3 </attrib>
<attrib name="max_doc" type="integer"> 0 </attrib>
<attrib name="max_doc_slack" type="integer"> 1000 </attrib>
</section>
<section name="link_extraction">
<attrib name="a" type="boolean"> yes </attrib>
<attrib name="action" type="boolean"> yes </attrib>
<attrib name="area" type="boolean"> yes </attrib>
<attrib name="card" type="boolean"> yes </attrib>
<attrib name="comment" type="boolean"> no </attrib>
<attrib name="embed" type="boolean"> no </attrib>
<attrib name="frame" type="boolean"> yes </attrib>
<attrib name="go" type="boolean"> yes </attrib>
<attrib name="img" type="boolean"> no </attrib>
<attrib name="layer" type="boolean"> yes </attrib>
<attrib name="link" type="boolean"> yes </attrib>
<attrib name="meta" type="boolean"> yes </attrib>
<attrib name="meta_refresh" type="boolean"> yes </attrib>
</section>
<section name="log">
<attrib name="dsfeed" type="string"> text </attrib>
<attrib name="fetch" type="string"> text </attrib>
<attrib name="postprocess" type="string"> text </attrib>
<attrib name="site" type="string"> text </attrib>
</section>
<attrib name="login_failed_ignore" type="boolean"> no </attrib>
<attrib name="login_timeout" type="integer"> 300 </attrib>
<attrib name="max_backoff_counter" type="integer"> 50 </attrib>
<attrib name="max_backoff_delay" type="integer"> 600 </attrib>
<attrib name="max_doc" type="integer"> 1000000 </attrib>
<attrib name="max_pending" type="integer"> 2 </attrib>
<attrib name="max_redirects" type="integer"> 10 </attrib>
<attrib name="max_reflinks" type="integer"> 0 </attrib>
<attrib name="max_sites" type="integer"> 128 </attrib>
<attrib name="max_uri_recursion" type="integer"> 5 </attrib>
<attrib name="mufilter" type="integer"> 0 </attrib>
<attrib name="near_duplicate_detection" type="boolean"> no </attrib>
<attrib name="obey_robots_delay" type="boolean"> no </attrib>
<section name="pp">
<attrib name="ds_max_ecl" type="integer"> 10 </attrib>
<attrib name="ds_meta_info" type="list-string">
<member> duplicates </member>
<member> redirects </member>
<member> mirrors </member>
<member> metadata </member>
</attrib>
<attrib name="ds_paused" type="boolean"> no </attrib>
<attrib name="ds_send_links" type="boolean"> no </attrib>
<attrib name="max_dupes" type="integer"> 10 </attrib>
<attrib name="stripe" type="integer"> 1 </attrib>
</section>
<section name="ppdup">
<attrib name="compact" type="boolean"> yes </attrib>
</section>
<attrib name="proxy_max_pending" type="integer"> 2147483647 </attrib>
<attrib name="refresh" type="real"> 1440.0 </attrib>
<attrib name="refresh_mode" type="string"> scratch </attrib>
<attrib name="refresh_when_idle" type="boolean"> no </attrib>
<attrib name="robots" type="boolean"> yes </attrib>
<attrib name="robots_auth_ignore" type="boolean"> yes </attrib>
<attrib name="robots_timeout" type="integer"> 300 </attrib>
<attrib name="robots_tout_ignore" type="boolean"> no </attrib>
<attrib name="robots_ttl" type="integer"> 86400 </attrib>
<section name="rss">
<attrib name="auto_discover" type="boolean"> no </attrib>
<attrib name="del_expired_links" type="boolean"> no </attrib>
<attrib name="follow_links" type="boolean"> no </attrib>
<attrib name="ignore_rules" type="boolean"> no </attrib>
<attrib name="index_feed" type="boolean"> no </attrib>
<attrib name="max_link_age" type="integer"> 0 </attrib>
<attrib name="max_link_count" type="integer"> 128 </attrib>
</section>
<attrib name="smfilter" type="integer"> 0 </attrib>
<attrib name="sort_query_params" type="boolean"> no </attrib>
<attrib name="start_uris" type="list-string">
<member> https://www.contoso.com </member>
</attrib>
<section name="storage">
<attrib name="clusters" type="integer"> 8 </attrib>
<attrib name="compress" type="boolean"> yes </attrib>
<attrib name="compress_exclude_mime" type="list-string">
<member> application/x-shockwave-flash </member>
</attrib>
<attrib name="datastore" type="string"> bstore </attrib>
<attrib name="defrag_threshold" type="integer"> 85 </attrib>
<attrib name="remove_docs" type="boolean"> no </attrib>
<attrib name="store_dupes" type="boolean"> no </attrib>
<attrib name="store_http_header" type="boolean"> yes </attrib>
</section>
<attrib name="truncate" type="boolean"> no </attrib>
<attrib name="umlogs" type="boolean"> yes </attrib>
<attrib name="uri_search_mime" type="list-string">
<member> text/html </member>
<member> text/vnd.wap.wml </member>
<member> text/wml </member>
<member> text/x-wap.wml </member>
<member> x-application/wml </member>
<member> text/x-hdml </member>
</attrib>
<attrib name="use_cookies" type="boolean"> no </attrib>
<attrib name="use_http_1_1" type="boolean"> yes </attrib>
<attrib name="use_javascript" type="boolean"> no </attrib>
<attrib name="use_meta_csum" type="boolean"> no </attrib>
<attrib name="use_sitemaps" type="boolean"> no </attrib>
<section name="workqueue_priority">
<attrib name="default" type="integer"> 1 </attrib>
<attrib name="levels" type="integer"> 1 </attrib>
<attrib name="pop_scheme" type="string"> default </attrib>
<attrib name="start_uri_pri" type="integer"> 1 </attrib>
</section>
</DomainSpecification>
</CrawlerConfig>