crawlerglobaldefaults.xml 참조
적용 대상: FAST Search Server 2010
마지막으로 수정된 항목: 2015-03-09
crawlerglobaldefaults.xml 을 사용하여 모든 크롤링 모음에 적용되는 FAST Search 웹 크롤러 구성 옵션을 지정할 수 있습니다. 구성 옵션에는 DNS, 콘텐츠 전송, 중복된 항목 검색 및 기타 전역 설정이 포함됩니다. 이 파일을 수정하는 작업은 고급 기능이며 드문 경우에 한해 사용합니다.
경고
다음과 같은 경우에는 이 파일에서 변경한 모든 내용이 덮어쓰이고 손실됩니다.
-
Set-FASTSearchConfiguration Windows PowerShell cmdlet을 실행하는 경우
-
FAST Search Server 2010 for SharePoint 업데이트나 서비스 팩을 설치하는 경우
Set-FASTSearchConfiguration Windows PowerShell cmdlet을 실행하거나 FAST Search Server 2010 for SharePoint 업데이트 또는 서비스 팩을 설치한 후에는 변경 내용을 다시 적용해야 합니다.
FAST Search 웹 크롤러는 시작 시 <FASTSearchFolder>\etc\(여기서 *<FASTSearchFolder>*는FAST Search Server 2010 for SharePoint를 설치한 폴더의 경로(예: C:\FASTSearch))에서 이름이 지정된 crawlerglobaldefaults.xml 파일을 찾습니다. NodeConf.xml에서 crawler.exe 실행 파일에 -F <path> 인수를 전달(NodeConf.xml을 편집한 후 nctrl.exe를 다시 시작하거나 nctrl.exe reloadcfg를 실행)하여 이 위치를 재정의할 수 있습니다.
crawlerglobaldefaults.xml 파일을 찾을 수 없는 경우 FAST Search 웹 크롤러는 이 파일에서 지정 가능한 설정의 값을 기본값으로 되돌립니다. 일부 설정은 crawler.exe 명령줄에서 재정의할 수 있습니다. 자세한 내용은 crawler.exe 참조를 참조하십시오.
crawlerglobaldefaults.xml 사용자 지정
참고
구성 파일을 수정하려면 FAST Search Server 2010 for SharePoint가 설치된 컴퓨터에서 FASTSearchAdministrators 로컬 그룹의 구성원이어야 하는 최소 요구 사항을 만족하는지 확인합니다.
이 파일을 편집하려면
범용 XML 텍스트 편집기가 아닌 텍스트 편집기에서 crawlerglobaldefaults.xml 을 편집합니다. <FASTSearchFolder>\etc\ 에 있는 기존 파일을 사용합니다. 사용해야 할 요소와 설정을 포함합니다.
nctrl.exe restart crawler를 실행하여 1단계에서 설정한 옵션으로 FAST Search 웹 크롤러 프로세스를 다시 시작합니다.
FAST Search 웹 크롤러를 다중 노드 크롤러로 실행하는 경우 크롤러가 실행되는 각 서버에서 이 파일을 편집해야 합니다. 또한 다중 노드 스케줄러에서 nctrl.exe restart multinodescheduler를 실행하고 노드 스케줄러를 실행하는 서버에서 nctrl.exe restart nodescheduler를 실행하여 각 크롤러를 다시 시작해야 합니다.
crawlerglobaldefaults.xml 빠른 참조
다음 표에는 crawlerglobaldefaults.xml의 요소가 나와 있습니다. 모든 섹션과 특성을 포함해야 하는 GlobalConfig와 attribute 요소 내에만 포함할 수 있는 member를 제외한 다른 모든 요소는 어떠한 순서로도 나올 수 있습니다.
요소 | 설명 |
---|---|
CrawlerConfig |
이 루트 요소는 파일을 FAST Search 웹 크롤러 구성 파일로 식별합니다. |
GlobalConfig |
이 요소는 파일을 FAST Search 웹 크롤러의 전역 구성 설정 파일로 식별합니다. |
attrib |
이 하위 요소는 요소의 값이나 구성원 요소 집합으로 구성 설정을 지정하며 형식은 다음과 같습니다.
|
member |
이 하위 요소는 attrib 요소 내에만 포함할 수 있습니다. 목록 형식으로 구성 설정을 지정하며 형식은 다음과 같습니다.
|
section |
이 하위 요소는 형식별로 그룹화된 여러 설정을 포함합니다. |
다음 표에는 crawlerglobaldefaults.xml의 옵션이 나와 있습니다.
옵션 | 설명 |
---|---|
GlobalConfig 옵션 |
이 옵션은 GlobalConfig 요소 내에서 유효합니다. |
feeding 옵션 |
이 옵션은 "feeding"이라는 section 요소 내에서 유효합니다. 이 옵션은 콘텐츠 인덱싱으로 웹 항목을 전송하는 특성을 구성합니다. |
dns 옵션 |
이 특성은 크롤러의 내부 DNS 확인자와 관련된 설정을 지정합니다. |
near_duplicate_detection 옵션 |
이 옵션은 유사 중복 판별 알고리즘이 설정된 모음에 대해 이 알고리즘을 구성합니다. |
timeouts 옵션 |
이 옵션은 전역 크롤러 시간 초과 설정을 지정합니다. |
crawlerglobaldefaults.xml 파일 형식
crawlerglobaldefaults.xml 의 XML 요소는 <
로 시작해서 />
로 끝납니다.
기본 요소 형식은 다음과 같습니다.
<attrib name=" 값 " type=" 값 "> 값 </attrib>
예를 들면 다음과 같습니다.
<attrib name="sitemanager_numsites" type="integer" > 1024 </attrib>
요소, 섹션 이름, 특성 및 특성 값은 대/소문자를 구분합니다. 특성 이름과 형식은 따옴표(" ")로 묶어야 합니다. 요소 정의는 여러 줄에 입력할 수 있습니다. 요소 정의에서 공백, 캐리지 리턴, 라인 피드 및 탭 문자는 무시됩니다.
예를 들면 다음과 같습니다.
<attrib
name="sitemanager_numsites"
type="integer"
> 1024 </attrib
>
팁
매개 변수 정의가 긴 경우 값을 여러 줄에 배치하고 들여쓰기를 사용하여 파일을 알아보기 쉽게 만듭니다.
<GlobalConfig>
요소는 특수한 경우이며 필수 요소입니다. 다른 모든 요소는 <GlobalConfig>
요소 내에 포함되며 이 요소는</GlobalConfig>.
를 사용하여 닫습니다.
crawlerglobaldefaults.xml 파일의 기본 구조는 다음과 같습니다.
<?xml version="1.0"?>
<CrawlerConfig>
<GlobalConfig>
...
</GlobalConfig>
</CrawlerConfig>
<!--
와 -->
로 구분하여 어디에든 주석을 추가할 수 있습니다.
CrawlerConfig
이 요소는 최상위 요소이며 특성은 가지지 않습니다.
GlobalConfig
이 요소는 전역 크롤러 구성을 포함합니다. 특성은 가지지 않습니다.
attrib
이 하위 요소는 단일 값으로 또는 member 요소를 사용하여 목록 형식으로 구성 옵션을 지정합니다.
특성
특성 | 값 | 설명 |
---|---|---|
name |
옵션 이름 |
구성할 옵션을 지정합니다. 올바른 옵션은 이 항목 뒷부분에 나오는 옵션 섹션을 참조하십시오. |
type |
string|integer|real|boolean|list-string |
옵션 값의 형식을 지정합니다.
|
type 특성의 값은 name 특성에 대해 지정된 옵션과 관련된 type과 일치해야 합니다. 예를 들어 numprocs 옵션은 항상 integer 형식과 함께 사용해야 합니다.
예
다음은 numprocs 옵션에 대해 2를 지정하는 예입니다.
<attrib name="numprocs" type="integer"> 2 </attrib>
member
이 요소는 옵션 값 목록 형식으로 요소를 지정합니다. 특성은 가지지 않습니다.
member 요소는 attrib 요소 내에서만 사용할 수 있습니다.
예
다음은 browser_engines 옵션에 대해 두 개의 Browser Engine을 지정하는 예입니다.
<attrib name="browser_engines" type="list-string">
<member> hostname1:13045 </member>
<member> hostname2:13045 </member>
</attrib>
section
이 하위 요소는 관련 옵션 집합을 그룹화합니다. section 요소는 attrib 요소를 포함합니다.
특성
특성 |
값 |
설명 |
name |
이름 |
섹션의 이름을 지정합니다. 지원되는 섹션은 이 항목 뒷부분의 옵션 표에 나와 있습니다. |
예
다음은 timeout 옵션만 지정하여 DNS 옵션을 구성하는 예입니다.
<section name="dns">
<attrib name="timeout" type="integer"> 30 </attrib>
</section>
GlobalConfig 옵션
이 옵션은 GlobalConfig 요소 내에서 유효합니다.
옵션 | 형식 | 값 | 설명 |
---|---|---|---|
browser_engines |
목록-문자열 |
호스트 이름:포트 |
Browser Engine 목록입니다. 크롤러는 이러한 엔진을 사용하여 JavaScript가 포함된 웹 페이지를 처리합니다. 기본값: 설치 관리자를 통해 자동으로 구성됩니다. |
datadir |
문자열 |
디렉터리 |
크롤러 콘텐츠 저장소의 위치입니다. crawler.exe에 -d 옵션을 전달하여 재정의할 수 있습니다. |
dbtrace |
부울 |
yes|no |
데이터베이스 작업 추적을 설정/해제합니다. 디버깅에만 해당합니다. 기본값: no |
directio |
부울 |
yes|no |
사후 처리 및 중복 서버에서 직접 I/O를 설정/해제합니다. 기본값: no |
disk_resume_threshold |
실수 |
1-2^63 |
disk_suspend_threshold에 도달하여 크롤링이 이미 일시 중단된 경우 크롤러가 모든 모음에 대한 크롤링을 다시 시작하게 되는 임계값(바이트)입니다. 기본값: 629145600 |
disk_suspend_threshold |
실수 |
1-2^63 |
크롤러가 모든 모음에 대한 크롤링을 일시 중단하게 되는 임계값(바이트)입니다. 기본값: 524288000 |
dns_resolver_threads |
정수 |
1-64 |
최대 DNS 스레드 수입니다. 많은 수의 호스트 이름을 크롤링하는 중에 이 값을 늘리면 DNS 확인 성능이 향상될 수 있습니다. 기본값: 5 |
dns_use_platform_api |
부울 |
yes|no |
DNS 이름이나 NetBIOS 이름을 확인하는 데 OS gethostbyname API를 사용할지 아니면 내부 확인자를 사용할지를 지정합니다. 내부 DNS 확인자는 향상된 성능과 확장성을 제공하지만 NetBIOS 이름은 지원하지 않습니다. 기본값: yes |
duplicate_servers |
목록-문자열 |
호스트 이름:포트 |
중복 서버 목록입니다. 기본값: 설치 관리자를 통해 자동으로 구성됩니다. |
logdir |
문자열 |
디렉터리 |
크롤러 로그의 위치입니다. crawler.exe에 -l 옵션을 전달하여 재정의할 수 있습니다. |
logfile_ttl |
정수 |
1-2^31 |
순서대로 기록된 로그 파일을 삭제하기 전에 보관할 기간(일)입니다. 기본값: 365 |
numprocs |
정수 |
1-8 |
시작할 사이트 관리자 프로세스의 수입니다. 기본값: 2 |
ppdup_dbformat |
문자열 |
hastlog|diskhashlog|gigabase |
다중 노드 FAST Search 웹 크롤러 배포의 중복 서버에서 사용하는 데이터베이스 형식입니다. 기본값: hashlog |
rc_update_freq |
정수 |
1-3600 |
모니터링 서비스에 대한 크롤링 통계 업데이트 빈도(초)를 지정합니다. 기본값: 120 |
sitemanager_numsites |
정수 |
1-1024 |
사이트 관리자당 최대 사이트 작업자 수입니다. 기본값: 1024 |
store_cleanup |
문자열 |
hh:mm |
일일 저장소 정리가 수행되는 시간(24시간제)입니다. 기본값: 04:00 |
xmlrpcport |
정수 |
포트 번호 |
크롤러 기준 포트입니다. crawler.exe에 -p 옵션을 전달하여 재정의할 수 있습니다. |
예
다음은 다양한 형식의 옵션을 지정하는 예입니다.
<attrib name="ipv4" type="boolean"> yes </attrib>
<attrib name="numprocs" type="integer"> 2 </attrib>
<attrib name="disk_resume_threshold" type="real"> 629145600 </attrib>
<attrib name="browser_engines" type="list-string">
<member> localhost:13045 </member>
</attrib>s
feeding 옵션
다음 옵션은 feeding이라는 section 요소 내에서 유효합니다. 이 옵션은 콘텐츠 인덱싱으로 웹 항목을 전송하는 특성을 구성합니다.
옵션 | 형식 | 값 | 설명 |
---|---|---|---|
feeder_threads |
정수 |
1-8 |
시작할 콘텐츠 피더 스레드 수를 지정합니다. 대규모 시나리오의 경우 스레드 수를 늘려 성능을 향상시킬 수 있습니다. 참고 <FASTSearchFolder>\data\crawler\store\dsqueues 디렉터리가 비어 있을 때만 변경해야 합니다. 기본값: 1 |
fs_threshold |
정수 |
0-2^31 |
인덱싱을 위해 일괄로 보낼 항목의 최대 크기를 지정합니다. 이 값보다 큰 항목은 URL 참조로 전송되며 항목 처리기는 이러한 참조를 크롤러에서 개별적으로 다운로드합니다. 기본값: 128 |
max_batch_datasize |
정수 |
0-2^31 |
일괄 처리당 최대 바이트 수를 지정합니다. 최대 일괄 처리 데이터 크기를 줄이면 항목 처리기의 메모리 사용량이 줄어듭니다. 기본값: 50MB |
max_batch_size |
정수 |
1-1024 |
각 일괄 처리 전송에 포함되는 최대 항목 수입니다. 항목 수가 이보다 적거나 일괄 처리의 메모리 크기가 너무 커지면 이보다 작은 일괄 처리가 전송될 수 있습니다. 최대 일괄 처리 크기를 줄이면 항목 처리기의 메모리 사용량은 줄어들지만 성능이 저하될 수 있습니다. 기본값: 128 |
max_cb_timeout |
정수 |
1-3600 |
종료하는 동안 콘텐츠 인덱싱의 미해결 콜백을 대기할 최대 시간(초)입니다. 기본값: 1800 |
예
다음은 일반적인 feeding 섹션을 지정하는 예입니다.
<section name="feeding">
<attrib name="feeder_threads" type="integer"> 1 </attrib>
<attrib name="max_cb_timeout" type="integer"> 1800 </attrib>
<attrib name="max_batch_size" type="integer"> 128 </attrib>
<attrib name="max_batch_datasize" type="integer"> 52428800 </attrib>
<attrib name="fs_threshold" type="integer"> 128 </attrib>
</section>
dns 옵션
이 특성은 크롤러의 내부 DNS 확인자와 관련된 설정을 지정합니다. 단일 노드 설치에서 노드 스케줄러는 호스트 이름을 확인하도록 DNS에 요청합니다. 다중 노드 설치에서는 이 작업을 다중 노드 스케줄러가 수행합니다.
옵션 | 형식 | 값 | 설명 |
---|---|---|---|
db_cachesize |
정수 |
1-2^31 |
DNS 데이터베이스 캐시 크기(바이트)입니다. 다중 노드 스케줄러는 이 크기의 네 배를 사용합니다. 기본값: 10485760 |
ipv4 |
부울 |
yes|no |
크롤러가 호스트 이름을 IPv4 주소로 확인하도록 할지 여부를 지정합니다. 기본값: yes |
ipv6 |
부울 |
yes|no |
크롤러가 호스트 이름을 IPv6 주소로 확인하도록 할지 여부를 지정합니다. 기본값: yes |
max_rate |
정수 |
1-200 |
초당 실행할 최대 DNS 요청 수입니다. 기본값: 100 |
max_retries |
정수 |
1-10 |
포기하기 전에 실패한 조회에 대해 다시 실행할 최대 DNS 재시도 횟수입니다. 기본값: 5 |
min_rate |
정수 |
1-10 |
초당 실행할 최소 DNS 요청 수입니다. 기본값: 5 |
min_ttl |
정수 |
1-2^31 |
확인된 이름을 다시 확인하기 전까지의 확인된 이름의 최소 수명(초)입니다. 기본값: 21600 |
timeout |
정수 |
1-300 |
다시 시도하기 전까지의 DNS 요청 시간 초과(초)입니다. 기본값 30 |
min_rate, max_rate, max_retries 및 timeout 설정은 OS DNS 확인자 대신 내부 DNS 확인자를 사용하는 경우에만 적용됩니다. 이 설정을 제어하는 dns_use_platform_api 옵션을 참조하십시오. ip4나 ipv6를 yes로 지정해야 합니다 .
예
다음은 일반적인 DNS 섹션을 지정하는 예입니다.
<section name="dns">
<attrib name="min_rate" type="integer"> 5 </attrib>
<attrib name="max_rate" type="integer"> 100 </attrib>
<attrib name="max_retries" type="integer"> 5 </attrib>
<attrib name="timeout" type="integer"> 30 </attrib>
<attrib name="min_ttl" type="integer"> 21600 </attrib>
<attrib name="db_cachesize" type="integer"> 10485760 </attrib>
<attrib name="ipv4 " type="integer"> yes </attrib>
<attrib name="ipv6 " type="integer"> yes </attrib>
</section>
near_duplicate_detection 옵션
중복에 가까운 항목 검색은 모음별로 설정합니다. 중복에 가까운 항목 검색은 공백 단어 구분 기호를 사용하는 언어(예: 서양 언어)에서만 작동합니다. 이 옵션은 유사 중복 판별 알고리즘이 설정되어 있는 모음에 대해 이 알고리즘을 구성합니다.
옵션 | 형식 | 값 | 설명 |
---|---|---|---|
min_token_size |
정수 |
1-(max_token_size-1) |
이 옵션은 토큰을 사전에 포함하려면 토큰에 들어 있어야 할 최소 문자 수를 지정합니다. 사전은 항목에 나오는 단어의 목록입니다. 이보다 적은 문자를 포함하는 토큰은 사전에서 제외됩니다. 기본값: 5 |
max_token_size |
integer |
1-100 |
토큰의 최대 문자 길이를 지정합니다. 이보다 많은 문자를 포함하는 토큰은 사전에서 제외됩니다. 사전은 항목에 나오는 단어의 목록입니다. 기본값: 35 |
unique_tokens |
정수 |
1-10 |
고급 중복 항목 검색을 수행하려면 사전에 들어 있어야 할 최소 고유 토큰 수를 지정합니다. 사전은 항목에 나오는 단어의 목록입니다. 고유 토큰 수가 이보다 적으면 전체 항목에 대해 체크섬이 계산됩니다. 기본값: 10 |
high_freq_cut |
실수 |
0.0-1.0 |
사전에서 제거할 빈도가 높은 토큰의 백분율(10진수)을 지정합니다. 사전은 항목에 나오는 단어의 목록입니다. 기본값: 0.1 |
low_freq_cut |
실수 |
0.0-1.0 |
사전에서 제거할 빈도가 낮은 토큰의 백분율(10진수)을 지정합니다. 사전은 항목에 나오는 단어의 목록입니다. 기본값: 0.2 |
예
다음은 일반적인 near_duplicate_detection 섹션을 지정하는 예입니다.
<section name='near_duplicate_detection'>
<attrib name="min_token_size" type="integer"> 5 </attrib>
<attrib name="max_token_size" type="integer"> 35 </attrib>
<attrib name="unique_tokens" type="integer"> 10 </attrib>
<attrib name="high_freq_cut" type="real"> 0.1 </attrib>
<attrib name="low_freq_cut" type="real"> 0.2 </attrib>
</section>
timeouts 옵션
이 옵션은 다양한 전역 크롤러 시간 초과 설정을 지정합니다.
옵션 | 형식 | 값 | 설명 |
---|---|---|---|
compaction_idle |
정수 |
1-3600 |
야간의 콘텐츠 저장소 조각 모음을 준비하기 위해 진행 중인 모든 크롤링 작업이 중지되는 시간 초과 기간(초)을 지정합니다. 이 시간에 유휴 상태가 아닌 사이트 관리자는 조각 모음을 시작하기 전에 중지해야 합니다. 기본값: 600 |
compaction_kill |
정수 |
1-3600 |
조각 모음을 수행하기 전에 사이트 관리자를 종료해야 하는 시간 초과 기간(초)을 지정합니다. 이 기간 동안 중지되지 않은 사이트 관리자는 중지됩니다. 기본값: 120 |
shutdown_fileserver |
정수 |
1-3600 |
파일 서버에 대한 종료 시간 초과 기간(초)을 지정합니다. 이 시간 초과 기간 내에 종료되지 않은 프로세스는 중지됩니다. 기본값: 10 |
shutdown_postprocess |
정수 |
1-3600 |
postprocess에 대한 종료 시간 초과 기간(초)을 지정합니다. 이 시간 초과 기간 내에 종료되지 않은 프로세스는 중지됩니다. 기본값: 300 |
shutdown_sitemanager |
정수 |
1-3600 |
사이트 관리자에 대한 종료 시간 초과 기간(초)을 지정합니다. 이 시간 초과 기간 내에 종료되지 않은 프로세스는 중지됩니다. 기본값: 300 |
예
다음은 일반적인 timeouts 섹션을 지정하는 예입니다.
<section name="timeouts">
<attrib name="compaction_idle" type="integer"> 600 </attrib>
<attrib name="compaction_kill" type="integer"> 120 </attrib>
<attrib name="shutdown_sitemanager" type="integer"> 300 </attrib>
<attrib name="shutdown_postprocess" type="integer"> 300 </attrib>
<attrib name="shutdown_fileserver" type="integer"> 10 </attrib>
</section>