다음을 통해 공유


crawlerglobaldefaults.xml 참조

 

적용 대상: FAST Search Server 2010

마지막으로 수정된 항목: 2015-03-09

crawlerglobaldefaults.xml 을 사용하여 모든 크롤링 모음에 적용되는 FAST Search 웹 크롤러 구성 옵션을 지정할 수 있습니다. 구성 옵션에는 DNS, 콘텐츠 전송, 중복된 항목 검색 및 기타 전역 설정이 포함됩니다. 이 파일을 수정하는 작업은 고급 기능이며 드문 경우에 한해 사용합니다.

경고

다음과 같은 경우에는 이 파일에서 변경한 모든 내용이 덮어쓰이고 손실됩니다.

  • Set-FASTSearchConfiguration Windows PowerShell cmdlet을 실행하는 경우

  • FAST Search Server 2010 for SharePoint 업데이트나 서비스 팩을 설치하는 경우

변경한 내용이 손실되지 않도록 하려면 파일을 수정한 후 백업해야 합니다.
Set-FASTSearchConfiguration Windows PowerShell cmdlet을 실행하거나 FAST Search Server 2010 for SharePoint 업데이트 또는 서비스 팩을 설치한 후에는 변경 내용을 다시 적용해야 합니다.

FAST Search 웹 크롤러는 시작 시 <FASTSearchFolder>\etc\(여기서 *<FASTSearchFolder>*는FAST Search Server 2010 for SharePoint를 설치한 폴더의 경로(예: C:\FASTSearch))에서 이름이 지정된 crawlerglobaldefaults.xml 파일을 찾습니다. NodeConf.xml에서 crawler.exe 실행 파일에 -F <path> 인수를 전달(NodeConf.xml을 편집한 후 nctrl.exe를 다시 시작하거나 nctrl.exe reloadcfg를 실행)하여 이 위치를 재정의할 수 있습니다.

crawlerglobaldefaults.xml 파일을 찾을 수 없는 경우 FAST Search 웹 크롤러는 이 파일에서 지정 가능한 설정의 값을 기본값으로 되돌립니다. 일부 설정은 crawler.exe 명령줄에서 재정의할 수 있습니다. 자세한 내용은 crawler.exe 참조를 참조하십시오.

crawlerglobaldefaults.xml 사용자 지정

참고

구성 파일을 수정하려면 FAST Search Server 2010 for SharePoint가 설치된 컴퓨터에서 FASTSearchAdministrators 로컬 그룹의 구성원이어야 하는 최소 요구 사항을 만족하는지 확인합니다.

이 파일을 편집하려면

  1. 범용 XML 텍스트 편집기가 아닌 텍스트 편집기에서 crawlerglobaldefaults.xml 을 편집합니다. <FASTSearchFolder>\etc\ 에 있는 기존 파일을 사용합니다. 사용해야 할 요소와 설정을 포함합니다.

  2. nctrl.exe restart crawler를 실행하여 1단계에서 설정한 옵션으로 FAST Search 웹 크롤러 프로세스를 다시 시작합니다.

FAST Search 웹 크롤러를 다중 노드 크롤러로 실행하는 경우 크롤러가 실행되는 각 서버에서 이 파일을 편집해야 합니다. 또한 다중 노드 스케줄러에서 nctrl.exe restart multinodescheduler를 실행하고 노드 스케줄러를 실행하는 서버에서 nctrl.exe restart nodescheduler를 실행하여 각 크롤러를 다시 시작해야 합니다.

crawlerglobaldefaults.xml 빠른 참조

다음 표에는 crawlerglobaldefaults.xml의 요소가 나와 있습니다. 모든 섹션과 특성을 포함해야 하는 GlobalConfig와 attribute 요소 내에만 포함할 수 있는 member를 제외한 다른 모든 요소는 어떠한 순서로도 나올 수 있습니다.

요소 설명

CrawlerConfig

이 루트 요소는 파일을 FAST Search 웹 크롤러 구성 파일로 식별합니다.

GlobalConfig

이 요소는 파일을 FAST Search 웹 크롤러의 전역 구성 설정 파일로 식별합니다.

attrib

이 하위 요소는 요소의 값이나 구성원 요소 집합으로 구성 설정을 지정하며 형식은 다음과 같습니다.

<attrib name="name" type="string|integer|real|boolean"> value </attrib>

member

이 하위 요소는 attrib 요소 내에만 포함할 수 있습니다. 목록 형식으로 구성 설정을 지정하며 형식은 다음과 같습니다.

<attrib name="name" type="list-string">   
  <member> first value </member>
  ..
  <member> last value </member>
</attrib>

section

이 하위 요소는 형식별로 그룹화된 여러 설정을 포함합니다.

다음 표에는 crawlerglobaldefaults.xml의 옵션이 나와 있습니다.

옵션 설명

GlobalConfig 옵션

이 옵션은 GlobalConfig 요소 내에서 유효합니다.

feeding 옵션

이 옵션은 "feeding"이라는 section 요소 내에서 유효합니다. 이 옵션은 콘텐츠 인덱싱으로 웹 항목을 전송하는 특성을 구성합니다.

dns 옵션

이 특성은 크롤러의 내부 DNS 확인자와 관련된 설정을 지정합니다.

near_duplicate_detection 옵션

이 옵션은 유사 중복 판별 알고리즘이 설정된 모음에 대해 이 알고리즘을 구성합니다.

timeouts 옵션

이 옵션은 전역 크롤러 시간 초과 설정을 지정합니다.

crawlerglobaldefaults.xml 파일 형식

crawlerglobaldefaults.xml 의 XML 요소는 <로 시작해서 />로 끝납니다.

기본 요소 형식은 다음과 같습니다.

<attrib name=" " type=" "> </attrib>

예를 들면 다음과 같습니다.

<attrib name="sitemanager_numsites" type="integer" > 1024 </attrib>

요소, 섹션 이름, 특성 및 특성 값은 대/소문자를 구분합니다. 특성 이름과 형식은 따옴표(" ")로 묶어야 합니다. 요소 정의는 여러 줄에 입력할 수 있습니다. 요소 정의에서 공백, 캐리지 리턴, 라인 피드 및 탭 문자는 무시됩니다.

예를 들면 다음과 같습니다.

<attrib
    name="sitemanager_numsites"
    type="integer"
> 1024 </attrib
>

매개 변수 정의가 긴 경우 값을 여러 줄에 배치하고 들여쓰기를 사용하여 파일을 알아보기 쉽게 만듭니다.

<GlobalConfig> 요소는 특수한 경우이며 필수 요소입니다. 다른 모든 요소는 <GlobalConfig> 요소 내에 포함되며 이 요소는</GlobalConfig>.를 사용하여 닫습니다.

crawlerglobaldefaults.xml 파일의 기본 구조는 다음과 같습니다.

<?xml version="1.0"?>
<CrawlerConfig>
    <GlobalConfig>
        ...
    </GlobalConfig>
</CrawlerConfig>

<!---->로 구분하여 어디에든 주석을 추가할 수 있습니다.

CrawlerConfig

이 요소는 최상위 요소이며 특성은 가지지 않습니다.

GlobalConfig

이 요소는 전역 크롤러 구성을 포함합니다. 특성은 가지지 않습니다.

attrib

이 하위 요소는 단일 값으로 또는 member 요소를 사용하여 목록 형식으로 구성 옵션을 지정합니다.

특성

특성 설명

name

옵션 이름

구성할 옵션을 지정합니다. 올바른 옵션은 이 항목 뒷부분에 나오는 옵션 섹션을 참조하십시오.

type

string|integer|real|boolean|list-string

옵션 값의 형식을 지정합니다.

  • string - 문자열 형식의 옵션 값을 지정합니다.

  • integer - 정수 형식의 옵션 값을 지정합니다.다른 설명이 없는 한 정수 범위는 0-2^31입니다.

  • real - 실수 형식의 옵션 값을 지정합니다. 다른 설명이 없는 한 실수 범위는 0-2^63입니다.

  • boolean - 부울 형식의 옵션 값을 지정합니다. 올바른 부울 값은 "yes"와 "no"입니다.

  • list-string - 하나 이상의 member 요소로 지정된 값 목록 형식으로 옵션 값을 지정합니다.

type 특성의 값은 name 특성에 대해 지정된 옵션과 관련된 type과 일치해야 합니다. 예를 들어 numprocs 옵션은 항상 integer 형식과 함께 사용해야 합니다.

다음은 numprocs 옵션에 대해 2를 지정하는 예입니다.

<attrib name="numprocs" type="integer"> 2 </attrib>

member

이 요소는 옵션 값 목록 형식으로 요소를 지정합니다. 특성은 가지지 않습니다.

member 요소는 attrib 요소 내에서만 사용할 수 있습니다.

다음은 browser_engines 옵션에 대해 두 개의 Browser Engine을 지정하는 예입니다.

<attrib name="browser_engines" type="list-string">
    <member> hostname1:13045 </member>
    <member> hostname2:13045 </member>
</attrib>

section

이 하위 요소는 관련 옵션 집합을 그룹화합니다. section 요소는 attrib 요소를 포함합니다.

특성

특성

설명

name

이름

섹션의 이름을 지정합니다. 지원되는 섹션은 이 항목 뒷부분의 옵션 표에 나와 있습니다.

다음은 timeout 옵션만 지정하여 DNS 옵션을 구성하는 예입니다.

<section name="dns">
    <attrib name="timeout" type="integer"> 30 </attrib>
</section>

GlobalConfig 옵션

이 옵션은 GlobalConfig 요소 내에서 유효합니다.

옵션 형식 설명

browser_engines

목록-문자열

호스트 이름:포트

Browser Engine 목록입니다. 크롤러는 이러한 엔진을 사용하여 JavaScript가 포함된 웹 페이지를 처리합니다.

기본값: 설치 관리자를 통해 자동으로 구성됩니다.

datadir

문자열

디렉터리

크롤러 콘텐츠 저장소의 위치입니다. crawler.exe에 -d 옵션을 전달하여 재정의할 수 있습니다.

dbtrace

부울

yes|no

데이터베이스 작업 추적을 설정/해제합니다. 디버깅에만 해당합니다.

기본값: no

directio

부울

yes|no

사후 처리 및 중복 서버에서 직접 I/O를 설정/해제합니다.

기본값: no

disk_resume_threshold

실수

1-2^63

disk_suspend_threshold에 도달하여 크롤링이 이미 일시 중단된 경우 크롤러가 모든 모음에 대한 크롤링을 다시 시작하게 되는 임계값(바이트)입니다.

기본값: 629145600

disk_suspend_threshold

실수

1-2^63

크롤러가 모든 모음에 대한 크롤링을 일시 중단하게 되는 임계값(바이트)입니다.

기본값: 524288000

dns_resolver_threads

정수

1-64

최대 DNS 스레드 수입니다. 많은 수의 호스트 이름을 크롤링하는 중에 이 값을 늘리면 DNS 확인 성능이 향상될 수 있습니다.

기본값: 5

dns_use_platform_api

부울

yes|no

DNS 이름이나 NetBIOS 이름을 확인하는 데 OS gethostbyname API를 사용할지 아니면 내부 확인자를 사용할지를 지정합니다.

내부 DNS 확인자는 향상된 성능과 확장성을 제공하지만 NetBIOS 이름은 지원하지 않습니다.

기본값: yes

duplicate_servers

목록-문자열

호스트 이름:포트

중복 서버 목록입니다.

기본값: 설치 관리자를 통해 자동으로 구성됩니다.

logdir

문자열

디렉터리

크롤러 로그의 위치입니다. crawler.exe에 -l 옵션을 전달하여 재정의할 수 있습니다.

logfile_ttl

정수

1-2^31

순서대로 기록된 로그 파일을 삭제하기 전에 보관할 기간(일)입니다.

기본값: 365

numprocs

정수

1-8

시작할 사이트 관리자 프로세스의 수입니다.

기본값: 2

ppdup_dbformat

문자열

hastlog|diskhashlog|gigabase

다중 노드 FAST Search 웹 크롤러 배포의 중복 서버에서 사용하는 데이터베이스 형식입니다.

기본값: hashlog

rc_update_freq

정수

1-3600

모니터링 서비스에 대한 크롤링 통계 업데이트 빈도(초)를 지정합니다.

기본값: 120

sitemanager_numsites

정수

1-1024

사이트 관리자당 최대 사이트 작업자 수입니다.

기본값: 1024

store_cleanup

문자열

hh:mm

일일 저장소 정리가 수행되는 시간(24시간제)입니다.

기본값: 04:00

xmlrpcport

정수

포트 번호

크롤러 기준 포트입니다. crawler.exe에 -p 옵션을 전달하여 재정의할 수 있습니다.

다음은 다양한 형식의 옵션을 지정하는 예입니다.

<attrib name="ipv4" type="boolean"> yes </attrib>
<attrib name="numprocs" type="integer"> 2 </attrib>
<attrib name="disk_resume_threshold" type="real"> 629145600 </attrib>
<attrib name="browser_engines" type="list-string">
    <member> localhost:13045 </member>
</attrib>s

feeding 옵션

다음 옵션은 feeding이라는 section 요소 내에서 유효합니다. 이 옵션은 콘텐츠 인덱싱으로 웹 항목을 전송하는 특성을 구성합니다.

옵션 형식 설명

feeder_threads

정수

1-8

시작할 콘텐츠 피더 스레드 수를 지정합니다. 대규모 시나리오의 경우 스레드 수를 늘려 성능을 향상시킬 수 있습니다.

참고

<FASTSearchFolder>\data\crawler\store\dsqueues 디렉터리가 비어 있을 때만 변경해야 합니다.

기본값: 1

fs_threshold

정수

0-2^31

인덱싱을 위해 일괄로 보낼 항목의 최대 크기를 지정합니다. 이 값보다 큰 항목은 URL 참조로 전송되며 항목 처리기는 이러한 참조를 크롤러에서 개별적으로 다운로드합니다.

기본값: 128

max_batch_datasize

정수

0-2^31

일괄 처리당 최대 바이트 수를 지정합니다. 최대 일괄 처리 데이터 크기를 줄이면 항목 처리기의 메모리 사용량이 줄어듭니다.

기본값: 50MB

max_batch_size

정수

1-1024

각 일괄 처리 전송에 포함되는 최대 항목 수입니다. 항목 수가 이보다 적거나 일괄 처리의 메모리 크기가 너무 커지면 이보다 작은 일괄 처리가 전송될 수 있습니다.

최대 일괄 처리 크기를 줄이면 항목 처리기의 메모리 사용량은 줄어들지만 성능이 저하될 수 있습니다.

기본값: 128

max_cb_timeout

정수

1-3600

종료하는 동안 콘텐츠 인덱싱의 미해결 콜백을 대기할 최대 시간(초)입니다.

기본값: 1800

다음은 일반적인 feeding 섹션을 지정하는 예입니다.

<section name="feeding">
  <attrib name="feeder_threads" type="integer"> 1 </attrib>
  <attrib name="max_cb_timeout" type="integer"> 1800 </attrib>
  <attrib name="max_batch_size" type="integer"> 128 </attrib>
  <attrib name="max_batch_datasize" type="integer"> 52428800 </attrib>
  <attrib name="fs_threshold" type="integer"> 128 </attrib>
</section>

dns 옵션

이 특성은 크롤러의 내부 DNS 확인자와 관련된 설정을 지정합니다. 단일 노드 설치에서 노드 스케줄러는 호스트 이름을 확인하도록 DNS에 요청합니다. 다중 노드 설치에서는 이 작업을 다중 노드 스케줄러가 수행합니다.

옵션 형식 설명

db_cachesize

정수

1-2^31

DNS 데이터베이스 캐시 크기(바이트)입니다. 다중 노드 스케줄러는 이 크기의 네 배를 사용합니다.

기본값: 10485760

ipv4

부울

yes|no

크롤러가 호스트 이름을 IPv4 주소로 확인하도록 할지 여부를 지정합니다.

기본값: yes

ipv6

부울

yes|no

크롤러가 호스트 이름을 IPv6 주소로 확인하도록 할지 여부를 지정합니다.

기본값: yes

max_rate

정수

1-200

초당 실행할 최대 DNS 요청 수입니다.

기본값: 100

max_retries

정수

1-10

포기하기 전에 실패한 조회에 대해 다시 실행할 최대 DNS 재시도 횟수입니다.

기본값: 5

min_rate

정수

1-10

초당 실행할 최소 DNS 요청 수입니다.

기본값: 5

min_ttl

정수

1-2^31

확인된 이름을 다시 확인하기 전까지의 확인된 이름의 최소 수명(초)입니다.

기본값: 21600

timeout

정수

1-300

다시 시도하기 전까지의 DNS 요청 시간 초과(초)입니다.

기본값 30

min_rate, max_rate, max_retriestimeout 설정은 OS DNS 확인자 대신 내부 DNS 확인자를 사용하는 경우에만 적용됩니다. 이 설정을 제어하는 dns_use_platform_api 옵션을 참조하십시오. ip4ipv6yes로 지정해야 합니다 .

다음은 일반적인 DNS 섹션을 지정하는 예입니다.

<section name="dns">
  <attrib name="min_rate" type="integer"> 5 </attrib>
  <attrib name="max_rate" type="integer"> 100 </attrib>
  <attrib name="max_retries" type="integer"> 5 </attrib>
  <attrib name="timeout" type="integer"> 30 </attrib>
  <attrib name="min_ttl" type="integer"> 21600 </attrib>
  <attrib name="db_cachesize" type="integer"> 10485760 </attrib>
  <attrib name="ipv4 " type="integer"> yes </attrib>
  <attrib name="ipv6 " type="integer"> yes </attrib>
</section>

near_duplicate_detection 옵션

중복에 가까운 항목 검색은 모음별로 설정합니다. 중복에 가까운 항목 검색은 공백 단어 구분 기호를 사용하는 언어(예: 서양 언어)에서만 작동합니다. 이 옵션은 유사 중복 판별 알고리즘이 설정되어 있는 모음에 대해 이 알고리즘을 구성합니다.

옵션 형식 설명

min_token_size

정수

1-(max_token_size-1)

이 옵션은 토큰을 사전에 포함하려면 토큰에 들어 있어야 할 최소 문자 수를 지정합니다. 사전은 항목에 나오는 단어의 목록입니다. 이보다 적은 문자를 포함하는 토큰은 사전에서 제외됩니다.

기본값: 5

max_token_size

integer

1-100

토큰의 최대 문자 길이를 지정합니다. 이보다 많은 문자를 포함하는 토큰은 사전에서 제외됩니다. 사전은 항목에 나오는 단어의 목록입니다.

기본값: 35

unique_tokens

정수

1-10

고급 중복 항목 검색을 수행하려면 사전에 들어 있어야 할 최소 고유 토큰 수를 지정합니다. 사전은 항목에 나오는 단어의 목록입니다. 고유 토큰 수가 이보다 적으면 전체 항목에 대해 체크섬이 계산됩니다.

기본값: 10

high_freq_cut

실수

0.0-1.0

사전에서 제거할 빈도가 높은 토큰의 백분율(10진수)을 지정합니다. 사전은 항목에 나오는 단어의 목록입니다.

기본값: 0.1

low_freq_cut

실수

0.0-1.0

사전에서 제거할 빈도가 낮은 토큰의 백분율(10진수)을 지정합니다. 사전은 항목에 나오는 단어의 목록입니다.

기본값: 0.2

다음은 일반적인 near_duplicate_detection 섹션을 지정하는 예입니다.

<section name='near_duplicate_detection'>
  <attrib name="min_token_size" type="integer"> 5 </attrib>
  <attrib name="max_token_size" type="integer"> 35 </attrib>
  <attrib name="unique_tokens" type="integer"> 10 </attrib>
  <attrib name="high_freq_cut" type="real"> 0.1 </attrib>
  <attrib name="low_freq_cut" type="real"> 0.2 </attrib>
</section>

timeouts 옵션

이 옵션은 다양한 전역 크롤러 시간 초과 설정을 지정합니다.

옵션 형식 설명

compaction_idle

정수

1-3600

야간의 콘텐츠 저장소 조각 모음을 준비하기 위해 진행 중인 모든 크롤링 작업이 중지되는 시간 초과 기간(초)을 지정합니다.

이 시간에 유휴 상태가 아닌 사이트 관리자는 조각 모음을 시작하기 전에 중지해야 합니다.

기본값: 600

compaction_kill

정수

1-3600

조각 모음을 수행하기 전에 사이트 관리자를 종료해야 하는 시간 초과 기간(초)을 지정합니다. 이 기간 동안 중지되지 않은 사이트 관리자는 중지됩니다.

기본값: 120

shutdown_fileserver

정수

1-3600

파일 서버에 대한 종료 시간 초과 기간(초)을 지정합니다. 이 시간 초과 기간 내에 종료되지 않은 프로세스는 중지됩니다.

기본값: 10

shutdown_postprocess

정수

1-3600

postprocess에 대한 종료 시간 초과 기간(초)을 지정합니다. 이 시간 초과 기간 내에 종료되지 않은 프로세스는 중지됩니다.

기본값: 300

shutdown_sitemanager

정수

1-3600

사이트 관리자에 대한 종료 시간 초과 기간(초)을 지정합니다. 이 시간 초과 기간 내에 종료되지 않은 프로세스는 중지됩니다.

기본값: 300

다음은 일반적인 timeouts 섹션을 지정하는 예입니다.

<section name="timeouts">
  <attrib name="compaction_idle" type="integer"> 600 </attrib>
  <attrib name="compaction_kill" type="integer"> 120 </attrib>
  <attrib name="shutdown_sitemanager" type="integer"> 300 </attrib>
  <attrib name="shutdown_postprocess" type="integer"> 300 </attrib>
  <attrib name="shutdown_fileserver" type="integer"> 10 </attrib>
</section>

See Also

Reference

crawler.exe 참조

Concepts

웹 크롤러 XML 구성 참조