SharePoint Server에서 크롤링에 대한 모범 사례
적용 대상:2013 2016 2019 Subscription Edition SharePoint in Microsoft 365
SharePoint Server의 크롤링 모범 사례에 대해 알아봅니다.
검색 시스템은 콘텐츠를 스크롤하여 사용자가 검색 쿼리를 실행할 수 있는 검색 인덱스를 작성합니다. 이 문서에는 크롤링을 보다 효과적으로 관리하는 방법이 제안되어 있습니다.
Microsoft 365에서 SharePoint에 대한 크롤링 및 다시 인덱싱을 수동으로 요청하는 방법에 대해 알아봅니다.
기본 콘텐츠 액세스 계정을 사용하여 대부분의 콘텐츠 크롤링
기본 콘텐츠 액세스 계정은 기본적으로 크롤링에 사용할 SharePoint Server Search 서비스에 대해 지정하는 도메인 계정입니다. 간단히 말해서 콘텐츠 원본에 지정된 콘텐츠를 가급적 많이 크롤링하려면 이 계정을 사용하는 것이 가장 좋습니다. 기본 콘텐츠 액세스 계정을 변경하려면 SharePoint Server에서 크롤링할 기본 계정 변경을 참조하세요.
보안상의 이유 등으로 특정 URL을 크롤링하는 데 기본 콘텐츠 액세스 계정을 사용할 수 없는 경우, 크롤링 규칙을 만들어 다음 대안 중 하나를 지정함으로써 크롤러를 인증할 수 있습니다.
다른 콘텐츠 액세스 계정
클라이언트 인증서
폼 자격 증명
크롤링용 쿠키
익명 액세스
자세한 내용은 SharePoint Server에서 크롤링 규칙 관리를 참조하세요.
효과적으로 콘텐츠 원본 사용
콘텐츠 원본은 다음 구성 요소를 각각 지정하는 데 사용하는 Search 서비스 애플리케이션의 옵션 집합입니다.
크롤링할 시작 주소 하나 이상
시작 주소의 콘텐츠 형식(예: SharePoint Server 사이트, 파일 공유 또는 기간 업무 데이터)입니다. 콘텐츠 원본에서 크롤링할 콘텐츠 형식은 하나만 지정할 수 있습니다. 예를 들어 하나의 콘텐츠 원본을 사용하여 SharePoint Server 사이트를 크롤링하고 다른 콘텐츠 원본을 사용하여 파일 공유를 크롤링합니다.
콘텐츠 원본이 지정하는 모든 콘텐츠 저장소에 적용될 전체 또는 증분 크롤링에 대한 크롤링 일정과 크롤링 우선 순위
Search Service 응용 프로그램을 만들면 검색 시스템에서 로컬 SharePoint 사이트라고 하는 콘텐츠 원본을 하나 자동으로 만들고 구성합니다. 미리 구성된 이 콘텐츠 원본은 사용자 프로필을 크롤링하고 Search 서비스 애플리케이션이 연결된 웹 애플리케이션의 모든 SharePoint Server 사이트를 크롤링하기 위한 것입니다. 이 콘텐츠 원본을 사용하여 SharePoint Server 2007 팜, SharePoint Server 2010 팜, SharePoint Server 2013 팜 또는 다른 SharePoint Server 팜을 비롯한 다른 SharePoint Server 팜의 콘텐츠를 크롤링할 수도 있습니다.
다음 작업을 수행하려는 경우 추가 콘텐츠 원본을 만듭니다.
다른 형식의 콘텐츠 크롤링
크롤링할 콘텐츠 양 제한 또는 증가
특정 콘텐츠의 크롤링 빈도를 더 높거나 낮게 조절
특정 콘텐츠 크롤링에 대해 다른 우선 순위를 설정합니다(이 요구 사항은 전체 및 증분 크롤링에는 적용되지만 연속 크롤링에는 적용되지 않음).
다른 일정에 따라 특정 콘텐츠 크롤링(이 요구 사항은 전체 및 증분 크롤링에 적용되지만 연속 크롤링에는 적용되지 않음)
그러나 관리 작업을 최대한 간편하게 유지하려면 만들고 사용하는 콘텐츠 원본의 수를 제한하는 것이 좋습니다.
콘텐츠 원본을 사용하여 크롤링 예약
미리 구성된 콘텐츠 원본 로컬 SharePoint 사이트를 편집하여 크롤링 일정을 지정할 수 있지만 기본적으로 크롤링 일정을 지정하지는 않습니다. 임의 콘텐츠 원본에서 크롤링을 수동으로 시작할 수 있지만 콘텐츠가 정기적으로 크롤링되려면 증분 크롤링을 예약하거나 연속 크롤링을 사용하도록 설정하는 것이 좋습니다.
다음과 같은 이유가 있는 경우 다른 콘텐츠 원본을 사용하여 서로 다른 일정으로 콘텐츠를 크롤링해 보세요.
서버 가동 중지 시간 및 최대 서버 사용률이 가장 높은 시간을 조정하기 위한 경우
속도가 느린 서버에 호스팅된 콘텐츠를 속도가 빠른 서버에 호스팅된 콘텐츠와 별도로 크롤링하기 위한 경우
좀 더 자주 업데이트되는 콘텐츠를 자주 크롤링하기 위한 경우
콘텐츠를 크롤링하면 콘텐츠를 호스팅하는 서버의 성능이 크게 줄어들 수 있습니다. 이 효과는 호스트 서버에 부하를 처리하기에 충분한 리소스(특히 CPU 및 RAM)가 있는지 여부에 따라 달라집니다. 따라서 크롤링 일정을 계획할 때 다음 모범 사례를 고려합니다.
콘텐츠를 호스팅하는 서버를 사용할 수 있고 서버 리소스에 대한 요구 사항이 적을 때 각 콘텐츠 원본의 크롤링을 예약합니다.
크롤링 서버 및 호스트 서버의 부하가 장시간에 걸쳐 분산되도록 크롤링 일정을 분산합니다. 크롤링 로그를 확인하여 각 콘텐츠 원본의 일반적인 크롤링 기간에 익숙해지면 이 방식으로 크롤링 일정을 최적화할 수 있습니다. 자세한 내용은 SharePoint Server에서 검색 진단 보기에서크롤링 로그를 참조하세요.
전체 크롤링은 필요할 경우에만 실행합니다. 자세한 내용은 SharePoint Server에서 크롤링 및 페더레이션 계획에서 전체 크롤링을수행하는 이유를 참조하세요. 크롤링 규칙 만들기와 같이 전체 크롤링을 적용해야 하는 모든 관리 변경의 경우 추가 전체 크롤링이 필요하지 않도록 다음 전체 크롤링 직전에 변경을 수행합니다. 자세한 내용은 SharePoint Server에서 크롤링 규칙 관리를 참조하세요.
SharePoint Server 사이트를 크롤링하기 전에 사용자 프로필 크롤링
기본적으로 팜의 첫 번째 Search Service 응용 프로그램에서 미리 구성된 콘텐츠 원본 로컬 SharePoint 사이트에는 최소한 다음의 두 시작 주소가 포함되어 있습니다.
https://webAppUrl
은 기존 웹 애플리케이션에 대해 지정된 기본 영역 URL을 크롤링하는 데 사용됩니다.sps3s://myWebAppUrl
사용자 프로필을 크롤링하기 위한 입니다.
그러나 "피플 검색"을 배포하는 경우 시작 주소 sps3s://myWebAppUrl
에 대한 별도의 콘텐츠 원본을 만들고 먼저 해당 콘텐츠 원본에 대해 크롤링을 실행하는 것이 좋습니다. 크롤링 실행이 완료된 후 검색 시스템에서 사용자의 이름을 표준화하는 목록을 생성하기 때문입니다. 따라서 한 사용자 이름이 한 검색 결과 집합에서 다양한 형식을 포함하면 해당 사용자에 대한 모든 결과가 결과 블록으로 알려진 단일 그룹에 표시됩니다. 예를 들어 검색 쿼리 "Anne Weiler"의 경우 Anne Weiler 또는 A. Weiler 또는 별칭 AnneW에서 작성한 모든 문서를 "Anne Weiler의 문서"라는 레이블이 지정된 결과 블록에 표시할 수 있습니다. 이와 마찬가지로 범주 중 하나가 "작성자"인 경우 이러한 모든 ID로 작성된 문서가 모두 구체화 패널의 "Anne Weiler" 제목 아래에 표시될 수 있습니다.
사용자 프로필을 크롤링한 다음 SharePoint Server 사이트를 크롤링하려면
이 절차를 수행하는 사용자 계정이 구성하려는 Search Service 응용 프로그램의 관리자인지 확인합니다.
SharePoint Server에서 사용자 검색 배포의 지침을 따릅니다. 이러한 지침의 일부로 다음 작업을 수행합니다.
사용자 프로필(프로필 저장소)을 크롤링하기 위한 콘텐츠 원본을 만듭니다. 해당 콘텐츠 원본에 People과 같은 이름을 지정할 수 있습니다. 새 콘텐츠 원본의 시작 주소 섹션에서 를 입력
sps3s:// myWebAppUrl
합니다. 여기서myWebAppUrl
은 내 사이트 호스트의 URL입니다.만든 피플 콘텐츠 원본에 대한 크롤링을 시작합니다.
미리 구성된 콘텐츠 원본 로컬 SharePoint 사이트에서 시작 주소를
sps3s://myWebAppUrl
삭제합니다.
사용자 콘텐츠 원본의 크롤링이 끝나면 2시간 정도 대기합니다.
콘텐츠 원본 로컬 SharePoint 사이트에 대한 첫 번째 전체 크롤링을 시작합니다.
연속 크롤링을 사용하여 최신 검색 결과 유지
연속 크롤링 사용은 SharePoint 사이트 형식의 콘텐츠 원본을 추가하거나 편집할 때 선택할 수 있는 크롤링 일정 옵션입니다. 연속 크롤링은 마지막 크롤링 이후에 추가, 변경 또는 삭제된 콘텐츠를 크롤링합니다. 연속 크롤링은 미리 정의된 시간 간격에 시작됩니다. 기본 간격은 15분마다이지만 Microsoft PowerShell을 사용하여 연속 크롤링이 더 짧은 간격으로 발생하도록 설정할 수 있습니다. 연속 크롤링이 자주 발생하기 때문에 자주 업데이트되는 SharePoint Server 콘텐츠의 경우에도 검색 인덱스 새로 고침을 보장하는 데 도움이 됩니다. 또한 특정 항목에 대한 오류를 반환하는 여러 크롤링 시도로 인해 증분 또는 전체 크롤링이 지연되지만 연속 크롤링은 오류를 반복적으로 반환하는 항목을 처리하거나 다시 시도하지 않으므로 연속 크롤링이 다른 콘텐츠를 크롤링하고 인덱싱 새로 고침에 기여할 수 있습니다. 이러한 오류는 연속 크롤링을 사용하도록 설정된 콘텐츠 원본에 대해 4시간마다 자동으로 실행되는 "정리" 증분 크롤링 중에 다시 시도됩니다. 증분 크롤링 중에 오류를 계속 반환하는 항목은 향후 증분 크롤링 중에 다시 시도되지만 오류가 해결될 때까지 연속 크롤링에서 선택되지 않습니다.
단일 연속 크롤링에는 연속 크롤링이 사용하도록 설정된 Search Service 응용 프로그램의 모든 콘텐츠 원본이 포함됩니다. 이와 마찬가지로 연속 크롤링 간격은 연속 크롤링이 사용하도록 설정된 Search Service 응용 프로그램의 모든 콘텐츠 원본에 적용됩니다. 자세한 내용은 SharePoint Server에서 연속 크롤링 관리를 참조하세요.
연속 크롤링를 수행하면 크롤러 및 크롤링 대상에 대한 로드가 증가합니다. 이와 같이 증가하는 리소스 사용량에 따라 계획을 세우고 수평 확장해야 합니다. 연속 크롤링을 사용하도록 설정한 각 대형 콘텐츠 원본에는 하나 이상의 프런트 엔드 웹 서버를 크롤링 전용 대상으로 구성하는 것이 좋습니다. 자세한 내용은 크롤링 로드 관리(SharePoint Server 2010)를 참조하세요.
크롤링 규칙을 사용하여 관련 없는 콘텐츠가 크롤링되지 않도록 제외
크롤링에는 리소스와 대역폭이 사용되므로 초기 배포 중에는 관련되어 있지 않을 수 있는 대량의 콘텐츠를 크롤링하는 것보다 관련되어 있다고 알려진 소량의 콘텐츠를 크롤링하는 편이 더 나을 수 있습니다. 다음과 같은 이유가 있는 경우 크롤링 규칙을 만들어 크롤링하는 콘텐츠의 양을 제한할 수 있습니다.
URL을 하나 이상 제외하여 관련 없는 콘텐츠가 크롤링되지 않도록 하기 위한 경우
URL 자체를 크롤링하지 않고 URL 링크를 크롤링하기 위한 경우. 이 정렬은 관련 콘텐츠를 포함하지 않지만 관련 콘텐츠에 대한 링크가 있는 사이트에 유용합니다.
기본적으로 크롤러는 물음표와 추가 매개 변수가 포함된 URL인 복잡한 URL을 따르지 않습니다( 예: http://contoso/page.aspx?x=y. 크롤러가 복잡한 URL을 따르도록 설정하면 크롤러가 예상보다 많거나 적절한 URL을 더 많이 수집할 수 있습니다. 이러한 과잉 동화로 인해 크롤러가 불필요한 링크를 수집하고, 크롤링 데이터베이스를 중복 링크로 채우고, 인덱스가 커질 수 있습니다.
이러한 방법은 서버 리소스 사용량과 네트워크 트래픽을 줄이는 데에는 도움이 될 수 있으며, 검색 결과의 관련성도 높일 수 있습니다. 초기 배포 후에 쿼리와 크롤링 로그를 검토하고, 필요 시 콘텐츠를 더 많이 포함하도록 콘텐츠 원본과 크롤링 규칙을 조정할 수 있습니다. 자세한 내용은 SharePoint Server에서 크롤링 규칙 관리를 참조하세요.
SharePoint Server 웹 애플리케이션의 기본 영역 크롤링
SharePoint Server 웹 애플리케이션의 기본 영역을 크롤링할 때 쿼리 프로세서는 쿼리가 수행되는 AAM(대체 액세스 매핑) 영역을 기준으로 하므로 검색 결과 URL을 자동으로 매핑하고 반환합니다. 이 설정을 사용하면 사용자가 검색 결과를 쉽게 보고 열 수 있습니다.
그러나 기본 영역 이외의 웹 응용 프로그램 영역을 크롤링하는 경우 쿼리 프로세서는 쿼리가 수행된 AAM 영역과 관련되도록 검색-결과 URL을 매핑하지 않습니다. 대신 검색 결과 URL은 크롤링된 기본 영역이 아닌 영역을 기준으로 합니다. 이 설정으로 인해 사용자는 검색 결과를 쉽게 보거나 열 수 없을 수 있습니다.
예를 들어 웹 응용 프로그램 WebApp1에 다음과 같은 AAM이 있다고 가정해 보겠습니다.
기본 | 공용 URL | 인증 공급자 |
---|---|---|
기본 | https://contoso |
Windows 인증: NTLM |
엑스트라넷 | https://fabrikam |
폼 기반 인증 |
인트라넷 | http://fabrikam |
Windows 인증: NTLM |
이제 기본 영역 https://contoso
인 를 크롤링한다고 가정합니다. 사용자가 에서 https://contoso/searchresults.aspx
쿼리를 수행하는 경우 WebApp1의 결과 URL은 모두 를 https://contoso
기준으로 하므로 형식 https://contoso/ _path_/ _result_.aspx
이 됩니다.
마찬가지로 쿼리가 엑스트라넷 영역에서 시작되는 경우 이 경우 https://fabrikam/searchresults.aspx—results
WebApp1의 는 모두 를 https://fabrikam
기준으로 하므로 형식 https://fabrikam/ _path_/ _result_.aspx
이 됩니다.
앞의 두 경우에서는 쿼리 위치와 검색-결과 URL 간에 영역이 일치하기 때문에 사용자가 다른 영역의 다른 보안 콘텐츠로 변경하지 않고도 검색 결과를 쉽게 열어서 볼 수 있습니다.
그러나 이제는 인트라넷 영역과 같은 기본이 아닌 영역을 http://fabrikam
크롤링한다고 가정합니다. 이 경우 임의 영역의 쿼리에서 WebApp1의 결과 URL은 항상 크롤링된 비기본 영역과 관련되어 있습니다. 즉, , https://fabrikam/searchresults.aspx
또는 http://fabrikam/searchresults.aspx
의 https://contoso/searchresults.aspx
쿼리는 크롤링된 기본 영역이 아닌 영역으로 시작하는 검색 결과 URL을 생성하므로 http://fabrikam/ _path_/ _result_.aspx
형식이 됩니다. 이 설정은 다음과 같은 예기치 않은 또는 문제가 있는 동작을 일으킬 수 있습니다.
사용자가 검색 결과를 열려고 하면 보유하고 있지 않은 자격 증명을 제공하라는 메시지가 표시될 수 있습니다. 예를 들어 엑스트라넷 영역의 폼 기반 인증 사용자에게는 Windows 인증 자격 증명이 없을 수 있습니다.
WebApp1의 결과는 HTTP를 사용하지만 사용자는 의
https://fabrikam/searchresults.aspx
엑스트라넷 영역에서 검색할 수 있습니다. 결과 SSL(보안 소켓 계층) 암호화를 사용하지 않으므로 사용자의 이 검색 작업은 보안에 영향을 줄 수 있습니다.크롤링된 URL 대신 기본 영역의 공용 URL에서 필터링하므로 구체화 시 제대로 필터링되지 않을 수 있습니다. 이 잘못된 필터링은 인덱스에서 URL 기반 속성이 크롤링된 기본이 아닌 URL을 기준으로 하기 때문입니다.
SharePoint Server 크롤링 대상에 대한 크롤링 효과 줄이기
다음 작업을 수행하여 SharePoint Server 크롤링 대상(즉, SharePoint Server 프런트 엔드 웹 서버)에 대한 크롤링 효과를 줄일 수 있습니다.
작은 SharePoint Server 환경의 경우 모든 크롤링 트래픽을 단일 SharePoint Server 프런트 엔드 웹 서버로 리디렉션합니다. 대규모 환경의 경우 모든 크롤링 트래픽을 특정 프런트 엔드 웹 서버 그룹으로 리디렉션합니다. 이러한 크롤링 리디렉션 패턴은 크롤러가 웹 페이지와 콘텐츠를 활성 사용자에게 렌더링하고 제공하는 데 사용되는 것과 동일한 리소스를 사용하지 못하도록 합니다.
크롤링 중에 크롤러가 공유 SQL Server 디스크 및 프로세서 리소스를 사용하지 못하도록 Microsoft SQL Server에서 검색 데이터베이스 사용을 제한합니다.
자세한 내용은 크롤링 로드 관리(SharePoint Server 2010)를 참조하세요.
크롤러 영향 규칙을 사용하여 크롤링의 영향 제한
크롤러의 영향을 제한하려면 Search_service_application_name: 검색 관리 페이지에서 사용할 수 있는 크롤러 영향 규칙을 만들 수도 있습니다. 크롤러 영향 규칙은 크롤러가 시작 주소 또는 시작 주소 범위에서 콘텐츠를 요청하는 속도를 지정합니다. 특히 크롤러 영향 규칙은 요청 사이에 대기하는 시간 없이 URL에서 한 번에 지정된 수의 문서를 요청하거나, URL에서 한 번에 문서 하나를 요청하고 지정된 시간만큼 대기했다가 다음 요청을 수행합니다. 각 크롤러 영향 규칙은 모든 크롤링 구성 요소에 적용됩니다.
조직의 서버의 경우 알려진 서버 성능 및 용량에 따라 크롤러 영향 규칙을 설정할 수 있습니다. 그러나 외부 사이트에는 이 설정이 불가능할 수 있습니다. 따라서 너무 많은 콘텐츠를 요청하거나 콘텐츠를 너무 자주 요청하여 외부 서버에서 너무 많은 리소스를 의도치 않게 사용할 수 있습니다. 이러한 높은 콘텐츠 사용으로 인해 해당 외부 서버의 관리자가 서버 액세스를 제한하여 해당 리포지토리를 크롤링하기가 어렵거나 불가능해질 수 있습니다. 따라서 인덱스의 새로 고침이 요구 사항을 충족하는지 확인하기에 충분한 콘텐츠를 충분히 자주 크롤링하는 동안 크롤러 영향 규칙을 외부 서버에 최대한 적게 적용하도록 설정합니다.
권한에 대해 개별 사용자 대신 Active Directory 그룹 사용
사용자 또는 그룹이 사이트에서 다양한 활동을 수행할 수 있는 기능은 할당한 권한 수준에 따라 결정됩니다. 사이트 권한에 대해 개별적으로 사용자를 추가하거나 제거하거나 SharePoint Server 그룹을 사용하여 사이트 권한을 지정하고 그룹의 멤버 자격을 변경하는 경우 크롤러는 변경 사항을 반영하도록 검색 인덱스의 영향을 받는 모든 항목을 업데이트하는 "보안 전용 크롤링"을 수행해야 합니다. 마찬가지로, 다른 사용자 또는 SharePoint Server 그룹으로 웹 애플리케이션 정책을 추가하거나 업데이트하면 해당 정책이 적용되는 모든 콘텐츠의 크롤링이 트리거됩니다. 이렇게 하면 크롤링 부하가 증가하고 검색 결과 새로 고침이 감소할 수 있습니다. 따라서 사이트 권한을 지정하려면 검색 인덱스에서 영향을 받는 항목을 업데이트하기 위해 크롤러가 필요하지 않으므로 AD DS(Active Directory Domain Services) 그룹을 사용하는 것이 가장 좋습니다.
다른 크롤링 구성 요소를 추가하여 내결함성 제공
Search Service 응용 프로그램을 만들면 기본 검색 토폴로지에 하나의 크롤링 구성 요소가 포함됩니다. 크롤링 구성 요소는 콘텐츠 저장소에서 항목을 검색한 후 크롤링 구성 요소를 호스팅하는 서버로 다운로드하고, 항목 및 관련 메타데이터를 콘텐츠 처리 구성 요소로 전달하며, 관련 크롤링 데이터베이스에 크롤링 관련 정보를 추가합니다. 다른 크롤링 구성 요소를 추가하면 내결함성을 제공할 수 있습니다. 하나의 크롤링 구성 요소를 사용할 수 없게 되면 나머지 크롤링 구성 요소가 모든 크롤링 작업을 인계 받습니다. 대부분의 SharePoint Server 팜의 경우 총 두 개의 크롤링 구성 요소로 충분합니다.
자세한 내용은 다음 문서를 참조하세요.
환경 리소스를 관리하여 크롤링 성능 개선
크롤러가 콘텐츠를 크롤링하고, 크롤링 서버(크롤링 구성 요소를 호스팅하는 서버)로 콘텐츠를 다운로드하며, 콘텐츠 처리 구성 요소에 콘텐츠를 제공할 때에는 몇 가지 요인 때문에 성능이 저하될 수 있습니다. 크롤링 성능을 향상시키기 위해 다음 작업을 수행할 수 있습니다.
잠재적인 성능 병목 현상을 해결하기 위한 방법 | 구현 솔루션 |
---|---|
크롤링된 서버의 응답 시간 낮추기 | 더 많은 CPU 및 RAM과 더 빠른 디스크 I/O 제공 |
네트워크 대역폭 줄이기 | 각 크롤링 서버에 초당 1기가비트 네트워크 어댑터 1~2개 설치 |
콘텐츠 처리 | 각 콘텐츠 처리 시 콘텐츠 처리 구성 요소와 CPU 리소스를 더 많이 제공 |
인덱스 구성 요소의 처리 속도 낮추기 | 인덱스 구성 요소를 호스팅하는 서버의 I/O 리소스 추가 |
자세한 내용은 다음 리소스를 참조하세요.
검색 토폴로지를 변경하기 전에 활성화된 크롤링이 없는지 확인
검색 토폴로지의 변경 작업을 시작하기 전에 진행 중인 크롤링이 없는지 확인하는 것이 좋습니다. 그렇지 않으면 토폴로지가 원활하게 변경되지 않을 수 있습니다.
필요한 경우 전체 또는 증분 크롤링을 수동으로 일시 중지하거나 중지할 수 있고, 연속 크롤링을 사용하지 않도록 설정할 수 있습니다. 자세한 내용은 다음 문서를 참조하세요.
참고
크롤링을 일시 중지하면 크롤링 구성 요소에 대한 참조가 검색 관리 데이터베이스의 MSSCrawlComponentsState
테이블에 남아 있을 수 있다는 단점이 있습니다. 이렇게 하면 크롤링 구성 요소를 제거하려는 경우 문제가 발생할 수 있습니다(예: 팜에서 해당 구성 요소를 호스트하는 서버를 제거하려는 경우). 그러나 크롤링을 중지하면 테이블의 크롤링 구성 요소에 MSSCrawlComponentsState
대한 참조가 삭제됩니다. 따라서 크롤링 구성 요소를 제거하려는 경우 크롤링을 일시 중지하는 것보다 크롤링을 중지하는 것이 좋습니다.
크롤링이 진행 중 _Search_service_application_name_: Manage Content Sources
인지 확인하려면 페이지에서 각 콘텐츠 원본에 대한 상태 필드의 값이 유휴 상태인지 일시 중지되었는지 확인합니다. 크롤링이 완료되었거나 크롤링을 중지하면 해당 콘텐츠 원본에 대한 상태 필드 값이 유휴로 변경됩니다.
팜에서 호스트를 제거하기 전에 크롤링 호스트에서 크롤링 구성 요소 제거
서버가 크롤링 구성 요소를 호스팅할 경우 팜에서 서버를 제거하면 검색 시스템이 콘텐츠를 크롤링하지 못할 수 있습니다. 따라서 팜에서 크롤링 호스트를 제거하기 전에 다음 작업을 수행하는 것이 좋습니다.
활성화된 크롤링이 없는지 확인합니다.
자세한 내용은 이전 섹션 검색 토폴로지를 변경하기 전에 활성화된 크롤링이 없는지 확인을 참조하세요.
해당 호스트에 있는 크롤링 구성 요소를 제거하거나 다시 배치합니다.
자세한 내용은 다음 리소스를 참조하세요.
SharePoint Server에서 검색 구성 요소 관리에서 검색 구성 요소 제거 또는 검색 구성 요소 이동
크롤링 구성을 변경하거나 업데이트를 적용한 후 크롤링 및 쿼리 기능 테스트
구성을 변경하거나 업데이트를 적용한 후에는 서버 팜에서 크롤링 및 쿼리 기능을 테스트하는 것이 좋습니다. 다음 절차에는 이러한 테스트를 가장 쉽게 수행할 수 있는 방법의 예제가 나와 있습니다.
크롤링 및 쿼리 기능을 테스트하려면
이 절차를 수행하는 사용자 계정이 구성하려는 Search Service 응용 프로그램의 관리자인지 확인합니다.
이 테스트에만 일시적으로 사용할 콘텐츠 원본을 만듭니다.
새 콘텐츠 원본의 시작 주소 섹션에 있는 아래의 시작 주소 입력(줄당 하나씩) 상자에서 인덱스에 없는 여러 항목(예: 파일 공유에 있는 여러 TXT 파일)이 포함된 시작 주소를 지정합니다. 자세한 내용은 SharePoint Server에서 콘텐츠 원본 추가, 편집 또는 삭제를 참조하세요.
해당 콘텐츠 원본의 전체 크롤링을 시작합니다.
자세한 내용은 Start, pause, resume, or stop a crawl in SharePoint Server을 참조하세요. 크롤링이 완료되면
_Search_service_application_name_: Manage Content Sources
페이지에서 콘텐츠 원본에 대한 상태 열의 값이 유휴 상태가 됩니다. 상태 열을 업데이트하려면 새로 고침을 클릭하여 콘텐츠 원본 관리 페이지를 새로 고칩니다.크롤링이 완료되면 검색 센터로 이동한 후 검색 쿼리를 수행하여 해당 파일을 찾습니다.
배포에 검색 센터가 아직 없는 경우 SharePoint Server에서 검색 센터 사이트 만들기를 참조하세요.
테스트가 끝난 후에 임시 콘텐츠 원본을 삭제합니다.
이 작업은 테스트를 완료한 후 검색 결과에 표시되지 않도록 검색 인덱스에서 해당 콘텐츠 원본에 지정된 항목을 제거합니다.
크롤링 로그 및 크롤링 상태 보고서를 사용하여 문제 진단
크롤링 로그는 크롤링된 콘텐츠의 상태 관련 정보를 추적합니다. 이 로그에는 콘텐츠 원본, 호스트, 오류, 데이터베이스, URL 및 내역에 대한 보기가 포함되어 있습니다. 예를 들어 이 로그를 사용하여 콘텐츠 원본에서 마지막으로 성공한 크롤링 시간, 크롤링된 콘텐츠가 인덱스에 추가되었는지 여부, 크롤링 규칙 때문에 크롤링된 콘텐츠가 제외되었는지 여부 또는 오류로 인해 크롤링에 실패했는지 여부를 확인할 수 있습니다.
크롤링 상태 보고서는 크롤링 속도, 크롤링 대기 시간, 크롤링 최신성, 콘텐츠 처리, CPU 및 메모리 부하, 연속 크롤링, 크롤링 큐에 대한 자세한 정보를 제공합니다.
크롤링 로그 및 크롤링 상태 보고서를 사용하여 검색 환경의 문제를 진단할 수 있습니다. 진단 정보는 콘텐츠 원본, 크롤링 규칙, 크롤러 영향 규칙, 크롤링 구성 요소 및 크롤링 데이터베이스와 같은 요소를 조정하는 데 유용한지 파악하는 데 도움이 될 수 있습니다.
자세한 내용은 SharePoint Server에서 검색 진단 보기를 참조하세요.