SharePoint Server의 크롤링 및 페더레이션 계획
적용 대상:2013 2016 2019 Subscription Edition SharePoint in Microsoft 365
사용자가 SharePoint Server에서 검색을 수행하려면 먼저 사용자가 검색할 수 있는 콘텐츠를 크롤링하거나 페더레이션해야 합니다. 콘텐츠를 크롤링할 때 Search Service에서 사용자가 쿼리(검색 요청)를 실행할 수 있는 검색 인덱스를 작성합니다. 또한 Bing과 같은 외부 공급자의 검색 결과를 로컬 검색 인덱스의 결과와 함께 표시하도록 Search 시스템을 구성할 수 있습니다. 외부 공급자의 검색 결과를 가져와 로컬로 표시하는 프로세스를 페더레이션이라고 합니다.
콘텐츠 원본 계획
콘텐츠 원본은 크롤링할 호스트, 크롤링되는 콘텐츠 형식(예: SharePoint 콘텐츠 또는 파일 공유), 크롤링 일정, 크롤링 수준과 같은 크롤링 설정 그룹의 정의입니다.
Search Service 응용 프로그램을 만들면 이 응용 프로그램에서 미리 구성된 콘텐츠 원본인 로컬 SharePoint 사이트를 자동으로 제공합니다. 이 콘텐츠 원본을 사용하여 Search Service 응용 프로그램과 연결되는 웹 응용 프로그램에서 모든 SharePoint 콘텐츠를 크롤링하는 방법을 지정할 수 있습니다.
콘텐츠 형식이 하나뿐인 경우(예: 모든 콘텐츠의 형식이 SharePoint 사이트 또는 파일 공유인 경우)에는 콘텐츠 원본을 하나만 정의해야 할 수 있습니다. 그러나 서로 다른 콘텐츠 형식이 있거나 호스트별로 고유한 요구 사항이 적용되는 경우에는 여러 콘텐츠 원본을 정의할 수 있습니다. 다음을 수행해야 하는 경우 콘텐츠 원본 만들기를 추가로 계획하도록 합니다.
여러 형식의 콘텐츠를 크롤링해야 하는 경우(예: 파일 공유 및 LOB(기간 업무) 응용 프로그램의 데이터)
일부 콘텐츠를 다른 콘텐츠와 다른 일정으로 크롤링해야 하는 경우
크롤링되는 콘텐츠의 양 제한 또는 증대
다른 사이트 크롤링을 위해 다른 우선 순위를 설정해야 하는 경우
일부 콘텐츠 형식을 다른 형식보다 최신 상태로 유지해야 하는 경우
각 Search Service 응용 프로그램에서 많은 수의 콘텐츠 원본을 만들 수 있지만 각 콘텐츠 원본에 대해 오버헤더가 발생합니다. 따라서 다른 운영 요구 사항(예: 크롤링 우선 순위 및 크롤링 일정의 차이)를 충족하는 최소 개수의 콘텐츠 원본을 만드는 것이 좋습니다. 각 콘텐츠 원본에는 시작 주소를 최대 100개 포함할 수 있습니다.
서로 다른 형식의 콘텐츠 크롤링 계획
콘텐츠 원본당 한 가지 형식의 콘텐츠만 크롤링할 수 있습니다. 예를 들어 SharePoint 사이트의 시작 주소가 포함된 콘텐츠 원본과 파일 공유의 시작 주소가 포함된 콘텐츠 원본을 별도로 만들 수는 있지만, SharePoint 사이트의 시작 주소와 파일 공유의 시작 주소가 모두 포함된 단일 콘텐츠 원본은 만들 수 없습니다. 다음 표에는 구성 가능한 콘텐츠 원본 형식이 나와 있습니다.
**이런 종류의 콘텐츠 원본 사용 | 콘텐츠 |
---|---|
SharePoint 사이트 | 동일하거나 서로 다른 SharePoint Server 팜의 SharePoint 사이트 동일한 팜 또는 다른 SharePoint Server 2019, SharePoint Server 2016, SharePoint Server 2013, SharePoint Server 2010, SharePoint Foundation 2010 또는 Microsoft Search Server 2010 팜의 SharePoint 사이트 동일하거나 서로 다른 Office SharePoint Server 2007, Windows SharePoint Services 3.0 또는 Search Server 2008 팜의 SharePoint 사이트 |
웹 사이트 | SharePoint 사이트에 없는 조직의 기타 웹 콘텐츠 인터넷 웹 사이트의 콘텐츠 |
파일 공유 | 조직 내 파일 공유에 있는 콘텐츠 보안 참고 사항: Search 서비스가 파일 공유를 크롤링할 때 공유의 파일에 대한 권한이 파일이 포함된 폴더에 대한 사용 권한과 다른 경우 파일에 대한 사용 권한이 우선하며 검색 결과의 보안 트리밍에 사용됩니다. 따라서 적절한 항목만 검색 결과에 표시하려면 파일 공유에 있는 파일에 대한 사용 권한이 적절한지 확인해야 합니다. 파일 사용 권한이 적절하지 않은 경우 검색 인덱스 또는 검색 결과에서 특정 항목을 삭제할 수 있습니다. 자세한 내용은 SharePoint Server의 검색 인덱스 또는 검색 결과에서 항목 삭제를 참조하세요. |
Exchange 공용 폴더 | Exchange 2007 및 Exchange Server 2010 공용 폴더 |
Lotus Notes | Lotus Notes 데이터베이스에 저장된 메일 메시지 메모: 다른 모든 종류의 콘텐츠 원본과 달리 Lotus Notes 콘텐츠 원본 옵션은 적절한 필수 구성 요소 소프트웨어를 설치하고 구성할 때까지 사용자 인터페이스에 표시되지 않습니다. 자세한 내용은 SharePoint Server용 Lotus Notes 커넥터 구성 및 사용을 참조하세요(SharePoint Server 에도 적용됨). |
Documentum | EMC Documentum 시스템의 콘텐츠 메모: 적절한 필수 구성 요소 소프트웨어와 Documentum용 Microsoft SharePoint 인덱싱 커넥터를 설치하고 구성하기 전에는 EMC Documentum 콘텐츠를 크롤링할 수 없습니다. 자세한 내용은 SharePoint Server에서 Documentum 커넥터 구성 및 사용을 참조하세요(SharePoint Server 에도 적용됨). |
LOB(기간 업무) 데이터 | LOB(기간 업무) 응용 프로그램에 저장된 비즈니스 데이터 |
사용자 지정 저장소 | 사용자 지정 커넥터를 설치 및 구성해야 크롤링할 수 있는 콘텐츠 원본 |
LOB(기간 업무) 데이터의 콘텐츠 원본
비즈니스 데이터 콘텐츠 원본은 데이터를 호스트하는 응용 프로그램이 Business Data Connectivity 서비스 응용 프로그램의 응용 프로그램 모델에 지정되어 있어야 합니다. 콘텐츠 원본 하나를 만들어 Business Data Connectivity Service에 등록된 모든 응용 프로그램을 크롤링할 수도 있고 서로 다른 콘텐츠 원본을 만들어 개별 응용 프로그램을 크롤링할 수도 있습니다. 자세한 내용은 SharePoint 2013에서 커넥터 프레임워크 검색 을 참조하세요(이 MSDN 문서는 SharePoint Server에도 적용됨).
비즈니스 데이터를 사이트 모음으로 통합하려는 사용자가 전체 콘텐츠 계획 프로세스에 관여하지 않는 경우가 종종 있습니다. 따라서 비즈니스 응용 프로그램 데이터를 콘텐츠에 통합하는 방법 및 사이트 모음에 이를 효과적으로 표시하는 방법과 관련하여 도움을 얻을 수 있도록 비즈니스 응용 프로그램 관리자를 콘텐츠 계획 팀에 포함하십시오.
다른 일정으로 콘텐츠 크롤링
다음과 같은 경우 서로 다른 일정으로 콘텐츠 원본 크롤링을 정의할 수 있습니다.
가동 중지 시간 및 사용률 최대 시간을 조정하기 위한 경우
자주 업데이트되는 콘텐츠 크롤링 빈도를 높이기 위한 경우
속도가 느린 서버에 있는 콘텐츠를 속도가 빠른 서버에 있는 콘텐츠와 별도로 크롤링하기 위한 경우
최신 콘텐츠에 대한 수요가 높아 SharePoint 콘텐츠 원본을 지속적으로 크롤링하기 위한 경우. 자세한 내용은 SharePoint Server에서 연속 크롤링 관리를 참조하세요.
전체 크롤링 수행 이유
Search Service 응용 프로그램 관리자가 하나 이상의 콘텐츠 원본에 대해 전체 크롤링을 수행하는 이유는 다음과 같습니다.
Search Service 응용 프로그램을 방금 만들고 미리 구성된 콘텐츠 원본 로컬 SharePoint 사이트를 아직 크롤링하지 않았습니다.
일부 다른 콘텐츠 원본이 아직 크롤링되지 않은 새 콘텐츠 원본입니다.
Search Service 응용 프로그램 관리자가 콘텐츠 원본을 변경했습니다.
소프트웨어 업데이트 또는 서비스 팩이 팜의 서버에 설치되었습니다. 자세한 내용은 소프트웨어 업데이트 또는 서비스 팩에 대한 지침을 참조하세요.
Search Service 응용 프로그램 관리자 또는 사이트 모음 관리자가 관리 속성을 추가하거나 변경했습니다. 새 관리 속성이나 변경된 관리 속성이 적용되려면 모든 관련 콘텐츠 원본에 대해 전체 크롤링을 수행해야 합니다.
파일 공유의 마지막 전체 크롤링 이후 파일 공유의 로컬 그룹에 대한 보안 변경 내용을 검색하려고 합니다.
연속된 증분 크롤링의 실패 문제를 해결하려고 합니다. 특정 콘텐츠에 대한 증분 크롤링이 연속해서 여러 번 실패하면 관련 콘텐츠가 검색 인덱스에서 제거됩니다.
크롤링 규칙이 추가, 삭제 또는 수정되었습니다.
손상된 검색 인덱스를 대체하려고 합니다.
기본 콘텐츠 액세스 계정에 할당된 사용자 계정에 대한 권한이 변경되었습니다.
다음과 같은 상황에서는 증분 크롤링 또는 연속 크롤링이 예약된 경우에도 전체 크롤링이 수행됩니다.
검색 관리자가 이전 크롤링을 중지한 경우
콘텐츠 데이터베이스가 복원되었거나, 팜 관리자가 콘텐츠 데이터베이스를 분리했다가 다시 연결한 경우
이 Search Service 응용 프로그램에서 콘텐츠 원본에 대한 전체 크롤링이 수행된 적이 없는 경우
크롤링 데이터베이스에 크롤링되는 주소에 대한 항목이 없는 경우. 크롤링 데이터베이스에 크롤링되는 항목에 대한 항목이 없으면 증분 크롤링을 수행할 수 없습니다.
크롤링되는 콘텐츠의 양 제한 또는 증대
각 콘텐츠 원본의 속성에서 사용할 수 있는 옵션은 선택하는 콘텐츠 원본 형식에 따라 다릅니다. 크롤링 설정 옵션을 사용하여 크롤링되는 콘텐츠의 양을 제한하거나 늘릴 수 있습니다. 각 콘텐츠 원본에서는 시작 주소를 크롤링할 범위를 지정할 수 있습니다. 대부분의 콘텐츠 원본 형식에서는 각 시작 주소에서 크롤링되는 계층 구조 내의 깊이 수준을 지정합니다. 이 동작은 특정 콘텐츠 원본의 모든 시작 주소에 적용됩니다. 일부 사이트를 더 깊은 수준에서 크롤링해야 하는 경우 해당 사이트를 포함하는 다른 콘텐츠 원본을 추가로 만들 수 있습니다. 다음 표에는 크롤링 설정 옵션을 구성할 경우의 모범 사례가 설명되어 있습니다.
콘텐츠 원본 종류 | 해당하는 경우 | 다음 크롤링 설정 옵션 사용 |
---|---|---|
SharePoint 사이트 | 사이트 자체에 콘텐츠를 포함하고 하위 사이트의 콘텐츠는 포함하지 않으려는 경우 또는 하위 사이트의 콘텐츠를 다른 일정으로 크롤링하려는 경우 | 각 시작 주소의 SharePoint 사이트만 크롤링 |
SharePoint 사이트 | 사이트 자체에 콘텐츠를 포함하려는 경우 -또는- 시작 주소 아래의 모든 콘텐츠를 같은 일정으로 크롤링하려는 경우 |
각 시작 주소의 호스트 이름 아래에 있는 모든 항목 크롤링 |
웹 사이트 | 연결된 사이트에서 사용할 수 있는 콘텐츠가 관련성이 없는 경우 | 각 시작 주소의 서버 내부만 크롤링 |
웹 사이트 | 관련 콘텐츠가 첫 페이지에만 있는 경우 | 각 시작 주소의 첫 페이지만 크롤링 |
웹 사이트 | 시작 주소에서 링크를 크롤링하는 수준을 제한하려는 경우 | 사용자 지정 - 크롤링할 페이지 수준 및 서버 홉 수 지정 참고: 페이지 수준을 3단계 넘게 지정하거나 서버 홉 수를 3개 넘게 지정하면 인터넷 전체를 크롤링할 수 있으므로 연결이 많은 사이트에서는 적은 수로 시작하는 것이 좋습니다. |
파일 공유 Exchange 공용 폴더 |
하위 폴더에서 사용할 수 있는 콘텐츠가 관련성이 없는 경우 | 각 시작 주소의 폴더만 크롤링 |
파일 공유 Exchange 공용 폴더 |
하위 폴더의 콘텐츠가 관련성이 있는 경우 | 각 시작 주소의 폴더와 모든 하위 폴더 크롤링 |
비즈니스 데이터 | 비즈니스 데이터 카탈로그 메타데이터 저장소에 등록된 모든 응용 프로그램에 관련 콘텐츠가 포함된 경우 | 전체 비즈니스 데이터 카탈로그 메타데이터 저장소 크롤링 |
비즈니스 데이터 | BDC 메타데이터 저장소에 등록된 일부 응용 프로그램에 관련 콘텐츠가 포함되지 않은 경우 -또는- 일부 응용 프로그램을 다른 일정으로 크롤링하려는 경우 |
선택한 응용 프로그램 크롤링 |
커넥터 계획
크롤러는 커넥터(이전 버전의 SharePoint Server에서 "프로토콜 처리기"라고 함)를 사용하여 콘텐츠를 획득하고 인덱싱합니다. 가장 일반적으로 사용되는 프로토콜의 경우 SharePoint Server는 적절한 커넥터를 제공하고 자동으로 사용합니다. 기본적으로 제공되지 않는 커넥터가 필요한 콘텐츠를 크롤링하려면 먼저 타사 커넥터를 설치하거나 사용자 지정 커넥터를 작성해야 합니다. 기본적으로 설치된 커넥터 목록은 SharePoint Server의 기본 커넥터(SharePoint Server 에도 적용됨)를 참조하세요.
콘텐츠 원본을 계획할 때 고려할 기타 사항
SharePoint 사이트 같이 유형이 동일한 콘텐츠 저장소의 경우 콘텐츠 원본을 하나 이상 사용할 것인지에 대한 결정이 대개 관리 방식에 따라 크게 좌우됩니다. 좀 더 간편하게 관리하려면 콘텐츠 원본과 크롤링 규칙, 크롤링 일정을 손쉽게 업데이트할 수 있도록 콘텐츠를 구성하세요.
동일한 Search 서비스 애플리케이션에서 여러 콘텐츠 원본을 사용하여 동일한 시작 주소를 크롤링할 수 없습니다. 예를 들어 특정 콘텐츠 원본을 사용하여 사이트 모음 및 해당 사이트 모음의 모든 하위 사이트를 크롤링하는 경우 별도의 콘텐츠 원본을 사용하여 해당 하위 사이트 중 하나를 다른 일정으로 크롤링할 수는 없습니다.
관리자는 콘텐츠 원본을 업데이트하는 경우가 많습니다. 콘텐츠 원본을 변경하는 경우 해당 콘텐츠 원본에 대해 전체 크롤링을 수행해야 합니다. 따라서 필요한 경우 동시에 여러 전체 크롤링을 실행할 수 있도록 별도의 콘텐츠 원본을 만드는 것이 좋습니다. 따라서 특정 콘텐츠 원본에 대한 전체 크롤링은 시간이 덜 걸립니다.
크롤링 최적화를 위한 크롤링 규칙 계획
크롤링 규칙은 Search Service 응용 프로그램의 모든 콘텐츠 원본에 적용됩니다. 크롤링 규칙을 특정 URL 또는 URL 집합에 적용하여 다음을 수행할 수 있습니다.
URL을 하나 이상 제외하여 관련 없는 콘텐츠가 크롤링되지 않도록 방지할 수 있습니다. URL을 제외하면 서버 리소스 사용량 및 네트워크 트래픽이 줄어듭니다.
URL 자체를 크롤링하지 않고 URL의 링크를 크롤링할 수 있습니다. 이 옵션은 관련성 있는 콘텐츠에 대한 링크는 있지만 링크가 포함된 페이지에는 관련 정보가 없는 사이트에 유용합니다.
복합 URL을 크롤링하도록 설정할 수 있습니다. 이 옵션을 사용하면 시스템에서 물음표로 지정한 쿼리 매개 변수가 포함된 URL을 크롤링할 수 있습니다. 사이트에 따라서는 이러한 URL에 관련 콘텐츠가 포함되어 있지 않을 수도 있습니다. 복합 URL은 관련 없는 사이트로 리디렉션되는 경우가 많기 때문에 복합 URL의 콘텐츠가 관련 있는 것으로 확인된 사이트에서만 이 옵션을 사용하는 것이 좋습니다.
SharePoint 사이트의 콘텐츠를 HTTP 페이지로 크롤링할 수 있도록 설정합니다. 이 옵션을 사용하면 검색 시스템에서 방화벽 뒤에 있거나 크롤링 중인 사이트가 크롤러(검색 토폴로지의 크롤링 구성 요소)에서 사용되는 웹 서비스에 대한 액세스를 제한하는 시나리오에서 SharePoint 사이트를 크롤링할 수 있습니다.
지정된 URL을 크롤링할 때 기본 콘텐츠 액세스 계정, 다른 콘텐츠 액세스 계정 또는 클라이언트 인증서 중 어느 것을 사용할지 지정할 수 있습니다.
콘텐츠 크롤링에는 리소스와 대역폭이 사용되므로 관련성이 떨어질 수 있는 대량의 콘텐츠보다는 관련성이 확실한 소량의 콘텐츠를 포함하는 것이 좋습니다. 초기 배포 후 쿼리 및 크롤링 로그를 검토하여 콘텐츠의 관련성을 높이고 보다 많은 콘텐츠가 포함되도록 콘텐츠 원본과 크롤링 규칙을 조정할 수 있습니다.
크롤러 인증 계획
크롤러는 콘텐츠 원본에 표시된 시작 주소에 액세스할 때 해당 콘텐츠를 호스팅하는 서버의 인증을 받고 해당 서버에 대한 액세스 권한을 부여받아야 합니다. 기본적으로 시스템에서는 기본 콘텐츠 액세스 계정을 사용합니다. 또는 크롤링 규칙을 사용하여 특정 콘텐츠를 크롤링할 때 사용할 다른 콘텐츠 액세스 계정을 지정할 수 있습니다. 기본 콘텐츠 액세스 계정을 사용하든 아니면 크롤링 규칙에 따라 지정되는 다른 콘텐츠 액세스 계정을 사용하든 사용하는 콘텐츠 액세스 계정에는 크롤링되는 모든 콘텐츠에 대한 읽기 이상의 권한이 있어야 합니다. 콘텐츠 액세스 계정에 읽기 권한이 없는 경우에는 콘텐츠가 크롤링 및 인덱싱되지 않으므로 쿼리에 사용할 수 없습니다.
기본 콘텐츠 액세스 계정으로 지정하는 계정에는 크롤링되는 대부분의 콘텐츠에 대한 액세스 권한이 있는 것이 좋습니다. 다른 액세스 계정은 보안 고려 사항에 따라 별도의 콘텐츠 액세스 계정이 필요한 경우에만 사용하십시오.
계획한 각 콘텐츠 원본에 대해 기본 콘텐츠 액세스 계정으로 액세스할 수 없는 시작 주소를 확인하고, 해당 시작 주소에 대한 크롤링 규칙을 추가하도록 계획을 세우세요.
중요
기본 콘텐츠 액세스 계정이나 다른 모든 콘텐츠 액세스 계정에 사용되는 도메인 계정은 크롤링할 웹 응용 프로그램에 연결된 응용 프로그램 풀에서 사용하는 도메인 계정과 달라야 합니다. 같을 경우 SharePoint 사이트의 게시되지 않은 콘텐츠 및 SharePoint 사이트의 부 버전 파일(기록)이 크롤링 및 인덱싱될 수 있습니다.
또 다른 중요한 고려 사항은 크롤러가 호스트 서버와 동일한 인증 방법을 사용해야 한다는 점입니다. 기본적으로 크롤러는 NTLM을 사용하여 인증합니다. 필요한 경우 다른 인증 프로토콜을 사용하도록 크롤러를 구성할 수 있습니다.
클레임 기반 인증을 사용하는 경우 크롤링할 모든 웹 응용 프로그램에서 Windows 인증을 사용하도록 설정해야 합니다.
콘텐츠 처리 계획
크롤러는 콘텐츠 원본에 지정된 콘텐츠 저장소를 크롤링한 다음 크롤링된 항목의 콘텐츠 및 메타데이터를 콘텐츠 처리 구성 요소로 공급합니다. 그러면 콘텐츠 처리 구성 요소는 크롤링 속성을 읽고 구문 분석하여 검색 관리 데이터베이스에 보고합니다.
검색 스키마를 편집하여 속성 설정을 구성하고 크롤링 속성을 관리 속성에 매핑할 수 있습니다. 콘텐츠 처리 구성 요소는 이 검색 스키마를 읽고 매핑을 수행하는 데 사용합니다. 검색 인덱스에는 관리 속성만 포함됩니다. 관리 속성은 구체화 만들기 등에 사용할 수 있습니다. 자세한 내용은 SharePoint Server의 검색 스키마 개요를 참조하세요.
파일 형식 포함 또는 제외
모든 파일 형식의 콘텐츠를 검색 인덱스에 포함할 수 있습니다. 그러나 콘텐츠를 인덱싱하려면 먼저 크롤링 구성 요소가 크롤링한 다음 콘텐츠 처리 구성 요소가 구문 분석해야 합니다. 크롤링 구성 요소는 이름 확장명이 파일 형식 관리 페이지의 파일 이름 확장명 목록에 포함된 경우에만 파일을 크롤링할 수 있습니다. 콘텐츠 처리 구성 요소는 다음과 같은 경우에만 크롤링된 파일 내용을 구문 분석할 수 있습니다.
콘텐츠 처리 구성 요소에 파일 형식을 구문 분석할 수 있는 형식 처리기가 있는 경우
콘텐츠 처리 구성 요소가 파일 형식과 파일 이름 확장명이 포함된 파일을 구문 분석할 수 있도록 설정된 경우
콘텐츠 처리 구성 요소가 파일을 구문 분석할 수 없는 경우 검색 인덱스에는 파일 이름과 같은 파일 속성만 포함됩니다.
기본적으로 SharePoint Server는 다양한 형식의 파일에 대해 이러한 요구 사항을 충족하며 추가 형식 처리기를 설치하지 않고도 이러한 파일 형식을 크롤링하고 구문 분석할 수 있습니다. 파일 형식에 대한 개요는 SharePoint Server의 기본 크롤링 파일 이름 확장명 및 구문 분석된 파일 형식을 참조하세요.
참고
iFilters라고 하는 타사 필터 기반 형식 처리기를 추가하여 SharePoint Server에서 구문 분석할 수 있는 파일 형식의 초기 컬렉션을 확장할 수 있습니다. 타사 iFilter는 기본 제공 형식 처리기를 재정의할 수 있습니다.
파일 형식이 파일 형식 관리 페이지에 없는 콘텐츠 저장소의 콘텐츠를 검색 인덱스에 포함하려는 경우 다음을 검토하세요.
파일 형식을 크롤링하려면 파일 형식 관리 페이지에 파일 형식을 추가합니다.
파일 형식을 구문 분석하려면 다음과 같이 합니다.
SharePoint Server에 형식에 대한 형식 처리기가 없는 경우 Search Service 응용 프로그램에서 콘텐츠 처리 구성 요소를 호스트하는 각 서버에 파일 형식에 대한 타사 필터 기반 형식 처리기를 설치합니다.
Search Service 응용 프로그램에서 콘텐츠 처리 구성 요소를 호스트하는 각 서버에서 파일 형식과 파일 이름 확장명을 구문 분석할 수 있게 합니다.
자세한 내용은 Add or remove a file type from the search index in SharePoint Server을 참조하세요.
사용자 지정 엔터티 추출기 사용 계획
본문 텍스트나 문서 제목 등의 구조화되지 않은 콘텐츠에서 "엔터티"를 찾도록 검색 시스템을 구성할 수 있습니다. 이러한 엔터티는 제품 이름 등의 단어나 구일 수 있습니다. 찾을 엔터티를 지정하려면 직접 사전을 만들어서 배포하면 됩니다.
추출된 엔터티는 검색 인덱스에서 별도의 관리 속성으로 저장되며, 이 속성은 자동으로 검색 가능, 쿼리 가능, 검색 가능, 정렬 가능 및 구체화되도록 구성됩니다. 예를 들어 검색 구체화에서 이러한 속성을 사용하여 사용자가 검색 결과를 필터링할 수 있습니다.
회사의 경우에는 SharePoint Server에서 제공하는 미리 채워진 회사 추출 사전을 사용할 수 있습니다.
사용자 지정 엔터티 추출 사전 형식으로 다양한 유형의 사용자 지정 엔터티 추출기를 배포할 수도 있습니다. Microsoft PowerShell을 사용하여 이러한 사전을 배포합니다. 이러한 사전의 항목(한 단어 또는 여러 단어)이 콘텐츠의 단어 또는 단어 일부분과 일치하는지를 대/소문자를 구분하거나 구분하지 않고 확인합니다. 자세한 내용은 SharePoint Server에서 사용자 지정 엔터티 추출기 만들기 및 배포를 참조하세요.
사용자 지정 엔터티 추출기/사전 | 설명 |
---|---|
단어 추출 | 최대 5개 사전(대/소문자 구분 안 함). 예를 들어 "anchor" 항목은 "anchor" 및 "Anchor"와는 일치하지만 "anchorage"와는 일치하지 않습니다. |
단어 부분 추출 | 최대 5개 사전(대/소문자 구분 안 함). 예를 들어 "anchor" 항목은 "anchor" 및 "Anchor"와 일치하며 "anchorage"와 부분 일치합니다. |
일치하는 단어 추출 | 최대 1개 사전(대/소문자 구분). 예를 들어 "anchor" 항목은 "anchor"와 일치하며 "Anchor" 또는 "Anchorage"와는 일치하지 않습니다. |
일치하는 단어 부분 추출 | 최대 1개 사전(대/소문자 구분). 예를 들어 "anchor" 항목은 "anchor"와 일치하며 "anchorage"와 부분 일치하지만 "Anchor"와는 일치하지 않습니다. |
결과 원본 및 페더레이션 정보
SharePoint Server에서는 결과 원본을 사용하여 검색 결과를 가져올 공급자의 URL, 해당 결과를 가져오는 데 사용할 프로토콜 및 기타 관련 설정을 지정합니다. 예를 들어 미리 구성된 기본 결과 원본은 로컬 SharePoint 결과입니다.
검색 결과를 가져올 외부 검색 공급자(예: 원격 검색 엔진 또는 피드)를 지정하는 결과 원본을 추가할 수 있습니다. 이를 페더레이션이라고 합니다.
페더레이션 정보
페더레이션을 사용할 경우 사용자는 로컬 팜의 서버에서 크롤링하지 않은 콘텐츠를 검색하고 가져올 수 있습니다. 예를 들어 페더레이션은 Bing과 같은 웹 검색 공급자 또는 크롤링하기 위한 권한이 없는 개인 데이터 집합으로부터 검색 결과를 제공할 수 있습니다.
페더레이션은 또한 자체 검색 인덱스가 있는 다양한 위치의 콘텐츠에 대해 검색 액세스 권한을 제공하려는 지리적으로 분산된 조직에 적합한 솔루션이 될 수 있습니다. 각 위치가 자체 인덱스에서 검색 결과를 제공하므로 통합된 단일 인덱스를 작성하고 액세스하는 중앙 집중식 검색 서비스를 배포할 필요는 없습니다. 이 컨텍스트에서는 페더레이션이 다음과 같은 이점을 제공할 수 있습니다.
낮은 대역폭 요구 사항 - 지리적으로 분산된 조직에는 많은 양의 원격 콘텐츠를 크롤링하고 인덱싱하는 데 필요한 높은 네트워크 대역폭이 없을 수 있습니다. 조직이 페더레이션을 사용할 경우 WAN을 통한 검색을 위해 주로 전송되는 데이터는 페더레이션된 각 콘텐츠 저장소에서 가져온 검색 결과 집합에 불과합니다.
검색 결과의 새로 고침 - 조직 내의 각 부서에서 중앙 집중식 검색 배포가 전체 조직의 모든 콘텐츠를 크롤링할 수 있는 것보다 더 빠르게 로컬 콘텐츠를 크롤링할 수 있습니다.
부서별 검색 가변성 - 조직에서 페더레이션을 사용하는 경우 조직 내의 각 부서가 자체 검색 환경을 제공하고 제어할 수 있습니다. 예를 들어 각 부서는 자체의 사용자 환경 및 검색 커넥터를 사용하여 자체의 요구 사항 및 선호도에 맞게 검색을 조정할 수 있습니다. 중앙 집중식 검색 포털은 이러한 차이를 허용하지 않습니다.
검색 인덱스의 크기 제한 - 지리적으로 분산된 대규모 조직에는 수백만 개의 문서가 있을 수 있습니다. 이러한 큰 인덱스를 지원하는 데 필요한 인프라 때문에 조직이 통합된 단일 검색 인덱스를 보유하는 것은 불가능할 수 있습니다. 페더레이션을 사용하여 각 부서의 사용자는 단일 검색을 통해 조직의 보다 작은 검색 인덱스에서 분산된 관련 콘텐츠를 찾을 수 있습니다.
페더레이션의 결과 원본 사용
SharePoint Server에서 페더레이션을 사용하려면 결과 원본 추가/편집 페이지의 프로토콜 섹션에서 다음 프로토콜 중 하나를 선택합니다.
선택한 프로토콜 | 페더레이션된 검색 결과를 가져올 공급자 종류 |
---|---|
원격 SharePoint | 다른 SharePoint Server 팜의 검색 서비스 인덱스 |
OpenSearch 1.0/1.1 | Bing과 같은 OpenSearch 프로토콜을 사용하는 외부 검색 엔진 또는 피드 |
Exchange | Exchange Server 2013 |
참고
결과 원본 추가/편집 페이지에서 앞에 표시된 표의 프로토콜 중 하나를 선택하는 경우 결과 원본을 완전히 지정하기 위해 페이지의 기타 관련 필드도 채워야 합니다.
참고 항목
SharePoint Server에서 검색에 대한 결과 원본 이해
SharePoint Server에서 검색에 대한 결과 원본 구성
Manage crawling in SharePoint Server
Default connectors in SharePoint Server