Поделиться через


Планирование обхода контента и федерации в SharePoint Server

ОБЛАСТЬ ПРИМЕНЕНИЯ:yes-img-132013 yes-img-162016 yes-img-192019 yes-img-seSubscription Edition no-img-sopSharePoint в Microsoft 365

Прежде чем пользователи смогут выполнять поиск в SharePoint Server, необходимо выполнить обход или федерацию содержимого, которое должно быть в состоянии поиска. При выполнении обхода контента служба поиска создает индекс для выполнения запросов (запросов поиска). Также вы можете настроить систему поиска для отображения результатов от внешнего поставщика (например, Bing) наряду с результатами из индекса локального поиска. Процесс получения результатов поиска от внешнего провайдера и их локального отображения называется федерацией.

Планирование источников контента

Источник контента определяется группой параметров обхода, например, узлов, для которых необходимо выполнить обход, типа контента, для которого будет выполняться обход (например, контента SharePoint или общих файловых ресурсов), расписания обхода и его глубины.

При создании приложения службы поиска оно автоматически предоставляет предварительно настроенные Локальные сайты SharePoint источника контента. С помощью этого источника контента вы можете настроить порядок обхода всего контента SharePoint в веб-приложениях, связанных с определенным приложением службы поиска.

При наличии только одного типа контента (например, весь контент относится к типу сайтов SharePoint или общим файловым ресурсам) необходимо определить только один источник контента. Но при наличии нескольких различных типов контента или уникальных требований для узла может потребоваться определить несколько источников контента. Планируйте создание дополнительных источников контента, если необходимо выполнить следующие действия.

  • Обход различных типов контента, например общих файловых ресурсов и данных в бизнес-приложениях.

  • Обход некоторых типов контента по расписанию, не совпадающему с расписанием для другого контента.

  • Ограничение или увеличение объема контента, для которого выполняется обход

  • Установка различных приоритетов для обхода различных сайтов

  • Более частое обновление определенных типов контента

Можно создать большое количество источников контента в каждом приложении службы поиска, но с каждым источником содержимого связаны определенные затраты. Поэтому мы рекомендуем создать наименьшее количество источников контента, которые соответствуют другим рабочим требованиям, например различиям в приоритете обходов контента и их планировании. Каждый источник контента может содержать до 100 начальных адресов.

Планирование обхода различных типов контента

Для каждого источника контента можно выполнить обход только одного типа контента. Например, можно создать источник контента, содержащий начальные адреса для сайтов SharePoint, и другой источник контента, содержащий начальные адреса для общих папок, но нельзя создать один источник контента, содержащий начальные адреса для сайтов SharePoint и общих папок. В следующей таблице перечислены типы источников содержимого, которые можно настроить.

**Используйте этот тип источника контента Для этого контента
Сайты SharePoint Сайты SharePoint из одной и той же фермы или различных ферм SharePoint Server.

Сайты SharePoint из одной фермы или разных ферм SharePoint Server 2019, SharePoint Server 2016, SharePoint Server 2013, SharePoint Server 2010, SharePoint Foundation 2010 или Microsoft Search Server 2010.

Сайты SharePoint из одной и той же фермы или различных ферм Office SharePoint Server 2007, Windows SharePoint Services 3.0 или Search Server 2008.

Веб-сайты Другой веб-контент организации, расположенный не на сайтах SharePoint.

Контент на веб-сайтах в Интернете

Общие файловые ресурсы Контент организации на общих файловых ресурсах.

Примечание по безопасности: Если служба поиска сканирует общую папку, если разрешения на файл в общей папке отличаются от разрешений для папок, содержащих файл, разрешения на файл имеют приоритет и используются для обрезки результатов поиска по безопасности. Таким образом, чтобы отобразить в результатах поиска только соответствующие элементы, убедитесь в наличии соответствующих разрешений на файлы в общих файловых ресурсах. В случаях отсутствия этих разрешений вы можете удалить определенные элементы из индекса поиска или результатов поиска. Дополнительные сведения см. в статье Удаление элементов из индекса поиска или результатов поиска в SharePoint Server.
Общедоступные папки Exchange Общие папки Exchange 2007 и Exchange Server 2010.
Lotus Notes Сообщения электронной почты, хранящиеся в базах данных Lotus Notes.

Заметка: В отличие от всех других источников контента, параметр источник содержимого Lotus Notes не отображается в пользовательском интерфейсе до тех пор, пока не будет установлено и настроено соответствующее необходимое программное обеспечение. Дополнительные сведения см. в статье Настройка и использование соединителя Lotus Notes для SharePoint Server (также относится к SharePoint Server).

Documentum Контент в системе EMC Documentum.

Заметка: Вы не сможете сканировать содержимое EMC Documentum до установки и настройки соответствующего необходимого программного обеспечения и соединителя индексирования Microsoft SharePoint для Documentum. Дополнительные сведения см . в статье Настройка и использование соединителя Documentum в SharePoint Server (также относится к SharePoint Server).

Бизнес-данные Бизнес-данные, хранящиеся в бизнес-приложениях.
Настраиваемый репозиторий Источники контента, обход которых выполняется только после установки и регистрации настраиваемого соединителя.

Источники контента для бизнес-данных

Источники контента бизнес-данных требуют указания приложений, где размещаются эти данные, в модели приложения в приложении службы подключения к бизнес-данным. Вы можете создать один источник контента для обхода всех приложений, зарегистрированных в службе подключения к бизнес-данным, либо отдельные источники контента для обхода отдельных приложений. Дополнительные сведения см. в статье Платформа соединителя поиска в SharePoint 2013 (эта статья MSDN также относится к SharePoint Server).

Часто люди, планирующие интеграцию бизнес-данных в семейства веб-сайтов, не связаны с планированием общего использования контента. Поэтому следует включить администраторов бизнес-приложений в группы по планированию контента, чтобы они могли давать советы относительно интеграции данных бизнес-приложений в контент и эффективного представления этих данных в семействах сайтов.

Обход контента в соответствии с различными расписаниями

Рекомендуется определить источники контента с различными расписаниями по следующим причинам:

  • Согласование периодов простоя и периодов пиковой нагрузки.

  • Более частое выполнение обхода контента, который чаще обновляется.

  • Обход контента, расположенного на более медленных серверах, отдельно от контента, расположенного на быстрых серверах.

  • постоянный обход источника контента SharePoint из-за высокой потребности в актуализации. Дополнительные сведения см. в статье Управление непрерывными обходами контента в SharePoint Server.

Основания для выполнения полного обхода контента

К основаниям, по которым администратор приложения службы поиска может выполнить полный обход контента, относятся следующие.

  • Приложение службы поиска было только что создано, а обход предварительно настроенных Локальных сайтов SharePoint еще не выполнен.

  • Иной источник контента является новым, а его обход еще не выполнен.

  • Администратор приложения службы поиска изменил источник контента.

  • На серверах в ферме были установлены обновление программного обеспечения или пакет обновления. Дополнительные сведения см. в инструкциях к этому обновлению программного обеспечения или пакету обновления.

  • Администратор приложения службы поиска или администратор семейства сайтов добавил или изменил управляемое свойство. Полный обход контента требуется для того, чтобы это новое или измененное управляемое свойство вступило в силу.

  • Вы хотите определить, какие изменения были внесены в систему безопасности для локальных групп в файловом ресурсе после его полного обхода.

  • Вы хотите устранить постоянные ошибки добавочных обходов. Если происходит много последовательных сбоев таких обходов для любого определенного типа контента, система удаляет соответствующий контент из индекса поиска.

  • Были добавлены, удалены или изменены правила обхода.

  • Вы хотите заменить поврежденный индекс поиска.

  • Изменились разрешения для учетной записи пользователя, назначенной для доступа к контенту по умолчанию.

В следующих ситуациях система выполняет полный обход контента даже при наличии запланированного добавочного обхода или непрерывного обхода:

  • Администратор поиска остановил предыдущий обход контента.

  • Была восстановлена база данных контента или администратор фермы отключил или подключил базу данных контента.

  • Из этого приложения службы поиска никогда не выполнялся полный обход источника контента.

  • База данных обхода контента не содержит записи для адресов, для которых выполняется обход контента. Без таких записей выполнение добавочных обходов невозможно.

Ограничение или увеличение объема контента, для которого выполняется обход

Параметры, доступные в свойствах каждого источника контента, разнятся в зависимости от типа источника. Можно ограничить или увеличить объем контента, просматриваемого при обходе, с помощью параметров обхода. Для каждого источника контента можно определить, какие области будут просматриваться при обходе начальных адресов. Большинство типов источников контента позволяют указать число уровней иерархии, которые просматриваются при обходе начального адреса. Это поведение применяется ко всем начальным адресам каждого отдельного источника контента. Если необходимо выполнять обход контента некоторых сайтов на более глубоких уровнях, можно создать дополнительные источники контента и добавить в них эти сайты. В следующей таблице приводятся рекомендации по настройке параметров обхода контента.

Для этого вида источника контента При таких условиях Используйте этот параметр обхода контента
Сайты SharePoint Требуется выполнять обход контента на самом сайте, но не на дочерних сайтах, либо требуется выполнять обход контента на дочерних сайтах в другое время по расписанию. Выполнять обход контента только сайта SharePoint каждого начального адреса.
Сайты SharePoint Требуется выполнять обход контента на самом сайте.

-или-

Требуется выполнять обход всего контента для начального адреса в одно и то же время по расписанию.
Выполнять обход всего контента узла для каждого начального адреса.
Веб-сайты Контент, доступный на связанных сайтах вряд ли будет релевантным. Выполнять обход контента только в пределах сервера каждого начального адреса.
Веб-сайты Релевантный контент находится только на первой странице. Выполнять обход контента только первой страницы каждого начального адреса
Веб-сайты Требуется ограничить уровень детализации при обходе ссылок для начальных адресов. Настраивается укажите глубину страниц и число переходов между серверами при обходе контента.

Примечание. Для сайтов с большим количеством ссылок мы рекомендуем начать с небольшого числа, поскольку в случае определения более трех страниц в глубину или более трех переходов между серверами зона обхода контента может распространиться на весь Интернет.
Общие файловые ресурсы
Общие папки Exchange
Контент, доступный во вложенных папках, вряд ли будет релевантным. Обход контента только папки каждого начального адреса.
Общие файловые ресурсы
Общие папки Exchange
Контент во вложенных папках, вероятнее всего, будет релевантным. Обход контента в папке и всех вложенных папках каждого начального адреса.
Бизнес-данные Все приложения, зарегистрированные в хранилище метаданных каталога бизнес-данных, содержат релевантный контент. Обход всего хранилища метаданных каталога бизнес-данных.
Бизнес-данные Не все приложения, зарегистрированные в хранилище метаданных каталога бизнес-данных, содержат релевантный контент.

-или-

Требуется выполнять обход некоторых приложений в другое время по расписанию.
Выполнять обход контента выбранных приложений.

Планирование соединителей

Обходчик использует соединители (в более ранних версиях SharePoint Server известные как обработчики протоколов) для получения и индексирования содержимого. Для наиболее часто используемых протоколов SharePoint Server предоставляет и автоматически использует соответствующие соединители. Если требуется выполнять обход контента, для которого необходим соединитель, не предоставляемый по умолчанию, необходимо сначала установить соединитель стороннего поставщика или создать пользовательский соединитель. Список соединителей, установленных по умолчанию, см. в статье Соединители по умолчанию в SharePoint Server (также относится к SharePoint Server).

Другие рекомендации по планированию источников контента

Принимая решение об использовании одного или нескольких хранилищ контента одинакового типа (например, сайтов SharePoint), учитывайте факторы, связанные с администрированием. Для упрощения задач администрирования следует упорядочивать источники контента таким образом, чтобы администраторам было максимально удобно обновлять источники контента, правила и расписания обхода контента.

  • Вы не можете сканировать одни и те же начальные адреса с помощью нескольких источников контента в одном приложении службы поиска. Другими словами, если определенный источник контента используется для обхода семейства веб-сайтов и всех его дочерних сайтов, нельзя использовать другой источник контента для дополнительного обхода одного из этих дочерних сайтов в другое время по расписанию.

  • Администраторы часто обновляют источники контента. Изменение источника контента требует полного его обхода. Поэтому мы рекомендуем создать отдельные источники контента, что позволит при необходимости одновременно выполнять несколько полных обходов, а также тратить меньше времени на полный обход любого источника контента.

Планирование правил обхода для оптимизации обходов контента

Правила обхода контента применяются ко всем источникам контента в приложении-службе поиска. Применяя правила обхода к определенному URL-адресу или набору URL-адресов, можно выполнять следующие задачи.

  • Исключать из обхода нерелевантный контент путем исключения одного или нескольких URL-адресов. Это помогает снизить сетевой трафик и потребление ресурсов сервера.

  • Выполнять обход по ссылкам на странице, представленной URL-адресом, а не обход самого URL-адреса. Это может быть полезно для сайтов, содержащих ссылки на релевантный контент, тогда как сами страницы с этими ссылками не содержат важной информации.

  • Включать в обход контента сложные URL-адреса. Это позволяет системе выполнять обход URL-адресов, содержащих параметр запроса, указанный с помощью вопросительного знака. В зависимости от сайта такие URL-адреса могут содержать или не содержать релевантный контент. Поскольку сложные URL-адреса часто перенаправляют программу-обходчик на сайты с нерелевантным контентом, мы рекомендуем включать эту возможность только для известных сайтов, на которых сложные URL-адреса представляют релевантный контент.

  • Выполнять обход контента на сайтах SharePoint так же, как на HTTP-страницах. Это позволяет системе поиска выполнять обход сайтов SharePoint, защищенных брандмауэром, или в сценариях, когда сайт, для которого выполняется обход, ограничивает доступ к веб-службе, используемой программой-обходчиком (компонентом обхода в топологии поиска).

  • Настраивать использование учетной записи для доступа к контенту по умолчанию, другой учетной записи для доступа к контенту или сертификата клиента для обхода определенного URL-адреса.

Поскольку при обходе контента потребляются ресурсы и пропускная способность, включение меньшего объема контента, заведомо содержащего релевантную информацию, лучше, чем включение большего объема данных, которые могут оказаться нерелевантными. После первоначального развертывания можно проверить журналы запросов и обхода контента и скорректировать источники контента и правила обхода, чтобы включить в обход как можно больше релевантного контента.

Планирование проверки подлинности программы-обходчика

Когда программа-обходчик получает доступ к начальным адресам, перечисленным в источниках контента, он должен пройти проверку подлинности на серверах, где размещается контент, и получить права на доступ к этим серверам. Изначально система использует учетную запись для доступа к контенту по умолчанию. Но можно также с помощью правил обхода указать другую учетную запись для доступа к контенту и использовать ее при обходе определенного контента. Независимо от того, какая учетная запись для доступа к контенту используется (установленная по умолчанию или указанная в правиле обхода), у нее должны быть разрешения на чтение всего контента, который просматривается во время обхода. Если учетная запись для доступа к контенту не имеет разрешений на чтение, обход контента не выполняется, контент не индексируется и поэтому не может предоставляться по запросу.

Рекомендуется предоставить учетной записи, назначенной для доступа к контенту по умолчанию, права доступа к большей части контента, обход которого необходимо выполнять. Используйте другие учетные записи для доступа к контенту, только если это требуется из соображений безопасности.

Для каждого планируемого источника контента определите начальные адреса, которые будут недоступны учетной записи для доступа к контенту по умолчанию, а затем запланируйте добавление правил обхода для этих начальных адресов.

Важно!

Убедитесь, что учетная запись домена, используемая в качестве учетной записи для доступа к контенту по умолчанию или любой другой учетной записи для доступа к контенту, отличается о той учетной записи домена, которая используется пулом приложений, связанным с каким-либо веб-приложением, для которого выполняется обход. Иначе программа-обходчик будет просматривать и индексировать неопубликованный контент и вспомогательные версии файлов (то есть журналы) на сайтах SharePoint.

Следует также учесть, что программа-обходчик должна использовать тот же протокол проверки подлинности, что и сервер. По умолчанию проверка подлинности программы-обходчика выполняется по протоколу NTLM. При необходимости можно настроить для программы-обходчика другой протокол проверки подлинности.

Если используется проверка подлинности на основе утверждений, убедитесь, что проверка подлинности Windows включена во всех веб-приложениях, для которых выполняется обход.

Планирование обработки контента

Программа-обходчик выполняет обход репозиториев контента, указанных источниками контента, после чего передает контент и метаданные обойденных элементов компоненту обработки контента. Этот компонент считывает и анализирует обойденные свойства, после чего отправляет отчет о свойствах в базу данных администрирования поиска.

Можно сопоставить свойства, для которых выполняется обход, с управляемыми свойствами и настроить параметры свойства путем изменения схемы поиска. Компонент обработки контента выполняет чтение схемы поиска и использует ее для сопоставления. В индекс поиска включаются только управляемые свойства. Управляемые свойства можно использовать, например, для создания уточнений. Дополнительные сведения см. в статье Обзор схемы поиска в SharePoint Server.

Включение и исключение типов файлов

В индекс поиска можно включить контент из любого типа файлов. Однако перед индексацией следует выполнить обход этого контента с помощью компонента обхода, а затем проанализировать его с помощью компонента обработки контента. Компонент обхода может осуществить обход файла только в том случае, если его расширение включено в список расширений имен файлов на странице "Управление типами файлов". Компонент обработки контента может анализировать контент файла, для которого выполнен обход, в следующих условиях.

  • Компонент обработки контента имеет обработчик формата, который может проанализировать формат файла.

  • Компоненту обработки контента разрешено выполнять анализ файлов с форматом и расширением.

Если компоненту обработки контента не удается проанализировать файл, индекс поиска будет содержать только свойства файла, такие как имя.

По умолчанию SharePoint Server удовлетворяет этим требованиям для многих типов файлов, и он может сканировать и анализировать эти типы файлов без необходимости установки дополнительных обработчиков форматирования. Общие сведения о типах файлов см. в статье Расширения имен файлов для обхода по умолчанию и проанализированные типы файлов в SharePoint Server.

Примечание.

Вы можете расширить начальную коллекцию форматов файлов, которые может анализировать SharePoint Server, добавив сторонние обработчики форматов на основе фильтров, известные как iFilters. Сторонний фильтр iFilter может переопределить встроенный обработчик формата.

Когда вы планируете включить в индекс поиска контент из репозиториев с типами файлов, не указанными на странице "Управление типами файлов", примите во внимание следующее:

  • Чтобы выполнить обход контента для типа файла, добавьте этот тип на страницу "Управление типами файлов".

  • Синтаксический анализ типа файла:

    • Если SharePoint Server не имеет требуемого обработчика формата, установите обработчик формата стороннего разработчика для соответствующего формата на каждом сервере с компонентом обработки контента в приложении службы поиска.

    • Разрешите анализ формата файла и расширения файла на каждом сервере с компонентом обработки контента в приложении службы поиска.

Дополнительные сведения см. в статье Add or remove a file type from the search index in SharePoint Server.

Планирование использования (настраиваемых) средств извлечения объектов

Можно настроить поисковую систему для поиска "объектов" в неструктурированном контенте, например в текстовой области или заголовке документа. Такими объектами могут быть слова или фразы (например, названия продуктов). Чтобы задать объекты для поиска, можно создать и развернуть собственные словари.

Извлеченные объекты хранятся в индексе поиска в виде отдельных управляемых свойств, которые автоматически настраиваются для поиска, отправки запросов, извлечения, сортировки и уточнения. Эти свойства можно использовать для уточнения поиска, например, чтобы обеспечить для пользователей возможность фильтрации результатов поиска.

Для организаций можно использовать предварительно заполненный словарь извлечений, предоставленный SharePoint Server.

Кроме того, можно развернуть несколько типов настраиваемых средств извлечения объектов в виде настраиваемых словарей извлечения объектов. Эти словари развертываются с помощью Microsoft PowerShell. Записи в словарях (одно или несколько слов) сопоставляются со словами или частями слов в содержимом с учетом или без учета регистра. Дополнительные сведения см. в статье Создание и развертывание пользовательских средств извлечения объектов в SharePoint Server.

Настраиваемое средство извлечения объектов / словарь Описание
Извлечение с совпадением слов Без учета регистра, не более 5 словарей. Например, запись "anchor" соответствует "anchor" и "Anchor", но не "anchorage".
Извлечение с совпадением частей слов Без учета регистра, не более 5 словарей. Например, запись "anchor" соответствует "anchor" и "Anchor", а также частям "anchorage".
Извлечение с точным совпадением слов С учетом регистра, не более 1 словаря. Например, запись "anchor" соответствует "anchor", но не "Anchor" или "anchorage".
Извлечение с точным совпадением частей слов С учетом регистра, не более 1 словаря. Например, запись "anchor" соответствует "anchor" и частям "anchorage", но не "Anchor".

Сведения об источниках результатов и федерации

В SharePoint Server источник результатов используется для указания URL-адреса поставщика для получения результатов поиска, протокола, используемого для получения этих результатов, и других связанных параметров. Например, предварительно настроенный источник результатов по умолчанию — Локальные результаты SharePoint.

Вы можете добавлять источники результатов, которые задают внешних поставщиков поиска (например, удаленные поисковые системы или веб-каналы), от которых будут приходить результаты поиска. Этот процесс называется федерацией.

О федерации

При использовании федерации пользователи могут искать и извлекать контент, обход которого не был выполнен серверами в локальной ферме. Например, федерация может предоставлять результаты поиска от поставщика веб-поиска, такого как Bing, или частного набора данных, для обхода которого у вас нет прав доступа.

Федерация также может стать хорошим решением для географически распределенной организации, которой требуется предоставить доступ к функциям поиска в различных подразделениях с собственным индексом поиска. Так как в каждом расположении результаты поиска предоставляются из собственного индекса, не требуется развертывать централизованную службу поиска, которая создает и использует единый унифицированный индекс. В этом контексте федерация может предоставить преимущества, например следующие:

  • Требования к низкой пропускной способности . Организация, географически разбросанная, может не иметь высокой пропускной способности сети, необходимой для обхода и индексирования больших объемов удаленного содержимого. Если организация использует федерацию, основные данные, передаваемые по глобальной сети для поиска, представляют собой только подмножество результатов поиска из каждого федеративного репозитория контента.

  • Актуальность результатов поиска . Каждое подразделение в организации может сканировать локальное содержимое быстрее, чем централизованное развертывание поиска сможет сканировать все содержимое во всей организации.

  • Вариативность поиска по подразделениям . Если организация использует федерацию, каждое подразделение в организации может предоставлять и контролировать собственную среду поиска. Каждое подразделение может адаптировать систему поиска в соответствии с собственными требованиями и предпочтениями, например настроив собственный интерфейс и соединители поиска. Централизованный портал поиска не допускаются подобные отличия.

  • Ограниченный размер индексов поиска . В крупной, географически распределенной организации может быть миллионы документов. Для такой компании может быть непрактично содержать один унифицированный индекс поиска из-за инфраструктуры, которая потребуется для поддержки такого большого индекса. Федерация позволяет пользователям каждого подразделения выполнять одну операцию поиска для получения нужного контента, распределенного по нескольким более мелким индексам поиска в организации.

Использование источников результатов для федерации

Для использования федерации в SharePoint Server необходимо выбрать один из следующих протоколов в разделе Протокол на странице добавления и изменения источника результатов:

Выберите этот протокол Для получения результатов федеративного поиска от такого поставщика
Удаленный доступ к SharePoint Индекс службы поиска в другой ферме SharePoint Server
OpenSearch 1.0/1.1 Внешняя поисковая система или канал, который использует протокол OpenSearch, например Bing
Exchange Exchange Server 2013

Примечание.

При выборе одного из протоколов, показанных ранее, на странице добавления и изменения источника результатов также необходимо заполнить другие поля, чтобы корректно указать источник результатов.

См. также

Общие сведения об источниках результатов поиска в SharePoint Server

Настройка источников результатов для поиска в SharePoint Server

Manage crawling in SharePoint Server

Default connectors in SharePoint Server

Анализируемые типы файлов и расширения имен файлов для обхода по умолчанию в SharePoint Server

Инфраструктура компонентов поиска в SharePoint 2013