Поделиться через


Ограничение или увеличение объема содержимого для обхода (Office SharePoint Server)

В процессе работы обычно приходится менять количество содержимого, которое в данный момент обходится. Это может понадобиться для того, чтобы выполнить следующее:

  • Перестать обходить содержимое некоторых сайтов в определенном пространстве имен, определяемом существующим источником контента.

  • Обходить содержимое сайтов на другой глубине.

  • Изменить количество обходимых типов файлов, то есть начать обходить те типы, которые ранее не задействовались, перестать обходить те типы, которые уже задействованы, или и то, и другое.

При изменении потребностей организации можно, кроме того, начать обходить содержимое совершенно новых источников. Более подробные сведения об обходе совершенно новых источников контента см. в разделе Об источниках контента (Office SharePoint Server 2007).

Увеличить или уменьшить количество обходимых источников контента можно с помощью:

  • Параметров обхода источников контента   Например, можно задать только обход начальных адресов, указанных в конкретном источнике контента или указать, глубину уровней пространства имен для обхода (с начального адреса) и количество допустимых переходов между серверами. Обратите внимание, что доступные параметры обходимого количества содержимого источника зависят от типа источника.

  • Включения типов файлов   Можно выбрать типы обходимых файлов.

  • Правил обхода контента   Правила позволяют отменить обход всех элементов, находящихся по заданному пути. Это хороший способ сделать так, чтобы дочерние сайты, которые нежелательно индексировать, не обходились вместе с родительским сайтом. Кроме того, правила обхода контента позволяют увеличить количество обходимого содержимого, например, обходить содержимое сложных URL-адресов по заданному пути.

Параметры обхода контента

Для каждого источника контента можно выбрать глубину обхода контента относительно начального адреса. Кроме того, можно задать режим обхода, который иногда называют параметрами обхода. Параметры, которые можно выбрать для определенного источника контента, меняются в зависимости от его типа. Однако большинство параметров определяют количество уровней иерархии для каждого начального адреса, которые подлежат обходу. Обратите внимание, что этот режим применяется ко всем начальным адресам определенного источника контента.

Параметры, доступные в свойствах каждого источника контента, меняются в зависимости от типа этого источника. В таблице ниже описываются параметры обхода, доступные для каждого типа источника контента.

Тип источника контента Параметры обхода

Сайты SharePoint

  • Все содержимое узла для каждого начального адреса

  • Только сайт SharePoint для каждого начального адреса

Веб-сайты

  • Только содержимое сервера для каждого начального адреса

  • Только первая страница для каждого начального адреса

  • Настраиваемый — задать глубину страниц и количество переходов.

    Примечание

    Значение по умолчанию для этого параметра — неограниченная глубина страниц и число переходов.

Общие папки

  • Папка и все вложенные папки каждого начального адреса

  • Только папка каждого начального адреса

Общие папки Exchange

  • Папка и все вложенные папки каждого начального адреса

  • Только папка каждого начального адреса

Бизнес-данные

  • Обход всего каталога бизнес-данных

  • Обход выбранных приложений

Как показано на предыдущей странице, администраторы общих служб могут использовать значения параметров для увеличения или уменьшения объема содержимого для обхода.

В таблице ниже приводятся рекомендации по настройке параметров обхода.

Для типа источника контента Если относится к Используйте следующий параметр обхода

Сайты SharePoint

Содержимое определенного семейства сайтов предполагается обходить по расписанию, отличному от расписания других семейств сайтов.

Обход только содержимого сайта SharePoint для каждого начального адреса

NoteПримечание:
Параметр воспринимает любой URL-адрес, но начинает обход контента с сайта верхнего уровня в семействе сайтов, который определяет введенный URL-адрес. Например, если ввести http://contoso//
sites/sales/car, но http://contoso//sites/sales является в семействе сайтом верхнего уровня, обходиться будет содержимое семейства сайтов http://contoso//sites/sales и всех его дочерних сайтов.

Сайты SharePoint

Все содержимое всех семейств сайтов определенного веб-приложения предполагается обходить по одному расписанию..

Обход всего содержимого для имени сайта каждого начального адреса

NoteПримечание:
Этот параметр воспринимает в качестве начальных адресов только имена сайтов, например, http://contoso/. При использовании параметра нельзя ввести URL-адрес дочернего сайта, например, http://contoso//
sites/sales.

Веб-сайты

Содержимое сайта является релевантным.

- или -

Содержимое, доступное на связанных сайтах, скорее всего, не является релевантным.

Обход только содержимого в пределах сервера для каждого начального адреса

Веб-сайты

Релевантное содержимое присутствует только на первой странице.

Обход контента только первой страницы для каждого начального адреса

Веб-сайты

Необходимо ограничить глубину обхода ссылок от начального адреса.

Настраиваемый — задайте глубину страниц и количество серверных переходов для обхода.

Примечание

Рекомендуется начать с небольшого числа тесно связанных сайтов, поскольку глубина более трех страниц или более трех переходов от сервера может привести к обходу всего Интернета.

Примечание

Кроме того, с помощью одного или нескольких правил обхода контента можно выбрать содержимое для обхода. Более подробные сведения см. в разделе Использование правил обхода для определения содержимого, участвующего в обходе (Office SharePoint Server 2007).

Общие папки

Общие папки Exchange

Содержимое, доступное во вложенных папках, скорее всего, не является релевантным.

Обход только папки для каждого начального адреса

Общие папки

Общие папки Exchange

Содержимое вложенных папок, скорее всего, не является релевантным.

Обход папки и вложенные папки для каждого начального адреса

Бизнес-данные

Все приложения, зарегистрированные в каталоге бизнес-данных, содержат релевантное содержимое.

Обход всего каталога бизнес-данных

Бизнес-данные

Не все приложения, зарегистрированные в каталоге бизнес-данных, содержат релевантное содержимое.

- или -

Необходимо выполнить обход некоторых приложений по другому расписанию.

Обход выбранных приложений

Включение типов файлов и IFilters

Обход контента выполняется только если релевантное расширение файла добавлено в список включений типов файлов и на сервере индекса установлен IFilter, поддерживающий эти типы файлов. Некоторые типы файлов включаются автоматически во время начальной установки. Проанализировав журналы запросов, можно узнать типы файлов содержимого, которое конечные пользователи хотят получить. Возможно, понадобится обходить содержимое типов файлов, которые ранее не учитывались, или исключить из обхода файлы определенного типа.

При добавлении типов файлов в список исключений необходимо также обеспечить наличие IFilter, который может использоваться для распознавания типа файла во время обхода.Если такой IFilter не установлен, содержимое файлов этого типа не будет индексироваться и включаться в область поиска. При этом метаданные файлов этого типа обходятся и включаются в область поиска. Например, если добавить PDF в список исключенных типов файлов, но не установить IFilter для PDF, содержимое файлов PDF не будет индексироваться, а метаданные будут.

Office SharePoint Server 2007 предоставляет несколько IFilters, помимо них IFilters предлагают Майкрософт и другие поставщики. При необходимости разработчики программного обеспечения могут создавать IFilters для новых типов файлов. Чтобы установить и зарегистрировать дополнительные IFilters, предоставляемые Microsoft с Office SharePoint Server 2007, см. How to register Microsoft Filter Pack with SharePoint Server 2007 and with Search Server 2008 (Регистрация Microsoft Filter Pack с SharePoint Server 2007 и с Search Server 2008) (на английском языке) (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x419. Дополнительные сведения об IFilters, включая предоставляемые сторонними поставщиками, см. в Filter Central (на английском языке) (https://go.microsoft.com/fwlink/?linkid=131255&clcid=0x419.

Список типов файлов, поддерживаемых установленными по умолчанию IFilters и список типов файлов, содержимое которых обходится по умолчанию, см. в разделе Типы файлов и ссылка IFilter (Office SharePoint Server).

Ограничение или исключение содержимого с помощью правил обхода

Существующие правила обхода контента можно изменить или создать новые, чтобы исключить все элементы или включить определенные элементы для конкретного пути.

Примечание

После добавления начального адреса в источники контента и принятия режима по умолчанию обход будет выполняться всех дочерних сайтов и папок, если они не будут исключены с помощью одного или нескольких правил обхода.

Правила обхода применяются в определенному URL-адресу или набору URL-адресов, представленный с помощью подстановочных знаков (иначе этот URL-адрес называется путь, по которому действует правило). Правила обхода позволяют:

  • Избежать обхода менее релевантного содержимого, исключив один или несколько URL-адресов. Кроме того, они помогают сократить использованием серверных ресурсов и сетевой трафик, а также повысить релевантность результатов поиска.

  • Обходить ссылки по URL-адресе без обхода контента самого URL-адреса. Этот параметр будет особенно полезен для сайтов со ссылками на релевантное содержимое, не включающих релевантных данных или включающих данные, которые не должны выводиться для конечных пользователей на страницах результатов поиска.

  • Включение обхода сложных URL-адресов. С помощью этой возможности выполняют обход URL-адресов, содержащих параметр запроса, указанный с вопросительным знаком. На разных сайтах эти URL-адреса могут включать или не включать менее релевантное содержимое. Поскольку сложные URL-адреса часто ведут к нерелевантным сайтам, рекомендуется выбирать этот параметр только для тех сайтов, сложные URL-адреса которых заведомо релевантны.

    Примечание

    Этот параметр не применяется при обходе сайтов SharePoint, поскольку в этом случаеOffice SharePoint Server 2007 перечисляет все содержимое.

Примечание

Правила обхода применяются одновременно ко всему содержимому в поставщике общих служб.

Чаще всего большая часть содержимого определенного адреса сайта релевантна, и только отдельные дочерние сайты или группы сайтов за адресами сайтов являются исключением. Целенаправленно выбрав комбинацию URL-адресов, для которых создана комбинация правил обхода, исключающая ненужные элементы, администраторы общих служб могут добиться максимальной релевантности содержимого в индексе и минимального влияния на производительность обхода, а также уменьшить размер баз данных поиска. Создание правил обхода для исключения URL-адресов в частности полезно при планировании начальных адресов для внешнего содержимого, поскольку влияние на использование ресурсов не находится под контролем пользователей организации.

При создании правила обхода можно использовать стандартные подстановочные символы в пути. Например:

  • http://server1/folder* соответствует всем веб-ресурсам с URL-адресом, начинающимся на "http://server1/folder".

  • *://*.txt соответствует всем документам с расширением TXT.

В связи с тем, что обход контента требует выделения части ресурсов и пропускной способности, лучше включить небольшой объем содержимого, о котором известно, что оно релевантно. После начального развертывания можно просмотреть журналы запросов и обходов и скорректировать источники контента и правила обхода, чтобы обеспечить более высокую релевантность и больший объем содержимого.

Чтобы увеличить или уменьшить количество обходимого содержимого, можно сделать следующее: