Поделиться через


Ограничение или увеличение объема содержимого для обхода (Search Server 2008)

Обновлено: 2008-10-23

Note Примечание:

Если не указано иное, содержащаяся в данной статье информация относится как к серверу Microsoft Search Server 2008, так и к серверу Microsoft Search Server 2008 Express.

В процессе работы обычно приходится менять количество содержимого, которое в данный момент обходится. Это может понадобиться для того, чтобы выполнить следующее:

  • Перестать обходить содержимое некоторых сайтов в определенном пространстве имен, определяемом существующим источником контента.

  • Обходить содержимое сайтов на другой глубине.

  • Изменить количество обходимых типов файлов, то есть начать обходить те типы, которые ранее не задействовались, перестать обходить те типы, которые уже задействованы, или и то, и другое.

При изменении потребностей организации можно, кроме того, начать обходить содержимое совершенно новых источников. Более подробные сведения об обходе совершенно новых источников контента см. в разделе Об источниках контента (Search Server 2008).

Увеличить или уменьшить количество обходимых источников контента можно с помощью:

  • Параметров обхода источников контента   Например, можно задать только обход начальных адресов, указанных в конкретном источнике контента или указать, глубину уровней пространства имен для обхода (с начального адреса) и количество допустимых переходов между серверами. Обратите внимание, что доступные параметры обходимого количества содержимого источника зависят от типа источника.

  • Включения типов файлов   Можно выбрать типы обходимых файлов.

  • Правила обхода контента   Правила позволяют отменить обход всех элементов, находящихся по заданному пути. Это хороший способ сделать так, чтобы дочерние сайты, которые нежелательно индексировать, не обходились вместе с родительским сайтом. Кроме того, правила обхода контента позволяют увеличить количество обходимого содержимого, например, обходить содержимое сложных URL-адресов по заданному пути.

Параметры обхода контента

Для каждого источника контента можно выбрать глубину обхода контента относительно начального адреса. Кроме того, можно задать режим обхода, который иногда называют параметрами обхода. Параметры, которые можно выбрать для определенного источника контента, меняются в зависимости от его типа. Однако большинство параметров определяют количество уровней иерархии для каждого начального адреса, которые подлежат обходу. Обратите внимание, что этот режим применяется ко всем начальным адресам определенного источника контента.

Параметры, доступные в свойствах каждого источника контента, меняются в зависимости от типа этого источника. В таблице ниже описываются параметры обхода, доступные для каждого типа источника контента.

Тип источника контента Параметры обхода

Сайты SharePoint

  • Все содержимое сайта для каждого начального адреса

  • Только сайт SharePoint для каждого начального адреса

Веб-сайты

  • Только содержимое сервера для каждого начального адреса

  • Только первая страница для каждого начального адреса

  • Настраиваемый — задать глубину страниц и количество переходов.

    NoteПримечание:
    Значение по умолчанию для этого параметра — неограниченная глубина страниц и число переходов.

Общие файловые ресурсы

  • Папка и все подпапки каждого начального адреса

  • Только папка каждого начального адреса

Общие папки Exchange

  • Папка и все подпапки каждого начального адреса

  • Только папка каждого начального адреса

Как показано в предыдущей таблице, администраторы служб поиска могут использовать значения параметров для увеличения или уменьшения объема содержимого для обхода.

В таблице ниже приводятся рекомендации по настройке параметров обхода.

Для типа источника контента Если относится к Используйте следующий параметр обхода

Сайты SharePoint

Содержимое определенного семейства сайтов предполагается обходить по расписанию, отличному от расписания других семейств сайтов.

Обход только содержимого сайта SharePoint для каждого начального адреса

NoteПримечание:
Этот параметр воспринимает любой URL-адрес, но начинает обход контента с сайта верхнего уровня в семействе сайтов, которое определено во введенном URL-адресе. Например, если ввести http://contoso//sites/sales/car, где http://contoso//sites/sales является сайтом верхнего уровня в семействе сайтов, обходиться будет содержимое семейства сайтов http://contoso//sites/sales и всех его дочерних сайтов.

Сайты SharePoint

Все содержимое всех семейств сайтов определенного веб-приложения предполагается обходить по одному расписанию..

Обход всего содержимого для имени сайта каждого начального адреса

NoteПримечание:
Этот параметр воспринимает в качестве начальных адресов только имена сайтов, например, http://contoso/. При использовании этого параметра нельзя ввести URL-адрес дочернего сайта, например, http://contoso//sites/sales.

Веб-сайты

Содержимое сайта является релевантным.

- или -

Содержимое, доступное на связанных сайтах, скорее всего, не является релевантным.

Обход только содержимого в пределах сервера для каждого начального адреса

Веб-сайты

Релевантное содержимое присутствует только на первой странице.

Обход контента только первой страницы для каждого начального адреса

Веб-сайты

Необходимо ограничить глубину обхода ссылок от начального адреса.

Настраиваемый — задайте глубину страниц и количество серверных переходов для обхода.

NoteПримечание:
Рекомендуется начать с небольшого числа тесно связанных сайтов, поскольку глубина более трех страниц или более трех переходов от сервера может привести к обходу всего Интернета.
NoteПримечание:
Кроме того, с помощью одного или нескольких правил обхода контента можно выбрать содержимое для обхода. Более подробные сведения см. в разделе Использование правил обхода для определения содержимого, участвующего в обходе (Search Server 2008).

Общие файловые ресурсы

Общие папки Exchange

Содержимое, доступное в подпапках, скорее всего, не является релевантным.

Обход только папки для каждого начального адреса

Общие файловые ресурсы

Общие папки Exchange

Содержимое подпапок, скорее всего, не является релевантным.

Обход папки и подпапки для каждого начального адреса

Включение типов файлов и IFilters

Обход контента выполняется только если релевантное расширение файла добавлено в список включений типов файлов и на сервере индекса установлен IFilter, поддерживающий эти типы файлов. Некоторые типы файлов включаются автоматически во время начальной установки. Проанализировав журналы запросов, можно узнать типы файлов содержимого, которое конечные пользователи хотят получить. Возможно, понадобится обходить содержимое типов файлов, которые ранее не учитывались, или исключить из обхода файлы определенного типа.

При добавлении типов файлов в список исключений необходимо также обеспечить наличие IFilter, который может использоваться для распознавания типа файла во время обхода.Если такой IFilter не установлен, содержимое файлов этого типа не будет индексироваться и включаться в область поиска. При этом метаданные файлов этого типа обходятся и включаются в область поиска. Например, если добавить PDF в список исключенных типов файлов, но не установить IFilter для PDF, содержимое файлов PDF не будет индексироваться, а метаданные будут.

В продукте Microsoft Search Server 2008 представлено несколько фильтров IFilters, помимо них фильтры документов предлагают Майкрософт и другие поставщики. При необходимости разработчики программного обеспечения могут создавать IFilters для новых типов файлов. Чтобы установить и зарегистрировать дополнительные IFilters, предоставляемые Майкрософт сSearch Server 2008, см. статью Как зарегистрировать пакет фильтров Microsoft Filter с SharePoint Server 2007 и с Search Server 2008 (на английском языке) (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x419) (на английском языке). Дополнительные сведения о фильтрах IFilter, включая фильтры, предлагаемые другими поставщиками, см. в статье Центр фильтров (на английском языке) (https://go.microsoft.com/fwlink/?linkid=131255&clcid=0x419) (на английском языке) .

Список типов файлов, поддерживаемых установленными по умолчанию фильтрами IFilters, и список типов файлов, содержимое которых обходится по умолчанию, см. в разделе Обход дополнительных типов файлов при помощи средств IFilters (Search Server 2008).

Ограничение или исключение содержимого с помощью правил обхода

Существующие правила обхода контента можно изменить или создать новые, чтобы исключить все элементы или включить определенные элементы для конкретного пути.

Note Примечание:

После добавления начального адреса в источники контента и принятия режима по умолчанию обход будет выполняться всех дочерних сайтов и папок, если они не будут исключены с помощью одного или нескольких правил обхода.

Правила обхода применяются в определенному URL-адресу или набору URL-адресов, представленный с помощью подстановочных знаков (иначе этот URL-адрес называется путь, по которому действует правило). Правила обхода позволяют:

  • Избежать обхода менее релевантного содержимого, исключив один или несколько URL-адресов. Кроме того, они помогают сократить использованием серверных ресурсов и сетевой трафик, а также повысить релевантность результатов поиска.

  • Обходить ссылки по URL-адресе без обхода контента самого URL-адреса. Этот параметр будет особенно полезен для сайтов со ссылками на релевантное содержимое, не включающих релевантных данных или включающих данные, которые не должны выводиться для конечных пользователей на страницах результатов поиска.

  • Включение обхода сложных URL-адресов. С помощью этой возможности выполняют обход URL-адресов, содержащих параметр запроса, указанный с вопросительным знаком. На разных сайтах эти URL-адреса могут включать или не включать менее релевантное содержимое. Поскольку сложные URL-адреса часто ведут к нерелевантным сайтам, рекомендуется выбирать этот параметр только для тех сайтов, сложные URL-адреса которых заведомо релевантны.

    Note Примечание:

    Этот параметр не применяется при обходе сайтов SharePoint, поскольку в этом случаеSearch Server 2008 перечисляет все содержимое.

Note Примечание:

Правила обхода контента применяются одновременно ко всем источникам контента.

Чаще всего большая часть содержимого определенного адреса сайта релевантна, и только отдельные дочерние сайты или группы сайтов за адресами сайтов являются исключением. Целенаправленно выбрав комбинацию URL-адресов, для которых создана комбинация правил обхода, исключающая ненужные элементы, администраторы служб поиска могут добиться максимальной релевантности содержимого в индексе и минимального влияния на производительность обхода, а также уменьшить размер баз данных поиска. Создание правил обхода для исключения URL-адресов, в частности, полезно при планировании начальных адресов для внешнего содержимого, поскольку влияние на использование этих ресурсов не находится под контролем пользователей вашей организации.

При создании правила обхода можно использовать стандартные подстановочные символы в пути. Например:

  • http://server1/folder* соответствует всем веб-ресурсам с URL-адресом, начинающимся на "http://server1/folder".

  • *://*.txt соответствует всем документам с расширением TXT.

В связи с тем, что обход контента требует выделения части ресурсов и пропускной способности, лучше включить небольшой объем содержимого, о котором известно, что оно релевантно. После начального развертывания можно просмотреть журналы запросов и обходов и скорректировать источники контента и правила обхода, чтобы обеспечить более высокую релевантность и больший объем содержимого.

Чтобы увеличить или уменьшить количество обходимого содержимого, можно сделать следующее: