Поделиться через


Обход содержимого (Office SharePoint Server 2007)

Обход контента — это процесс, при помощи которого система обращается к содержимому и его свойствам (которые иногда называются метаданными) и обрабатывает его для создания индекса контента, который используется для обработки поисковых запросов.

В результате успешного обхода контента обходчик получает доступ и считывает отдельные файлы и части содержимого, которые следует сделать доступными для запросов поиска. Ключевые слова и метаданные для этих файлов хранятся в индексе контента, иногда называемом просто индексом. Индекс состоит из ключевых слов, которые хранятся в файловой системе, и метаданных, которые хранятся в базе данных поиска. Система выполняет сопоставление между ключевыми словами, метаданными, связанными с отдельными частями содержимого, и URL-адресом источника, где был выполнен обход этого содержимого.

Примечание

Обходчик не изменяет файлы на серверах. Вместо этого к файлам на сервере обращаются и они считываются, а текст и метаданные этих файлов считываются, а затем отправляются на сервер индекса для индексирования. Однако, поскольку обходчик считывает содержимое на сервере, некоторые серверы, содержащие определенные источники контента, могут обновить дату последнего доступа к файлам, для которых был выполнен обход.

Определение времени обхода контента

После того как ферма сервера была развернута и проработала некоторое время, администратор служб поиска обычно должен поменять расписание обходов. Это следует делать по следующим причинам:

  • Чтобы учесть изменения времени простоя и периодов пиковой нагрузки.

  • Чтобы учесть изменения частоты обновления содержимого на сервере, где оно размещается.

  • Чтобы запланировать обходы контента, чтобы:

    • Обход контента, размещенного на более медленных серверах, выполнялось отдельно от обхода контента, размещенного на более быстрых серверах.

    • Выполнять обход новых источников контента.

    • Выполнять обход контента по мере обновления адресованного содержимого. Например, можно выполнять ежедневный обход контента в репозиториях, обновляемых каждый день, но делать это менее часто, если обход контента репозитория выполняется нечасто.

Выполнение обходов

Как правило, большинство обходов контента выполняется по расписанию, но иногда их желательно запускать вручную. Например, обход можно запустить, чтобы применить административные изменения, например, правила обхода контента и индекса, или чтобы выяснить, устранена ли ошибка в журнале обхода.

Более того, при запуске обхода контента по расписанию или вручную, возможно, придется остановить или приостановить один или более обходов. Например, администратор, на чьем сервере располагается обходимое содержимое, может сообщить, что обход перегружает сервер, или что обходимый сервер сейчас отключен. В любом случае обход контента нужно остановить или приостановить.

Следует учитывать, что полный обход контента требует больше времени и ресурсов сервера, чем добавочный. Полные обходы контента:

  • Требуют больше циклов памяти и процессора сервера индексирования, чем добавочные.

  • Требуют больше циклов памяти и процессора интерфейсных веб-серверов при обходе контента фермы серверов. Это не относится к содержимому, которое по отношению к ферме серверов является внешним.

  • Требует большей пропускной способности.

Важно!

После остановки обхода любого источника контента Microsoft Office SharePoint Server 2007 в следующий раз автоматически выполняет полный обход контента источника. Это произойдет даже в том случае, если пользователь попытается выполнить полный обход. Соответственно, тщательно продумайте, стоит ли приостановить или остановить обход.

Также не следует приостанавливать обходы контента слишком большого количества источников одновременно, поскольку каждый приостановленный источник потребляет ресурсы памяти и процессора сервера индексирования.

Чтобы запустить полный или добавочный обход, остановить, приостановить или возобновить обход, выполните одну из следующих процедур:

Составление расписаний обходов

В следующих разделах содержатся дополнительные сведения по рекомендациям по обходу контента с использованием расписаний.

Простои и периоды пиковой загрузки

Оцените время простоя и пиковой нагрузки серверов, на которых хранится содержимое, для которого следует выполнить обход. Например, при обходе контента, расположенного на нескольких разных серверах, не входящих в состав фермы серверов, наверняка резервное копирование этих серверов выполняется по разным расписаниям и имеют разные периоды пиковой нагрузки. Администрирование внешних серверов обычно выполняется другими администраторами. Таким образом, рекомендуется координировать обходы с администраторами серверов, на которых размещено содержимое, обход которого требуется выполнить, чтобы не выполнять попыток обхода контента на серверах во время простоя или пиковой нагрузки.

Примечание

Поскольку периоды пиковой нагрузки и время простоя серверов может меняться, рекомендуется периодически пересматривать график проведения обхода всех источников контента, а не только создавать график обхода новых создаваемых источников.

Как правило имеется содержимое, не контролируемое организацией, связанное с содержимым ее сайтов SharePoint. Можно добавить начальные адреса для этого содержимого в существующий источник контента или создать новый для внешнего содержимого. Поскольку доступность внешних сайтов может быть совершенно разной, полезно добавить отдельные источники контента для разного внешнего содержимого. Таким образом внешние источники контента можно обходить по расписанию, отличному от других источников. Набор внешнего содержимого можно обновлять по расписанию обхода контента, составленного в соответствии с доступностью каждого сайта.

Часто обновляемое содержимое

При планировании расписаний обходов имейте в виду, что некоторые источники контента обновляются чаще других. Например, если известно, что содержимое некоторых семейств сайтов или внешних источников обновляется только по пятницам, обход контента чаще раза в неделю означает неэффективное использование ресурсов. Однако ферма серверов может содержать другие семейства сайтов, которые обновляются непрерывно с понедельника по пятницу, но не обновляются по субботами и воскресеньям. В этом случае можно выполнять обход этих сайтов несколько раз в неделю, а не только по выходным.

Способ хранения содержимого в семействах сайтов может привести к необходимости создания дополнительных источников контента для каждого семейства сайтов в каждом веб-приложении. Например, если в семействе сайтов хранится только архивированная информация, то нет необходимости выполнять обходы так же часто, как и для семейств сайтов, где хранится часто обновляемая информация. В этом случае можно выполнять обход этих двух семейств сайтов с помощью разных источников контента, чтобы делать это по разным расписаниям.

Расписания полного и добавочного обхода

Как администратор служб поиска, вы можете независимо настраивать расписания обходов для каждого источника контента. Для каждого источника контента можно указать время выполнения полных обходов и другое время для выполнения добавочных обходов.

Примечание

Перед выполнением добавочного обхода источника контента необходимо выполнить его полный обход.

Рекомендуется составлять расписания обхода, принимая во внимание доступность, производительность и пропускную способность канала передачи данных как серверов, на которых выполняется служба поиска, так и серверов, на которых расположено содержимое для обхода.

При планировании расписаний обхода следуйте следующим рекомендациям:

  • Группируйте начальные адреса источников контента, основываясь на схожей доступности и приемлемом уровне совокупного использования ресурсов серверов, на которых хранится содержимое.

  • Назначайте добавочные обходы контента в расписании для каждого источника контента на те периоды времени, когда соответствующие серверы доступны и при этом их ресурсы задействованы минимально. Можно также добавить или изменить одно или несколько правил воздействия программы-обходчика для снижения нагрузки на сервера, обход которых выполняется в настоящий момент. Дополнительные сведения о правилах воздействия программы-обходчика см. в разделе Управление воздействием программы-обходчика (Office SharePoint Server 2007).

  • Составляйте расписания обходов контента так, чтобы нагрузка на серверы в ферме организации равномерно распределялась по времени.

  • Планируйте полный обход только когда он необходим по причинам, изложенным в следующем разделе. Рекомендуется выполнять полный обход реже, чем добавочный.

  • Административные изменения, которые требуют полного обхода контента, вносите в расписание непосредственно перед плановым полным обходом. Например, рекомендуется составлять расписание создания правил обхода перед следующим полным обходом по расписанию, чтобы дополнительный полный обход был необязательным.

  • Планируйте одновременное выполнение обхода на основании мощности сервера индексирования, который выполняет эти обходы. Рекомендуется распределять время обходов в расписании таким образом, чтобы сервер индексирования не выполнял обход с помощью разных источников контента одновременно. Производительность сервера индексирования и серверов, на которых размещено содержимое, определяет, насколько обходы могут перекрываться. Можно выработать стратегию составления расписаний обходов после ознакомления с обычной длительностью обхода для каждого источника контента. Рекомендуется записывать данные о времени выполнения обхода контента в своей среде.

Причины выполнения полного обхода

Администратор служб поиска может принять решение о выполнении полного обхода по следующим причинам:

  • Установка одного или нескольких исправлений или пакетов обновления на серверах фермы. См. дополнительные сведения в инструкциях к исправлению или пакету обновления.

  • Администратор поставщика общих служб добавил новое управляемое свойство.

  • Повторное индексирование страниц ASPX на сайтах Windows SharePoint Services 3.0 или Office SharePoint Server 2007.

    Примечание

    Обходчик не имеет возможности определить, когда страницы ASPX на сайтах Windows SharePoint Services 3.0 или Office SharePoint Server 2007 были изменены. Из-за этого при добавочных обходах не выполняется повторное индексирование обзоров или домашних страниц, когда отдельные элементы списков удаляются. Рекомендуется регулярно выполнять полные обходы сайтов, содержащих файлы ASPX, для обеспечения повторного индексирования этих страниц.

  • Для определения изменений системы обеспечения безопасности, внесенных после последнего полного обхода места общего доступа к файлу.

  • Для устранения повторяющихся ошибок добавочного обхода. В редких случаях, когда добавочный обход на любом уровне репозитория завершается с ошибкой сто раз подряд, сервер индекса удаляет затронутое содержимое из индекса.

  • После добавления, удаления или изменения правил обхода.

  • Для исправления поврежденного индекса.

  • Администратор служб поиска создал одно или более сопоставлений имен серверов.

  • Учетная запись, относящаяся к учетной записи доступа к содержимому по умолчанию, или правило обхода были изменены.

Система выполняет полный обход, даже если запрашивается добавочный, в следующих ситуациях:

  • Администратор поставщика общих служб остановил предыдущий обход.

  • Восстановлена из резервной копии база данных контента.

    Примечание

    При наличии Обновление инфраструктуры для серверов Microsoft Office Servers можно с помощью операции restore инструмента командной строки stsadm включать или отключать полный обход контента при восстановлении базы данных контента.

  • Администратор фермы отключил и снова подключил базу данных контента.

  • Полный обход контента никогда не выполнялся.

  • В журнале изменений не содержится записей обходимых адресов. Если подобных записей в журнале изменений нет, то добавочные обходы не могут выполняться.

  • Учетная запись, относящаяся к учетной записи доступа к содержимому по умолчанию, или правило обхода были изменены.

  • Для исправления поврежденного индекса.

    В зависимости от серьезности повреждения система может выполнить попытку полного обхода, если в индексе найдено повреждение.

Расписания можно скорректировать после начального развертывания, основываясь на производительности и возможностях серверов фермы и серверов, на которых расположено содержимое.

См. также

Понятия

Организация обхода содержимого (Office SharePoint Server 2007)
Расписание полного обхода содержимого (Office SharePoint Server 2007)
Составление графика для добавочного обхода содержимого (Office SharePoint Server 2007)