Планирование обхода содержимого (Office SharePoint Server)
Содержание:
Общие сведения об обходе и индексации содержимого
Определение источников контента для обхода
Планирование источников контента
Планирование проверки подлинности
Планирование обходчиков протоколов
Планирование управления воздействием обхода
Планирование правил обхода
Планирование параметров поиска на уровне фермы
Индексация содержимого на разных языках
Таблица
Эта статья призвана помочь администраторам служб поиска в понимании методов обхода и индексирования контента в Microsoft Office SharePoint Server 2007, а также в планировании обхода контента.
Прежде чем конечные пользователи смогут использовать функциональность корпоративного поиска в Office SharePoint Server 2007 для поиска содержимого, следует выполнить обход контента, которое необходимо сделать доступным для запросов пользователей.
В данной статье содержимое — это любой элемент, для которого можно выполнить обход, например веб-страница, документ Microsoft Office Word, бизнес-данные или файл сообщения электронной почты.
При планировании обхода контента необходимо найти ответы на следующие вопросы:
Где содержимое для обхода расположен физически?
Хранится ли содержимое для обхода на источниках различных типов, таких как общие папки, сайты SharePoint, веб-сайты и др.?
Нужно ли выполнять обход всего содержимого в источниках или его части?
Какие типы включены в содержимое для обхода?
Когда и как часто необходимо выполнять обход контента?
Как обеспечивается безопасность содержимого?
Сведения, представленные в этой статье, помогут найти ответ на эти вопросы и принять необходимые решения по планированию содержимого для обхода и времени обхода этого содержимого.
В ключевые моменты этой статьи мы попросим заполнить раздел таблицы, соответствующий прочитанной информации. Решения можно записывать в таблице по мере проработки этой статьи или записать все решения одновременно после ее прочтения. В любом случае заполненная таблица будет ценным активом при развертывании решения для поиска.
Примечание
В данной статье описан процесс планирования для обхода и индексирования контента в один индекс. Если при планировании обхода контента выясняется, что следует использовать дополнительный индекс контента, запишите свои решения по планированию для каждого поставщика общих служб в отдельную таблицу.
В Office SharePoint Server 2007 содержится служба поиска Office SharePoint Server, которая используется для обхода и индексирования контента. Эта служба является частью поставщика общих служб, и все содержимое, обход которого был выполнен с помощью определенного поставщика общих служб, индексируется в один индекс. Дополнительные сведения о выборе количества поставщиков общих служб для индексирования контента см. в статье Планирование поставщиков общих служб.
Общие сведения об обходе и индексации содержимого
Обход и индексация содержимого — это процесс, при помощи которого система обращается к содержимому и его свойствам (которые иногда называются метаданными) и обрабатывает его для создания индекса контента, который используется для обработки поисковых запросов.
В результате успешного обхода контента отдельные файлы и элементы контента, которые необходимо сделать доступными для запросов поиска, прочитываются обходчиком. Ключевые слова и метаданные хранятся в индексе контента, который иногда называет индексом. Индекс состоит из ключевых слов, которые хранятся в файловой системе сервера индекса, и метаданных, которые хранятся в базе данных поиска. Система поддерживает сопоставление между ключевыми словами, метаданными, связанными с отдельными элементами контента, при обходе которого были получены эти ключевые слова, и URL-адресами источника, в котором был выполнен обход контента.
Примечание
Обходчик никоим образом не меняет файлов на серверах. Он выполняет простое обращение и считывание файлов, в результате чего текст и метаданные файлов посылаются в сервер индекса. Однако в связи с тем, что обходчик считывает содержимое на сервере, некоторые серверы, на которых размещаются определенные источники контента, могут обновить дату последнего обращения к фалам при из обходе.
Определение источников контента для обхода
Во многих случаях организациям достаточно обхода контента сайтов SharePoint фермы серверов. В этом случае не требуется определять источники контента для обхода, так как все семейства веб-сайтов фермы обходятся с использованием источника по умолчанию. Дополнительные сведения об источнике контента по умолчанию см. в разделе Планирование источников контента далее в этой статье.
Многим организациям также требуется выполнить обход контента, который находится вне фермы серверов, например на общих файловых ресурсах, на веб-сайтах или в Интернете. В Office SharePoint Server 2007 можно выполнять обход и индексирование содержимого, которое размещено на других фермах Службы Windows SharePoint Services или Office SharePoint Server, на веб-сайтах, в общих файловых ресурсах, в общих папках Microsoft Exchange, на серверах IBM Lotus Notes и в бизнес-данных, хранимых в базах данных. Это значительно повышает объемы содержимого, которое может быть доступно для запросов поиска.
Во многих случаях обход всех семейств сайтов фермы не потребуется, поскольку содержимое, сохраненное в некоторых семействах сайтов, может быть нерелевантно для результатов поиска. В этом случае необходимо выполнить одно или оба следующих действия:
Отметьте семейства сайтов, которые не нужно обходить. Если будет решено использовать источник контента по умолчанию, необходимо убедиться, что начальный адрес семейств сайтов, которые не нужно обходить, не указан в источнике контента по умолчанию.
Отметьте отдельные начальные адреса семейств веб-сайтов, которые не нужно обходить. Если будет решено создать дополнительные источники контента для обхода этого содержимого, необходимо сохранить эти начальные адреса. Сведения об использовании одного или нескольких источников контента см. в разделе Планирование источников контента далее в этой статье.
При наличии установленного Обновление инфраструктуры для серверов Microsoft Office Servers имеется два способа обработки поисковых запросов и предъявления пользователям результатов поиска. Можно производить поиск в индексе контента поискового сервера или использовать федеративный поиск.
Совет
Следует отметить, что Обновление инфраструктуры для серверов Microsoft Office Servers обеспечивает в Office SharePoint Server 2007 возможность федеративного поиска, впервые представленную в Search Server 2008.
У каждого способа есть свои преимущества. Сравнение обоих подходов к обработке поисковых запросов см. в статье Общие сведения о федеративном поиске (на английском языке) (https://go.microsoft.com/fwlink/?linkid=122651&clcid=0x419) (на английском языке). Список и краткое описание статей, содержащих сведения о назначении и использовании федерации, см. в статье Работа с федерацией (Office SharePoint Server). Дополнительные сведения об обновлении инфраструктуры для Microsoft Office Server см. в статье Установка обновления инфраструктуры для Microsoft Office Servers (Office SharePoint Server 2007).
Планирование источников контента
Перед обходом контента, необходимо определить, где находится содержимое и на серверах каких типов оно размещено. После сбора этой информации администратор общих служб может создать один или несколько источников контента для обхода этого содержимого. Эти источники контента предоставляют обходчику следующие сведения во время обхода:
Тип контента, для которого необходим обход, например сайт SharePoint или общая папка.
Начальный адрес, с которого необходимо начать обход.
Режим обхода, — например, глубина обхода с начального адреса или количество переходов.
Расписание обхода.
Примечание
Обход контента с использованием определенного источника контента иногда называется "обходом источника контента".
Этот раздел помогает спланировать источники контента, необходимые для организации.
Источник контента по умолчанию называется локальные сайты Office SharePoint Server. Администраторы общих служб могут использовать этот источник данных для обхода и индексирования всех веб-приложений, связанных с поставщиком общих служб. По умолчанию Office SharePoint Server 2007 добавляет начальные адреса (в данном случае URL-адреса) сайтов верхнего уровня всех семейств сайтов, созданных в веб-приложении, которое использует один поставщик общих служб, в источник данных по умолчанию.
Некоторым организациям для удовлетворения требований к поиску будет достаточно простого использования источника контента по умолчанию для обхода всех семейств сайтов. Однако многим организациям потребуются дополнительные источники контента.
Причины создания дополнительных источников контента:
Обход различных типов контента.
Обход части содержимого по расписанию, отличному от общего.
Ограничение или увеличение объема содержимого для обхода.
Администраторы общих служб могут создать до 500 источников контента в каждом поставщике общих служб, и каждый источник контента может содержать до 500 начальных адресов. Чтобы администрирование было настолько максимально простым, необходимо создать ровно столько источников контента, сколько необходимо.
Обход различных типов контента
Источник контента обеспечивает обход только одного источника контента. Это значит, что можно создать один источник контента, включающий URL-адреса сайтов SharePoint, и другой источник контента с URL-адресами общих папок, но нельзя создать источник, включающий URL-адреса и сайтов SharePoint и общих папок. В таблице ниже перечислены типы источников контента, которые можно настроить.
Этот тип источника контента | Включает следующий тип контента |
---|---|
Сайты SharePoint |
Сайты SharePoint с одной или нескольких ферм Office SharePoint Server 2007, Windows SharePoint Services 3.0 или . Сайты SharePoint из фермы Microsoft Office SharePoint Portal Server 2003 или Microsoft Windows SharePoint Services 2.0 Примечание В отличие от обхода сайтов SharePoint в Office SharePoint Server 2007, Windows SharePoint Services 3.0 или , обходчик не может автоматически обходить все дочерние сайты семейства сайтов предыдущих версий продуктов и технологий SharePoint. Поэтому при обходе сайтов SharePoint из предыдущих версий необходимо указать URL-адрес каждого сайта верхнего уровня и каждого дочернего сайта, для которого необходим обход. Сайты, перечисленные в каталоге сайтов ферм Microsoft Office SharePoint Portal Server 2003, обходятся при обходе сайта портала. Дополнительные сведения о каталоге сайтов см. в разделе About the Site Directory (на английском языке) (https://go.microsoft.com/fwlink/?linkid=88227&clcid=0x419) (на английском языке). |
Веб-сайты |
Другое веб-содержимое организации, не найденное на сайтах SharePoint Содержимое на веб-сайтах в Интернете. |
Общие папки |
Содержимое в общих папках в пределах организации. |
Общие папки Exchange |
Содержимое Microsoft Exchange Server |
Lotus Notes |
Сообщения электронной почты, сохраненные в базах данных Lotus Notes. Примечание В отличие от других типов источников данных, источник контента Lotus Notes недоступен в пользовательском интерфейсе, пока не установлено и не настроено соответствующее программное обеспечение. Дополнительные сведения см. в статье Настройка поиска Office SharePoint Server для обхода Lotus Notes (Office SharePoint Server 2007). |
Бизнес-данные |
Бизнес-данные, которые хранятся в бизнес-приложениях |
Планирование источников контента для бизнес-данных
Для источников контента бизнес-данных требуется, чтобы приложение, где хранятся данные, было сначала зарегистрировано в каталоге бизнес-данных. Необходимо создать один или несколько отдельных источников контента бизнес-данных для выполнения обхода бизнес-данных. Можно создать один источник контента для обхода всех приложений, зарегистрированных в каталоге бизнес-данных, или можно создать отдельные источники контента для обхода отдельных приложений, зарегистрированных в каталоге бизнес-данных.
Лица, планирующие интеграцию бизнес-данных в семейства сайтов, зачастую не вовлечены в общий процесс планирования содержимого. Таким образом, стоит включить администраторов бизнес-приложений в состав групп, планирующих содержимое, чтобы они могли давать советы по интеграции своих данных в другую среду и эффективно представлять данные в семействе сайтов.
Дополнительные сведения о планировании поиска бизнес-данных см. в статье Планирование поиска бизнес-данных.
Обход контента по различным расписаниям
Администраторы общих служб могут решить, что для части содержимого обход должен выполняться чаще, чем для остального содержимого. Чем больше объем содержимого для обхода, тем выше вероятность, что обход будет выполняться по нескольким источникам контента. Эти различные источники могут быть как одного, так и разных типов, и могут располагаться на серверах разных типов.
Эти факторы повышают вероятность использования дополнительных источников контента для обхода данных источников в разное время.
Основные причины обхода контента по разному расписанию:
В условиях простоев и периодов пиковой загрузки.
Для более частого обхода часто обновляемого содержимого.
Для обхода контента, размещенного на медленных серверах отдельно от содержимого на быстрых серверах.
Во многих случаях не вся информация известна до развертывания и запуска Office SharePoint Server 2007. Некоторые из этих решений принимаются, наоборот, на оперативном этапе. Однако рекомендуется оценить эти факторы во время планирования, чтобы можно было планировать расписание обходов, основываясь на имеющейся информации.
В двух следующих разделах представлены дополнительные сведения об обходе контента по различным расписаниям.
Простои и периоды пиковой загрузки
Рассмотрите периоды простоев и пиковой загрузки на серверах, на которых размещено содержимое для обхода. Например, если обход выполняется по содержимому, размещенному на большом количестве серверов за пределами фермы, их резервное копирование, скорее всего, будет выполняться по разному расписанию. Кроме того, они будут иметь разные периоды пиковой загрузки. Администрирование серверов за пределами серверов, как правило, неподконтрольно вам. Поэтому мы рекомендуем координировать обход с администраторами серверов, на которых размещено содержимое для обхода. Это позволит избежать попыток обхода во время простоев или периодов пиковой загрузки.
В типичной ситуации имеется содержимое, не контролируемое организацией, связанное с содержимым ее сайтов SharePoint. Можно добавить начальные адреса для этого содержимого в существующий источник контента или создать новый для внешнего содержимого. Поскольку доступность внешних сайтов может быть совершенно разной, полезно добавить отдельные источники контента для разного внешнего содержимого. Таким образом внешние источники контента можно обходить по расписанию, отличному от других источников. Набор внешнего содержимого можно затем обновлять по расписанию обхода контента, составленного в соответствии с доступностью каждого сайта.
Часто обновляемое содержимое
При планировании расписаний обхода учтите, что некоторые источники контента будут обновляться чаще, чем другие. Например, если есть данные о том, что содержимое некоторых семейств сайтов или внешних источников обновляется только по пятницам, обход контента чаще раза в неделю будет означать неэффективное использование ресурсов. Однако ферма серверов может содержать другие семейства сайтов, которые обновляются непрерывно с понедельника по пятницу, но не обновляются по субботами и воскресеньям. В этом случае будет целесообразен обход несколько раз в день по рабочим дням, но только один или два раза в день по выходным.
Метод хранения содержимого в семействах сайтов в среде определяет способ создания дополнительных источников контента для каждого семейства сайтов в каждом веб-приложении. Например, если семейство сайтов содержит только архивированные данные, его нужно обновлять реже, чем семейство сайтов, в котором хранится часто обновляемое содержимое. В этом случае эти семейства сайтов можно обходить с использованием разных источников контента, что позволит применять разные расписания обхода и избежать обхода архивных сайтов с той же частотой, что и другое содержимое.
Расписания полного и добавочного обхода
Администраторы общих служб могут настроить отдельное расписание обхода для каждого источника контента. Для каждого источника контента можно указать время полного обхода и время добавочного обхода по отдельности. Обратите внимание, что перед добавочным обходом источника контента необходимо выполнить его полный обход. Если будет выбран добавочный обход контента, для которого было обхода, система выполнит полный обход.
Примечание
Поскольку при полном обходе обрабатывается все содержимое, которое обнаруживает обходчик, и для которого имеет как минимум разрешение на чтение, это занимает существенно больше времени, чем добавочный обход, даже если обход уже был выполнен ранее.
Рекомендуется составлять расписания обхода, принимая во внимание доступность, производительность и пропускную способность канала передачи данных как серверов, на которых выполняется служба поиска, так и серверов, на которых расположено содержимое для обхода.
При планировании расписаний обхода следуйте рекомендациям ниже:
Группируйте начальные адреса в источниках контента на основании одинаковой доступности и с приемлемой общей нагрузкой на ресурсы серверов, на которых расположено содержимое.
Назначайте добавочные обходы контента в расписании для каждого источника контента на те периоды времени, когда соответствующие серверы доступны и при этом их ресурсы задействованы минимально.
Составляйте расписания обхода контента так, чтобы нагрузка на серверы в ферме организации равномерно распределялась по времени.
Планируйте полный обход только когда он необходимо по причинам, изложенным в следующем разделе. Рекомендуется выполнять полный обход реже, чем добавочный.
Планируйте административные изменения, которые требуют полного обхода, незадолго до полного обхода. Например, мы рекомендуем запланировать создание правила обхода перед запланированным полным обходом, чтобы устранить необходимость в дополнительной операции полного обхода.
Параллельные операции обхода должны основываться на мощности сервера индекса, который их обходит. Рекомендуется разделять расписания обхода так, чтобы сервер индекса не обходил несколько источников контента одновременно. Для наилучшей производительности рекомендуется разделять расписания обхода по источникам контента. Производительность сервера индекса и серверов, на которых размещено содержимое, определяет степень перекрытия операций обхода. Стратегия планирования обхода может сформироваться с течением времени, по мере знакомства администратора со стандартной длительностью обхода источника контента.
Причины полного обхода
Причины, по которым администратор служб поиска может выбрать полный обход:
Установка одного или нескольких исправлений или пакетов обновления на серверах фермы. См. дополнительные сведения в инструкциях к исправлению или пакету обновления.
Администратор поставщика общих служб добавил новое управляемое свойство.
Для повторной индексации страниц ASPX на сайтах Windows SharePoint Services 3.0 или Office SharePoint Server 2007.
Примечание
Обходчик не может определить, были ли обновлены страницы ASPX на сайтах Windows SharePoint Services 3.0 или Office SharePoint Server 2007. Из-за этого добавочный обход не может обеспечить повторную индексацию представлений или домашних страниц при удалении отдельных элементов. Рекомендуется периодически выполнять полный обход сайтов, включающих страницы ASPX, чтобы гарантировать их повторную индексацию.
Для устранения повторяющихся ошибок добавочного обхода. В редких случаях, когда добавочный обход на любом уровне хранилища завершается с ошибкой сто раз подряд, сервер индекса удаляет затронутое содержимое из индекса.
В случае, если правила обхода были добавлены, удалены или изменены.
Для исправления поврежденного индекса.
Если администратор служб поиска создал одно или несколько сопоставлений имен сервера.
Учетная запись, выбранная в качестве учетной записи для доступа к содержимому по умолчанию или правила обхода, была изменена.
Система выполняет полный обход контента, даже если запрашивается добавочный обход, в следующих случаях:
Администратор поставщика общих служб остановил предыдущий обход.
Восстановлена из резервной копии база данных контента.
Примечание
При наличии Обновление инфраструктуры для серверов Microsoft Office Servers можно с помощью операции restore инструмента командной строки stsadm включать или отключать полный обход контента при восстановлении базы данных контента.
Администратор фермы отключил и снова подключил базу данных контента.
Полный обход контента никогда не выполнялся.
Журнал изменений не содержит записей для адресов, обход которых выполняется. Без записей в журнале изменений для элементов, обход которых выполняется, выполнение добавочных обходов невозможно.
Учетная запись, выбранная в качестве учетной записи для доступа к содержимому по умолчанию или для правила обхода, была изменена.
Восстановление поврежденного индекса.
В зависимости от степени повреждения система может попытаться выполнить полный обход, если в индексе обнаружено повреждение.
Расписания можно скорректировать после начального развертывания на основе производительности и возможностей серверов фермы и серверов, на которых расположено содержимое.
Действие листа |
---|
Запишите принятые решения об источниках контента для начального развертывания в раздел Источники содержимого ресурса Таблица "Планирование обхода контента" (на английском языке) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x419) (на английском языке). |
Ограничение или увеличение объема содержимого для обхода
Для каждого источника контента можно выбрать глубину обхода контента относительно начального адреса. Кроме того, можно задать режим обхода, который иногда называют параметрами обхода. Параметры, которые можно выбрать для определенного источника контента, меняются в зависимости от его типа. Однако большинство параметров определяют количество уровней иерархии для каждого начального адреса, которые подлежат обходу. Обратите внимание, что этот режим применяется ко всем начальным адресам определенного источника контента. Если необходим обход части сайтов на более низком уровне, необходимо создать дополнительные источники контента, включающие эти сайты.
Параметры, доступные в свойствах каждого источника контента, меняются в зависимости от типа этого источника. В таблице ниже описываются параметры обхода, доступные для каждого типа источника контента.
Тип источника контента | Параметры обхода |
---|---|
Сайты SharePoint |
Все содержимое сайта для каждого начального адреса Только сайт SharePoint для каждого начального адреса |
Веб-сайты |
Только содержимое сервера для каждого начального адреса Только первая страница для каждого начального адреса Настраиваемый — задать глубину страниц и количество переходов. Примечание Значение по умолчанию для этого параметра — неограниченная глубина страниц и число переходов. |
Общие папки |
Папка и все вложенные папки каждого начального адреса Только папка каждого начального адреса |
Общие папки Exchange |
Папка и все вложенные папки каждого начального адреса Только папка каждого начального адреса |
Бизнес-данные |
Обход всего каталога бизнес-данных Обход выбранных приложений |
Как показано на предыдущей странице, администраторы общих служб могут использовать значения параметров для увеличения или уменьшения объема содержимого для обхода.
В таблице ниже приводятся рекомендации по настройке параметров обхода.
Для типа источника контента | Если относится к | Используйте следующий параметр обхода |
---|---|---|
Сайты SharePoint |
Необходимо включить содержимое самого сайта. - или - Не требуется включать содержимое дочерних сайтов, или их обход выполняется по другому расписанию. |
Обход только содержимого сайта SharePoint для каждого начального адреса |
Сайты SharePoint |
Необходимо включить содержимое самого сайта. - или - Необходим обход всего содержимого начального адреса по одному расписанию. |
Обход всего содержимого для имени сайта каждого начального адреса |
Веб-сайты |
Содержимое сайта является релевантным. - или - Содержимое, доступное на связанных сайтах, скорее всего, не является релевантным. |
Обход только содержимого в пределах сервера для каждого начального адреса |
Веб-сайты |
Релевантное содержимое присутствует только на первой странице. |
Обход контента только первой страницы для каждого начального адреса |
Веб-сайты |
Необходимо ограничить глубину обхода ссылок от начального адреса. |
Настраиваемый — задайте глубину страниц и количество серверных переходов для обхода. Примечание Рекомендуется начать с небольшого числа тесно связанных сайтов, поскольку глубина более трех страниц или более трех переходов от сервера может привести к обходу всего Интернета. |
Общие папки Общие папки Exchange |
Содержимое вложенных папок, скорее всего, не является релевантным. |
Обход только папки для каждого начального адреса |
Общие папки Общие папки Exchange |
Содержимое вложенных папок, скорее всего, не является релевантным. |
Обход папки и вложенные папки для каждого начального адреса |
Бизнес-данные |
Все приложения, зарегистрированные в каталоге бизнес-данных, содержат релевантное содержимое. |
Обход всего каталога бизнес-данных |
Бизнес-данные |
Не все приложения, зарегистрированные в каталоге бизнес-данных, содержат релевантное содержимое. - или - Необходимо выполнить обход некоторых приложений по другому расписанию. |
Обход выбранных приложений |
Планирование включения типов файлов и интерфейсов IFilter
Обход контента выполняется, только если соответствующее расширение имени файла добавлено в список включаемых типов файлов и на сервере индекса установлен фильтр IFilter, поддерживающий соответствующие типы файлов. Некоторые типы файлов включаются автоматически во время начальной установки. При планировании источников контента в ходе начального развертывания определите, используются ли в содержимом, подлежащем обходу, не включенные изначально типы файлов. Если типы файлов не были включены, добавьте их на странице "Управление типами файлов" в ходе время развертывания и убедитесь, что фильтр IFilter, поддерживающий файлы нужного типа, установлен и зарегистрирован.
В Office SharePoint Server 2007 представлено несколько типов фильтров IFilter; дополнительные типы можно получить через Майкрософт и сторонних поставщиков программного обеспечения. Дополнительные сведения об установке и регистрации дополнительных фильтров IFilter, предоставляемых Майкрософт, см. в статье Регистрация пакета Microsoft Filter Pack в SharePoint Server 2007 и Search Server 2008 (на английском языке) (https://go.microsoft.com/fwlink/?linkid=110532&clcid=0x419) (на английском языке). При необходимости разработчики программного обеспечения могут создать фильтры IFilter для новых типов файлов.
С другой стороны, если необходимо исключить определенные типы файлов из обхода, можно удалить разрешение этого типа и списка включения типов файлов. Это позволит исключить файлы с соответствующим расширением из обхода.
В таблице ни;е перечислены типы файлов, поддерживаемые интерфейсами IFilter, которые установлены по умолчанию и типы, которые включены на странице Управление типами файлов по умолчанию.
Расширение имени файла | Поддержка IFilter по умолчанию | включения типов файлов по умолчанию |
---|---|---|
ascx |
Да |
Да |
asm |
Да |
Нет |
asp |
Да |
Да |
aspx |
Да |
Да |
bat |
Да |
Нет |
c |
Да |
Нет |
cmd |
Да |
Нет |
cpp |
Да |
Нет |
css |
Да |
Нет |
cxx |
Да |
Нет |
def |
Да |
Нет |
dic |
Да |
Нет |
doc |
Да |
Да |
docm |
Да |
Да |
docx |
Да |
Да |
dot |
Да |
Да |
eml |
Да |
Да |
exch |
Нет |
Да |
h |
Да |
Нет |
hhc |
Да |
Нет |
hht |
Да |
Нет |
hpp |
Да |
Нет |
hta |
Да |
Нет |
htm |
Да |
Да |
html |
Да |
Да |
htw |
Да |
Нет |
htx |
Да |
Нет |
jhtml |
Нет |
Да |
jsp |
Нет |
Да |
lnk |
Да |
Нет |
mht |
Да |
Да |
mhtml |
Да |
Да |
mpx |
Да |
Нет |
msg |
Да |
Да |
mspx |
Нет |
Да |
nsf |
Нет |
Да |
odc |
Да |
Да |
one |
Нет |
Нет |
php |
Нет |
Да |
pot |
Да |
Нет |
pps |
Да |
Нет |
ppt |
Да |
Да |
pptm |
Да |
Да |
pptx |
Да |
Да |
pub |
Да |
Да |
stm |
Да |
Нет |
tif |
Да |
Да |
tiff |
Нет |
Да |
trf |
Да |
Нет |
txt |
Да |
Да |
url-адрес |
Нет |
Да |
vdx |
Нет |
Да |
vsd |
Нет |
Да |
vss |
Нет |
Да |
vst |
Нет |
Да |
vsx |
Нет |
Да |
vtx |
Нет |
Да |
xlb |
Да |
Нет |
xlc |
Да |
Нет |
xls |
Да |
Да |
xlsm |
Да |
Да |
xlsx |
Да |
Да |
xlt |
Да |
Нет |
xml |
Да |
Да |
Интерфейсы IFilter и Microsoft Office OneNote
Для файлов ONE, используемых приложением Microsoft Office OneNote 2007, фильтр IFilter не предоставляется. Чтобы предоставить пользователям возможность поиска содержимого в файлах Office OneNote, необходимо установить фильтр IFilter для OneNote. Для этого следует выполнить одно из следующих действий.
Установить клиентское приложение Microsoft Office OneNote 2007 на сервере индекса.
Фильтр IFilter, представленный в Office OneNote 2007, можно использовать для обхода файлов Office OneNote 2003 и Office OneNote 2007. Фильтр IFilter из Office OneNote 2003 поддерживает обход только для файлов Office OneNote 2003. Дополнительные сведения см. в статье Установка и регистрация OneNote IFilter (Office SharePoint Server 2007).
Установить и зарегистрировать пакет Microsoft Filter Pack.
Фильтр IFilter для OneNote, имеющийся в этом пакете фильтров, можно использовать только для обхода файлов Office OneNote 2007. Дополнительные сведения см. в статье Регистрация пакета Microsoft Filter Pack в SharePoint Server 2007 и Search Server 2008 (на английском языке).
Действие листа |
---|
Запишите принятые решения о включениях типов файлов и IFilter для начального развертывания в раздел Включения типов файлов и IFilter ресурса Таблица "Планирование обхода контента" (на английском языке) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x419) (на английском языке). |
Ограничение или исключение содержимого с помощью правил обхода
После добавления начального адреса в источники контента и принятия режима по умолчанию обход будет выполняться всех дочерних сайтов и папок, если они не будут исключены с помощью одного или нескольких правил обхода.
Дополнительные сведения о правилах обхода см. в разделе Планирование правил обхода контента далее в этом документе.
Другие соображения по планированию источников контента
Нельзя обходить один адрес, используя несколько источников контента. Например, если тот или иной источник контента используется для обхода семейства сайтов и всех дочерних сайтов, нельзя использовать другой источник контента для отдельного обхода этих дочерних сайтов по другому расписанию. Чтобы обойти это ограничение, можно выполнить отдельный обход некоторых сайтов. Рассмотрим следующий сценарий.
Администратор поставщика общих служб в компании Contoso хочет обойти веб-сайт http://contoso/, включающий дочерние сайты http://contoso//sites/site1 и http://contoso//sites/site2. Обход дочернего сайта http://contoso//sites/site2 должен выполняться по расписанию, отличному от расписания для других сайтов. Чтобы добиться этого, он добавляет адреса http://contoso/ и http://contoso//sites/site1 в один источник контента и выбирает параметр Обход только содержимого сайта SharePoint каждого начального адреса. Затем он добавляет http://contoso//sites/site2 в другой источник контента и задает для него другое расписание.
Помимо расписаний обхода при планировании источников контента необходимо рассмотреть ряд других моментов. Например, нужно ли группировать начальные адреса в одном источнике контента или создать дополнительные источники контента для обхода этих начальных адресов. Это решение сильно зависит от административных соображений. Администраторы часто вносят изменения, которые требуют полного обновления какого-либо источника контента. Изменения источника контента требует полного обхода этого источника. Для упрощения администрирования организуйте источники контента так, чтобы обновление источников контента, правил обхода и содержимого для обхода было удобным для администраторов.
Сводные сведения по источникам контента
При планировании источников контента рассмотрите следующие моменты:
Определенный источник контента может использоваться для обхода только одного из следующих типов контента: сайтов SharePoint, веб-сайтов, которые не являются сайтами SharePoint, общих файловых ресурсов, общих папок Exchange, баз данных Lotus Notes и бизнес-данных.
Администраторы общих служб могут создать до 500 источников контента в каждом поставщике общих служб, а каждый источник контента может содержать до 500 начальных адресов. Чтобы администрирование было максимально простым, необходимо создать только столько источников контента, сколько требуется.
Все URL-адреса в источнике контента должны ссылаться на содержимое одного типа.
Для источника контента можно выбрать глубину обхода от начального адреса. Эти параметры применяются ко всем начальным адресам источника контента. Доступные значения глубины обхода от начального адреса зависят от типа источника контента.
Существует возможность запланировать выполнение полного или добавочного обхода всего источника контента. Дополнительные сведения о планировании обхода см в разделе "Расписания полного и добавочного обхода" ранее в этой статье.
Администраторы общих служб могут изменять источник контента по умолчанию, создавать дополнительные источники контента для обхода другого содержимого или выполнить оба эти действия. Например, они могут настроить источник контента по умолчанию для обхода контента на сервере в другой фермы или создать новый источник для обхода другого содержимого.
Для эффективного обхода всего содержимого, необходимого организации, используйте ровно столько источников, сколько необходимо для обхода нужных источников контента с требуемой частотой.
Планирование проверки подлинности
Когда обходчик обращается к начальным адресам, перечисленным в источниках контента, его подлинность должно быть проверена для предоставления доступа к серверам, на которых размещено содержимое. Это значит, что учетная запись домена, используемая обходчиком, должна иметь как минимум разрешения на чтение содержимого.
Учетная запись по умолчанию для доступа к содержимому используется по умолчанию при обходе источников контента. Эта учетная запись задается администратором общих служб. Кроме того, можно использовать правила обхода для использования при обходе определенного содержимого. Независимо от того, какая учетная запись используется — учетная запись по умолчанию или другая учетная запись, указанная с помощью правила обхода, она должна иметь доступ на чтение ко всему содержимому для обхода. В противном случае обход выполняться не будет и содержимое будет недоступно для запросов.
Рекомендуется выбрать учетную запись по умолчанию для доступа к содержимому с доступом к максимально широкому набору содержимого, и использовать другие учетные записи для доступа к содержимому только когда использование отдельных учетных записей необходимо по соображениям безопасности. Сведения о создании отдельных учетных записей для доступа к содержимому для обхода контента, которое нельзя считать с помощью учетной записи по умолчанию см. в разделе Планирование правил обхода контента далее в этой статье.
Для каждого планируемого источника контента определите начальные адреса, доступ к которым нельзя получить с помощью учетной записи по умолчанию для доступа к содержимому и спланировать добавление правил обхода для шаблонов URL, которые включают эти начальные адреса.
Примечание
Убедитесь, что учетная запись домена, используемая в качестве учетной записи по умолчанию для доступа содержимому или другая учетная запись для доступа к содержимому не используется пулом приложений, связанным с веб-приложением, для которого выполняется обход. Это может привести к обходу и индексации неопубликованного содержимого и второстепенных (исторических) версий файлов на сайтах SharePoint.
Дополнительные сведения о соображениях планирования в отношении учетных записей для доступа к содержимому см. в разделе Планирование правил обхода далее в этой статье.
Действие листа |
---|
Запишите учетную запись доступа к содержимому по умолчанию, которая будет использована обходчиком при обходе контента, в раздел Учетная запись доступа к содержимому по умолчанию ресурса Таблица "Планирование обхода контента" (на английском языке) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x419) (на английском языке). |
Другой важный момент: обходчик должен использовать тот же метод проверки подлинности, что сервер. По умолчанию обходчик пытается выполнить проверку подлинности NTLM. При необходимости можно настроить обходчик на использование другого метода проверки подлинности. Дополнительные сведения см. в разделе "Требования к проверке подлинности при обходе контента" в разделе Планирование способов проверки подлинности (Office SharePoint Server).
Планирование обходчиков протоколов
Для всего содержимого, обход которого выполняется, требуется использование обработчика протоколов для получения доступа к этому содержимому. В Office SharePoint Server 2007 предоставляются обработчики протоколов для всех распространенных Интернет-протоколов. Однако, если необходимо выполнить обход контента, которому требуется обработчик протоколов, не установленный вместе с Office SharePoint Server 2007, то перед обходом контента следует установить сторонний или пользовательский обработчик протоколов.
В следующей таблице перечислены обработчики протоколов, которые устанавливаются по умолчанию.
Обработчик протоколов | Используется для обхода |
---|---|
Bdc |
Каталог бизнес-данных |
Bdc2 |
URL-адреса каталога бизнес-данных (внутренний протокол) |
Файл |
Общие папки |
http |
Веб-сайты |
https |
Веб-сайты SSL |
Примечание |
Базы данных Lotus Notes |
Rb |
Общие папки Exchange |
Rbs |
Общие папки Exchange по протоколу SSL |
Sps |
Профили людей из ферм серверов Службы Windows SharePoint Services 2.0 |
Sps3 |
Только обходы контента профилей людей с ферм серверов Windows SharePoint Services 3.0 |
Sps3s |
Только обходы контента профилей людей с ферм серверов Windows SharePoint Services 3.0 по протоколу SSL |
Spsimport |
Импорт профилей людей |
Spss |
Импорт профилей людей из ферм серверов Службы Windows SharePoint Services 2.0 по протоколу SSL |
Sts |
Корневые Windows SharePoint Services 3.0 URL-адреса (внутренний протокол) |
Sts2 |
Сайты Службы Windows SharePoint Services 2.0 |
Sts2s |
Сайты Службы Windows SharePoint Services 2.0 по протоколу SSL |
Sts3 |
Сайты Windows SharePoint Services 3.0 |
Sts3s |
Сайты Windows SharePoint Services 3.0 по протоколу SSL |
Действие листа |
---|
Запишите принятые решения по обработчикам протоколов для начального развертывания в раздел Обработчики протоколов ресурса Таблица "Планирование обхода контента" (на английском языке) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x419) (на английском языке). |
Планирование управления воздействием обхода
Обход контента может привести к значительному снижению производительности серверов, на которых хранится содержимое. Воздействие на тот или иной сервер зависит от нагрузки на этот сервер, наличия достаточных ресурсов (особенно ЦП и ОЗУ) для выполнения соглашений об уровне обслуживания при нормальной и пиковой нагрузке.
Правила воздействия обхода позволяют администраторам фермы управлять воздействием обходчика на серверы, подлежащие обходу. Для каждого правила можно указать один URL-адрес или использовать подстановочные знаки в URL-пути для применения правила к группе адресов. После этого можно указать количество одновременных запросов страниц для указанного URL-адреса или разрешить запрос только одного документа в отдельно взятый момент времени и задать период ожидания между запросами.
Правила управления воздействием обхода уменьшают или увеличивают частоту запросов содержимого с начального сайта или диапазона начальных адресов (другое название — имя сайта), независимо от источника контента, который используется для обхода этих адресов. В приведенной ниже таблице представлены подстановочные знаки, которые можно использовать в именах сайтов при добавлении правила.
Подстановочный знак | Результат |
---|---|
* в качестве имени сайта |
Правило применяется ко всем сайтам. |
*.* в качестве имени сайта |
Правило применяется к сайтам, содержащим точки в имени. |
*.*site_name*.com в качестве имени сайта |
Правило применяется ко всем сайтам домена *site_name* (например, *.adventure-works.com). |
*.*top-level_domain_name* в качестве имени сайта |
Правило применяется ко всем сайтам указанного домена верхнего уровня (например, .com или .net). |
? |
Заменяет один знак в правиле. Например, правило для *.adventure-works?.com применяется ко всем сайтам в доменах adventure-works1.com, adventure-works2.com и т. д. |
Можно создать правило воздействия обходчика, которое будет применяться ко всем сайтам в рамках домена верхнего уровня. Например *.com будет относиться ко всем сайтам Интернета с адресами, заканчивающимися на .com. Например, администратор сайта портала может добавить источник контента для samples.microsoft.com. Правило для *.com будет применяться к этому сайту, если только не создано отдельное правило воздействия обходчика для samples.microsoft.com.
При работе с содержимым внутри организации можно проконсультироваться с администраторами других сайтов о том, как настроить правила воздействия обходчика в соответствии с производительностью и возможностями серверов. Для большинства внешних сайтов такая координация невозможна. Если запрашивать слишком много содержимого или делать запросы слишком часто, администраторы сайтов в дальнейшем могут ограничить доступ, поскольку обходы требуют слишком много ресурсов или чрезмерно загружают сеть. Поэтому рекомендуется использовать более медленный обход. Это позволит снизить риск потери доступа, необходимого для обхода релевантного содержимого.
В процессе начального развертывания задайте правила воздействия обходчика так, чтобы как можно меньше воздействовать на другие серверы и при этом обходить содержимое в достаточном объеме и достаточно часто для обеспечения актуальности содержимого для обхода.
Правила воздействия обходчика можно корректировать на этапе эксплуатации на основании результатов и данных журналов обхода.
Действие листа |
---|
Запишите принятые решения по правилам воздействия обходчика для начального развертывания в раздел Правила воздействия обходчика ресурса Таблица "Планирование обхода контента" (на английском языке) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x419) (на английском языке). |
Планирование правил обхода
Правила обхода применяются в определенному URL-адресу или набору URL-адресов, представленный с помощью подстановочных знаков (путь, на который действует правило). Правила обхода позволяют:
Избежать обхода нерелевантного содержимого, исключив один или несколько URL-адресов. Кроме того, они помогают сократить использованием серверных ресурсов и сетевой трафик, а также повысить релевантность результатов поиска.
Обходить ссылки по URL-адресе без обхода контента самого URL-адреса. Этот параметр будет особенно полезен для сайтов со ссылками на релевантное содержимое, не включающих релевантных данных.
Выполнять обход сложных URL-адресов. Этот параметр используется для обхода контента URL-адресов, включающих параметр запроса, указанный с использованием знаков вопроса. На разных сайтах эти URL-адреса могут включать или не включать релевантное содержимое. Поскольку сложные URL-адреса часто ведут к нерелевантным сайтам, рекомендуется выбирать этот параметр только для тех сайтов, сложные URL-адреса которых заведомо релевантны.
Обеспечить обход контента сайтов SharePoint как HTTP-страниц. Этот параметр позволяет серверу индекса обходить сайты SharePoint за пределами межсетевого экрана или в сценариях, в которых сайт для обхода ограничивает доступ к веб-службе, используемой обходчиком.
Указать, какую учетную запись следует использовать для доступа к содержимому — учетную запись по умолчанию, другую учетную запись или клиентский сертификат для обхода выбранного URL-адреса.
Примечание
Правила обхода применяются одновременно ко всему содержимому в поставщике общих служб.
Чаще всего большая часть содержимого определенного адреса сайта релевантна, но отдельные дочерние сайты или группы сайтов — нет. Выбрав ограниченное сочетание URL-адресов, для которого необходимо задать правила обхода, исключающие ненужные элементы, администраторы общих служб могут повысить релевантность содержимого в индексе и снизить воздействие на производительность обхода и размер базы данных поиска. Создание правил обхода для исключения URL-адресов особенно полезно при планировании начальных адресов для внешнего содержимого, воздействие на использование ресурсов которого не контролируется вашей организацией.
При создании правила обхода можно использовать стандартные подстановочные символы в пути. Например:
http://server1/folder* соответствует всем веб-ресурсам с URL-адресом, начинающимся на "http://server1/folder".
*://*.txt соответствует всем документам с расширением TXT.
Поскольку обход контента требует выделения части ресурсов и полосы пропускания, лучше включить небольшой объем содержимого, о котором известно, что оно релевантно, чем больший объем, в котором могут быть нерелевантные данные. После начального развертывания можно просмотреть журналы запросов и обходов и скорректировать источники контента и правила обхода для обеспечения более высокой релевантности и большего объема содержимого.
Задание другой учетной записи для доступа к содержимому
Для правил обхода, включающих содержимое, администраторы могут изменить учетную запись для доступа к содержимому в рамках правила. Учетная запись по умолчанию для доступа к содержимому используется, если иное не указано в правиле обхода. Другую учетную запись применяют в тех случаях, когда учетная запись по умолчанию для доступа к содержимому не имеет доступа к некоторым начальным адресам. Для таких начальных адресов можно создать правило обхода контента и выбрать учетную запись, которая имеет к ним доступ.
Примечание
Убедитесь, что учетная запись домена, используемая в качестве учетной записи по умолчанию для доступа содержимому или другая учетная запись для доступа к содержимому не используется пулом приложений, связанным с веб-приложением, для которого выполняется обход. Это может привести к обходу и индексации неопубликованного содержимого и второстепенных (исторических) версий файлов на сайтах SharePoint.
Действие листа |
---|
Запишите принятые решения по правилам обхода для начального развертывания в раздел Правила обхода ресурса Таблица "Планирование обхода контента" (на английском языке) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x419) (на английском языке). |
Планирование параметров поиска на уровне фермы
В дополнение к параметрам, задаваемым на уровне поставщика общих служб, несколько параметров, влияющих на обход контента, управляются на уровне фермы. При планировании обхода рассмотрите следующие параметры поиска на уровне фермы:
Адрес электронной почты контакта. Обход контента влияет на ресурсы серверов, подлежащих обходу. Перед началом обхода контента необходимо задать адрес электронной почты сотрудника организации, к которому администраторы могут обратиться, если обход оказывает значительное влияние на их серверы. Этот адрес содержится в журналах для администраторов серверов, подлежащих обходу, чтобы эти администраторы могли обратиться к кому-то, если обход слишком сильно воздействует на производительность и полосу пропускания или возникают иные вопросы.
Адрес электронной почты контакта должен принадлежать сотруднику, обладающему необходимым опытом, и имеющему возможность быстро отвечать на запросы. Кроме того, в качестве адреса электронной почты можно использовать отслеживаемый псевдоним списка рассылки. Быстрота ответа важна в любом случае, независимо от того, хранится ли обходимое содержимое внутри организации или вне ее.
Параметры прокси-сервера. Можно выбрать, использовать ли прокси-сервер при обходе контента. Использование прокси-сервера зависит от топологии развертывания Office SharePoint Server 2007 и архитектуры других серверов организации.
Параметры времени ожидания. Параметры времени ожидания используются для ограничения времени ожидания подключения к другим службам на сервере поиска.
Параметр SSL. Параметр SSL определяет, необходимо ли точное соответствие сертификата SSL для обхода контента.
Действие листа |
---|
Запишите принятые решения по параметрам поиска на уровне фермы для начального развертывания в раздел Параметры поиска на уровне фермы ресурса Таблица "Планирование обхода контента" (на английском языке) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x419) (на английском языке). |
Индексация содержимого на разных языках
При обходе контента обходчик определяет каждое отдельное слово, которое он находит в содержимом. В языках, где слова разделены пробелами, обходчику не составляет особого труда различить отдельные слова. В других языках задача определения границы между словами может оказаться более сложной.
Система Office SharePoint Server 2007 предоставляет средства разбиения по словам и средства извлечения корней по умолчанию, помогающие совершать обход и индексировать содержимое на многих языках. Средства разбиения по словам находят границы между словами в полнотекстовых индексированных данных, а средства извлечения корней спрягают глаголы.
Если производится обход любого из языков, перечисленных в приведенной ниже таблице, система Office SharePoint Server 2007 автоматически использует соответствующие средства разбиения по словам и извлечения корней для этих языков. Звездочка (*) говорит о том, что функция извлечения корней включена по умолчанию.
Языки, поддерживаемые по умолчанию | Языки, поддерживаемые по умолчанию |
---|---|
Арабский |
Литовский* |
Бенгальский |
Малайский |
Болгарский* |
Малаялам* |
Каталанский |
Маратхи |
Хорватский |
Норвежский (букмол) |
Чешский* |
Польский* |
Датский |
Португальский |
Голландский |
Бразильский португальский |
Английский |
Пенджабский |
Финский* |
Румынский* |
Французский* |
Русский* |
Немецкий* |
Сербский (кириллица)* |
Греческий* |
Сербский (латиница)* |
Гуджаратский |
Словацкий* |
Иврит |
Словенский* |
Хинди |
Испанский* |
Венгерский* |
Шведский |
Исландский* |
Тамильский* |
Индонезийский |
Телугу* |
Итальянский |
Тайский |
Японский |
Турецкий* |
Каннада* |
Украинский* |
Корейский |
Урду* |
Латышский* |
Вьетнамский |
Если обходчик индексирует содержимое для языка, который не поддерживается, используется нейтральное средство разбиения по словам. Если нейтральное средство разбиения по словам не дает ожидаемых результатов, можно попытаться использовать решения сторонних производителей, работающие с системой Office SharePoint Server 2007.
Рекомендуется устанавливать средства разбиения текста на слова и извлечения корней для всех поддерживаемых языков. Средства разбиения текста на слова и извлечения корней необходимо установить на всех серверах, на которых работает служба поиска Office SharePoint Server.
Дополнительные сведения о средствах разбиения текста на слова и извлечения корней см. в статье Планирование многоязычных сайтов.
Действие листа |
---|
Запишите принятые решения по средствам разбиения текста на слова и средствах извлечения корней для начального развертывания в раздел "Средства разбиения текста на слова и средства извлечения корней" ресурса Таблица "Планирование обхода контента" (на английском языке) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x419) (на английском языке). |
Форма
Запишите решения относительно источников контента и другие решение об обходе контента в следующей таблице, если это еще не сделано:
- Таблица "Планирование обхода контента" (на английском языке) (https://go.microsoft.com/fwlink/?linkid=73748&clcid=0x419) (на английском языке)
Если будет принято решение создать только некоторые из запланированных источников контента во время начального развертывания, используйте эту таблицу для дальнейшей эксплуатации.
Загрузите эту книгу
Этот раздел включен в следующую загружаемую книгу для удобства чтения и печати:
Полный список доступных книг приведен в разделе Загружаемые материалы для Office SharePoint Server 2007.