Бөлісу құралы:


Соединитель Microsoft Graph для облачных веб-сайтов для корпоративных веб-сайтов

Соединитель Microsoft Graph для корпоративных веб-сайтов позволяет вашей организации индексировать веб-страницы и содержимое с веб-сайтов компании или общедоступных веб-сайтов в Интернете. После настройки соединителя и индексирования содержимого с веб-сайта пользователи могут искать это содержимое в Поиске (Майкрософт) и Microsoft 365 Copilot.

Эта статья предназначена для администраторов Microsoft 365 или тех, кто настраивает, запускает и отслеживает облачный соединитель Microsoft Graph для веб-сайтов предприятия.

Важно!

Вы можете использовать локальный соединитель Microsoft Graph корпоративных веб-сайтов для индексирования веб-сайтов , размещенных локально или в частных облаках.

Возможности

  • Индексирование веб-страниц с веб-сайтов, доступных в облаке.
  • Индексирование до 50 веб-сайтов в одном подключении.
  • Исключите веб-страницы из обхода с помощью правил исключения.
  • Используйте семантический поиск в Copilot , чтобы пользователи могли находить соответствующее содержимое.

Поддерживаемые типы файлов

Расширение файла Тип файла Описание
PDF PDF Формат PDF
.odt Текст OpenDocument Текстовый документ OpenDocument
.ods Электронная таблица OpenDocument Электронная таблица OpenDocument
ODP-файл Презентация OpenDocument Презентация OpenDocument
ODG-файл Графика OpenDocument Графика OpenDocument
XLS Excel (старый) Электронная таблица Excel (старый формат)
XLSX Excel (новое) Электронная таблица Excel (новый формат)
PPT PowerPoint (старая версия) Презентация PowerPoint (старый формат)
PPTX PowerPoint (новый) Презентация PowerPoint (новый формат)
DOC Word (старая версия) документ Word (старый формат)
DOCX Word (новое) документ Word (новый формат)
.csv CSV значения Comma-Separated
.txt обычный текст; Обычный текстовый файл
.xml XML Расширяемый язык разметки
MD-файл Markdown Файл Markdown
RTF Rich Text Format Rich Text Format
.tsv Значения, разделенные табуляции значения Tab-Separated

Поддерживаемые типы MIME

Тип MIME Описание
text/html Язык HTML, используемый для форматирования структуры веб-страницы.
text/webviewhtml Тип MIME, используемый для веб-содержимого, отображаемого в элементах управления WebView.
text/x-server-parsed-html Проанализированные сервером HTML-документы, часто используемые для серверных включений (SSI).

Ограничения

  • Соединитель не поддерживает такие механизмы проверки подлинности, как SAML, токен JWT, проверка подлинности на основе Forms и т. д.
  • Соединитель не поддерживает обход динамического содержимого на веб-страницах.

Предварительные условия

  • Вы должны быть администратором поиска для клиента Microsoft 365 вашей организации.
  • URL-адреса веб-сайта. Чтобы подключиться к содержимому веб-сайта, вам потребуется URL-адрес веб-сайта. Вы можете индексировать несколько веб-сайтов (до 50) в одном соединении.
  • Учетная запись службы (необязательно): учетная запись службы требуется только в том случае, если веб-сайты требуют проверки подлинности. Общедоступные веб-сайты не требуют проверки подлинности, и их можно сканировать напрямую. Для веб-сайтов, требующих проверки подлинности, рекомендуется иметь выделенную учетную запись для проверки подлинности и обхода контента.

Начало работы

Снимок экрана: экран создания подключения для облака соединителя Microsoft Graph для корпоративных веб-сайтов.

1. Отображаемое имя

Отображаемое имя используется для идентификации каждой ссылки в Copilot, помогая пользователям легко распознавать связанный файл или элемент. Отображаемое имя также означает доверенное содержимое. Отображаемое имя также используется в качестве фильтра источника содержимого. Для этого поля используется значение по умолчанию, но его можно настроить на имя, которое распознают пользователи в вашей организации.

2. URL-адреса веб-сайта для индексирования

Укажите корень веб-сайта, который вы хотите сканировать. Соединитель Microsoft Graph облака корпоративных веб-сайтов использует этот URL-адрес в качестве отправной точки и перейдите по всем ссылкам из этого URL-адреса для обхода контента. В одном подключении можно проиндексировать до 50 различных URL-адресов сайтов. В поле URL-адреса введите URL-адреса сайта, разделенные запятыми (,). Например, https://www.contoso.com,https://www.contosoelectronics.com.

Примечание.

Соединитель всегда начинает обход контента из корня URL-адреса. Например, если предоставленный URL-адрес — https://www.contoso.com/electronics, то соединитель начнет обход контента из https://www.contoso.com.

Соединитель сканирует только веб-страницы в домене корневых URL-адресов и не поддерживает обход URL-адресов вне домена. Перенаправление поддерживается только в том же домене. Если на веб-страницах для обхода есть перенаправления, вы можете добавить перенаправленный URL-адрес непосредственно в список URL-адресов для обхода.

Использование карты сайта для обхода контента

Если этот параметр выбран, соединитель сканирует только URL-адреса, перечисленные в карте сайта. Этот параметр также позволяет настроить добавочный обход контента на более позднем этапе. Если не выбрано или карта сайта не найдена, соединитель выполняет глубокий обход всех ссылок, найденных в корневом URL-адресе сайта.

Если этот параметр выбран, средство-обходчик выполняет следующие действия:

А. Средство-обходчик ищет файл robots.txt в корневом расположении. Например, если указан URL-адрес https://www.contoso.com, то средство-обходчик ищет файл robots.txt по адресу https://www.contoso.com/robots.txt.

Б. При поиске файла robots.txt программа-обходчик находит ссылки карты сайта в файле robots.txt.

c. Затем сканер сканирует все веб-страницы, как указано в файлах карты сайта.

d. Если на любом из описанных выше шагов произошел сбой, средство-обходчик выполняет глубокое сканирование веб-сайта, не вызывая никаких ошибок.

3. Тип проверки подлинности

Выбранный метод проверки подлинности применяется ко всем веб-сайтам, предоставленным для индексирования в соединении. Для проверки подлинности и синхронизации содержимого с веб-сайтов выберите один из четырех поддерживаемых методов:

А. Нет
Выберите этот параметр, если веб-сайты общедоступны без каких-либо требований проверки подлинности.

Б. Обычная проверка подлинности
Введите имя пользователя и пароль учетной записи для проверки подлинности с помощью обычной проверки подлинности.

c. SiteMinder
Для проверки подлинности Siteminder требуется правильно отформатированный URL-адрес, https://custom_siteminder_hostname/smapi/rest/createsmsessionимя пользователя и пароль.

d. Microsoft Entra учетные данные клиента OAuth 2.0
OAuth 2.0 с Microsoft Entra ID требуется идентификатор ресурса, идентификатор клиента и секрет клиента.

Идентификатор ресурса, идентификатор клиента и значения секрета клиента зависят от того, как вы выполнили настройку проверки подлинности на основе Microsoft Entra ID для веб-сайта. Один из двух указанных вариантов может подойти для вашего веб-сайта:

  1. Если вы используете приложение Microsoft Entra как поставщик удостоверений, так и клиентское приложение для доступа к веб-сайту, идентификатор клиента и идентификатор ресурса являются идентификатором приложения этого отдельного приложения, а секрет клиента — секретом, созданным в этом приложении.

    После настройки клиентского приложения обязательно создайте секрет клиента, перейдя в раздел Сертификаты & секреты приложения. Скопируйте значение секрета клиента, отображаемое на странице, так как оно не отображается снова.

    На следующих снимках экрана вы можете просмотреть шаги по получению идентификатора клиента и секрета клиента, а также настроить приложение, если вы создаете приложение самостоятельно.

    • Просмотр параметров в разделе фирменной символики:

    • Просмотр параметров в разделе проверки подлинности:

      Примечание.

      Не требуется использовать указанный выше маршрут для URI перенаправления на веб-сайте. Только если вы используете маркер пользователя, отправленный Azure на веб-сайте для проверки подлинности, вам потребуется маршрут.

    • Просмотр идентификатора клиента в разделе Essentials:

    • Просмотр секрета клиента в разделе Сертификаты & секреты :

  2. Если вы используете приложение (первое приложение) в качестве поставщика удостоверений для своего веб-сайта в качестве ресурса и другое приложение (второе приложение) для доступа к веб-сайту, идентификатор клиента — это идентификатор приложения второго приложения, а секрет клиента — секрет, настроенный во втором приложении. Однако идентификатор ресурса — это идентификатор вашего первого приложения.

    Вам не нужно настраивать секрет клиента в этом приложении, но необходимо добавить роль приложения в разделе Роли приложения , который позже будет назначен вашему клиентскому приложению. См. изображения, чтобы узнать, как добавить роль приложения.

    • Создание роли приложения:

    • Изменение новой роли приложения:

      После настройки приложения-ресурса создайте клиентское приложение и предоставьте ему разрешение на доступ к приложению-ресурсу, добавив роль приложения, настроенную выше, в разрешениях API клиентского приложения.

      Примечание.

      Сведения о предоставлении разрешений клиентскому приложению см. в статье Краткое руководство. Настройка клиентского приложения для доступа к веб-API.

    На следующих снимках экрана показан раздел предоставления разрешений клиентскому приложению.

    • Добавление разрешения:

    • Выбор разрешений:

    • Добавление разрешений:

    После назначения разрешений необходимо создать секрет клиента для этого приложения, перейдя в раздел Сертификаты & секреты. Скопируйте значение секрета клиента, отображаемое на странице, так как оно не отображается снова. Используйте идентификатор приложения из этого приложения в качестве идентификатора клиента, секрет из этого приложения в качестве секрета клиента и идентификатор приложения первого приложения в качестве идентификатора ресурса.

4. Развертывание для ограниченной аудитории

Разверните это подключение в ограниченной базе пользователей, если вы хотите проверить его в Copilot и других поверхностях поиска, прежде чем развернуть развертывание для более широкой аудитории. Дополнительные сведения об ограниченном выпуске см. в разделе Поэтапное развертывание.

На этом этапе вы готовы создать подключение для облачных веб-сайтов. Вы можете нажать кнопку Создать , чтобы опубликовать веб-страницы подключения и индексировать их с веб-сайтов.

Для других параметров, таких как разрешения доступа, правила включения данных, схема, частота обхода контента и т. д., у нас есть значения по умолчанию в зависимости от того, что лучше всего подходит для веб-сайтов. Ниже приведены значения по умолчанию:

Пользователи Описание
Разрешения доступа Все в вашей организации увидят это содержимое
Содержимое Описание
URL-адреса для исключения Нет
Управление свойствами Сведения о проверка свойств по умолчанию и их схеме см. в разделе содержимое.
Синхронизация Описание
Добавочный обход контента Частота: каждые 15 минут (поддерживается только при обходе карты сайта)
Полный обход контента Частота: каждый день

Если вы хотите изменить любое из этих значений, необходимо выбрать параметр "Настраиваемая настройка".

Настраиваемая настройка

Пользовательская настройка предназначена для администраторов, которые хотят изменить значения по умолчанию для параметров, перечисленных в таблице выше. Щелкнув параметр "Настраиваемая настройка", вы увидите еще три вкладки: Пользователи, Содержимое и Синхронизация.

Пользователи

Снимок экрана: вкладка

Разрешения доступа

Облачный соединитель корпоративных веб-сайтов поддерживает разрешения на поиск, видимые только для всех . Индексированные данные отображаются в результатах поиска для всех пользователей в вашей организации.

Содержимое

Снимок экрана: вкладка

Добавление URL-адресов для исключения (необязательные ограничения обхода контента)

Существует два способа предотвратить обход страниц: запретить их в файле robots.txt или добавить в список исключений.

  1. Поддержка robots.txt

    Соединитель проверяет, есть ли файл robots.txt для корневого сайта. Если он существует, он следует и учитывает направления, найденные в этом файле. Если вы не хотите, чтобы соединитель выполнял обход определенных страниц или каталогов на сайте, добавьте эти страницы или каталоги в объявления "Запретить" в файл robots.txt.

  2. Добавление URL-адресов для исключения

    При необходимости можно создать список исключений , чтобы исключить некоторые URL-адреса из обхода, если это содержимое является конфиденциальным или не стоит обхода. Чтобы создать список исключений, просмотрите корневой URL-адрес. Исключенные URL-адреса можно добавить в список во время процесса настройки.

Управление свойствами

Здесь можно добавить или удалить доступные свойства с веб-сайтов, назначить схему свойству (определить, является ли свойство доступным для поиска, с возможностью запроса, с возможностью извлечения или уточнения), изменить семантиковую метку и добавить псевдоним в свойство . Свойства, выбранные по умолчанию, перечислены ниже.

Свойство source Метка Описание Схема
авторов авторов Люди, которые участвовали в работе с элементом в источнике данных Запрос, извлечение
Содержимое Содержимое Все текстовое содержимое веб-страницы Поиск
CreatedDateTime Дата создания Данные и время создания элемента в источнике данных Запрос, извлечение
Описание Извлечение, поиск
FileType Расширение файла Расширение файла для контента для обхода Запрос, уточнение, извлечение
ЗначокURL IconUrl URL-адрес значка веб-страницы Восстанавливать
LastModifiedBy Автор последнего изменения Пользователь, который в последний раз изменял элемент в источнике данных Запрос, извлечение
LastModifiedDateTime Время последней измененной даты Дата и время последнего изменения элемента в источнике данных. Запрос, извлечение
Title Title Заголовок элемента, который вы хотите показать в Copilot и других интерфейсах поиска Извлечение, поиск
URL-адрес url Целевой URL-адрес элемента в источнике данных Восстанавливать

Соединитель облака корпоративного веб-сайта поддерживает два типа свойств источника:

  1. Метатег

    Соединитель извлекает все метатеги, которые могут иметь корневые URL-адреса, и отображает их. Вы можете выбрать теги, которые следует включить для обхода контента. Выбранный тег индексируется для всех предоставленных URL-адресов, если они доступны.

    Снимок экрана: вкладка

    Выбранные метатеги можно использовать для создания пользовательских свойств. Кроме того, на странице схемы вы можете управлять ими дальше (с возможностью запроса, с возможностью поиска, с возможностью извлечения, с возможностью уточнения).

  2. Параметры пользовательских свойств

    Индексированные данные можно дополнить, создав пользовательские свойства для выбранных метатегов или свойства соединителя по умолчанию.

    Снимок экрана: вкладка

    Чтобы добавить пользовательское свойство, выполните приведенные далее действия.

    1. Введите имя свойства. Это имя отображается в результатах поиска из этого соединителя.
    2. Для значения выберите Статическое или Строковое/регулярное сопоставление. Статическое значение включается во все результаты поиска из этого соединителя. Строковое или регулярное значение зависит от добавляемого правила.
    3. Если выбрано статическое значение, введите значение, которое вы хотите отображать.
    4. Если вы выбрали значение String/rRegex:
      • В разделе Добавление выражений в списке Свойства выберите свойство по умолчанию или мета-тег из списка. В поле Пример значения введите строку, представляющую тип значений, которые могут отображаться. Этот пример используется при предварительном просмотре правила. В поле Выражение введите регулярное выражение, чтобы определить часть значения свойства, которая должна отображаться в результатах поиска. Можно добавить до трех выражений.
      • В разделе Создание формулы введите формулу для объединения значений, извлеченных из выражений.

Дополнительные сведения о регулярных выражениях см. в разделе Регулярные выражения .NET или найдите в Интернете справочное руководство по выражению регулярных выражений.

Синхронизация

Снимок экрана: вкладка

Интервал обновления определяет частоту синхронизации данных между источником данных и индексом соединителя Graph. Существует два типа интервалов обновления: полный обход контента и добавочный обход контента. Дополнительные сведения см. в разделе Параметры обновления.

При необходимости можно изменить значения интервала обновления по умолчанию.

Примечание.

Добавочный обход контента поддерживается только в том случае, если выбран параметр обхода карты сайта.

Устранение неполадок

После публикации подключения можно просмотреть состояние на вкладке Источники данных в Центре администрирования. Сведения об обновлении и удалении см. в статье Управление соединителем. Инструкции по устранению распространенных проблем можно найти здесь.

Если у вас возникли проблемы или вы хотите отправить отзыв, обратитесь в Microsoft Graph | Поддержка.