Соединитель Microsoft Graph для облачных веб-сайтов для корпоративных веб-сайтов
Соединитель Microsoft Graph для корпоративных веб-сайтов позволяет вашей организации индексировать веб-страницы и содержимое с веб-сайтов компании или общедоступных веб-сайтов в Интернете. После настройки соединителя и индексирования содержимого с веб-сайта пользователи могут искать это содержимое в Поиске (Майкрософт) и Microsoft 365 Copilot.
Эта статья предназначена для администраторов Microsoft 365 или тех, кто настраивает, запускает и отслеживает облачный соединитель Microsoft Graph для веб-сайтов предприятия.
Важно!
Вы можете использовать локальный соединитель Microsoft Graph корпоративных веб-сайтов для индексирования веб-сайтов , размещенных локально или в частных облаках.
Возможности
- Индексирование веб-страниц с веб-сайтов, доступных в облаке.
- Индексирование до 50 веб-сайтов в одном подключении.
- Исключите веб-страницы из обхода с помощью правил исключения.
- Используйте семантический поиск в Copilot , чтобы пользователи могли находить соответствующее содержимое.
Поддерживаемые типы файлов
Расширение файла | Тип файла | Описание |
---|---|---|
Формат PDF | ||
.odt | Текст OpenDocument | Текстовый документ OpenDocument |
.ods | Электронная таблица OpenDocument | Электронная таблица OpenDocument |
ODP-файл | Презентация OpenDocument | Презентация OpenDocument |
ODG-файл | Графика OpenDocument | Графика OpenDocument |
XLS | Excel (старый) | Электронная таблица Excel (старый формат) |
XLSX | Excel (новое) | Электронная таблица Excel (новый формат) |
PPT | PowerPoint (старая версия) | Презентация PowerPoint (старый формат) |
PPTX | PowerPoint (новый) | Презентация PowerPoint (новый формат) |
DOC | Word (старая версия) | документ Word (старый формат) |
DOCX | Word (новое) | документ Word (новый формат) |
.csv | CSV | значения Comma-Separated |
.txt | обычный текст; | Обычный текстовый файл |
.xml | XML | Расширяемый язык разметки |
MD-файл | Markdown | Файл Markdown |
RTF | Rich Text Format | Rich Text Format |
.tsv | Значения, разделенные табуляции | значения Tab-Separated |
Поддерживаемые типы MIME
Тип MIME | Описание |
---|---|
text/html | Язык HTML, используемый для форматирования структуры веб-страницы. |
text/webviewhtml | Тип MIME, используемый для веб-содержимого, отображаемого в элементах управления WebView. |
text/x-server-parsed-html | Проанализированные сервером HTML-документы, часто используемые для серверных включений (SSI). |
Ограничения
- Соединитель не поддерживает такие механизмы проверки подлинности, как SAML, токен JWT, проверка подлинности на основе Forms и т. д.
- Соединитель не поддерживает обход динамического содержимого на веб-страницах.
Предварительные условия
- Вы должны быть администратором поиска для клиента Microsoft 365 вашей организации.
- URL-адреса веб-сайта. Чтобы подключиться к содержимому веб-сайта, вам потребуется URL-адрес веб-сайта. Вы можете индексировать несколько веб-сайтов (до 50) в одном соединении.
- Учетная запись службы (необязательно): учетная запись службы требуется только в том случае, если веб-сайты требуют проверки подлинности. Общедоступные веб-сайты не требуют проверки подлинности, и их можно сканировать напрямую. Для веб-сайтов, требующих проверки подлинности, рекомендуется иметь выделенную учетную запись для проверки подлинности и обхода контента.
Начало работы
1. Отображаемое имя
Отображаемое имя используется для идентификации каждой ссылки в Copilot, помогая пользователям легко распознавать связанный файл или элемент. Отображаемое имя также означает доверенное содержимое. Отображаемое имя также используется в качестве фильтра источника содержимого. Для этого поля используется значение по умолчанию, но его можно настроить на имя, которое распознают пользователи в вашей организации.
2. URL-адреса веб-сайта для индексирования
Укажите корень веб-сайта, который вы хотите сканировать. Соединитель Microsoft Graph облака корпоративных веб-сайтов использует этот URL-адрес в качестве отправной точки и перейдите по всем ссылкам из этого URL-адреса для обхода контента. В одном подключении можно проиндексировать до 50 различных URL-адресов сайтов. В поле URL-адреса введите URL-адреса сайта, разделенные запятыми (,). Например, https://www.contoso.com,https://www.contosoelectronics.com
.
Примечание.
Соединитель всегда начинает обход контента из корня URL-адреса. Например, если предоставленный URL-адрес — https://www.contoso.com/electronics
, то соединитель начнет обход контента из https://www.contoso.com
.
Соединитель сканирует только веб-страницы в домене корневых URL-адресов и не поддерживает обход URL-адресов вне домена. Перенаправление поддерживается только в том же домене. Если на веб-страницах для обхода есть перенаправления, вы можете добавить перенаправленный URL-адрес непосредственно в список URL-адресов для обхода.
Использование карты сайта для обхода контента
Если этот параметр выбран, соединитель сканирует только URL-адреса, перечисленные в карте сайта. Этот параметр также позволяет настроить добавочный обход контента на более позднем этапе. Если не выбрано или карта сайта не найдена, соединитель выполняет глубокий обход всех ссылок, найденных в корневом URL-адресе сайта.
Если этот параметр выбран, средство-обходчик выполняет следующие действия:
А. Средство-обходчик ищет файл robots.txt в корневом расположении. Например, если указан URL-адрес https://www.contoso.com
, то средство-обходчик ищет файл robots.txt по адресу https://www.contoso.com/robots.txt
.
Б. При поиске файла robots.txt программа-обходчик находит ссылки карты сайта в файле robots.txt.
c. Затем сканер сканирует все веб-страницы, как указано в файлах карты сайта.
d. Если на любом из описанных выше шагов произошел сбой, средство-обходчик выполняет глубокое сканирование веб-сайта, не вызывая никаких ошибок.
3. Тип проверки подлинности
Выбранный метод проверки подлинности применяется ко всем веб-сайтам, предоставленным для индексирования в соединении. Для проверки подлинности и синхронизации содержимого с веб-сайтов выберите один из четырех поддерживаемых методов:
А.
Нет
Выберите этот параметр, если веб-сайты общедоступны без каких-либо требований проверки подлинности.
Б.
Обычная проверка подлинности
Введите имя пользователя и пароль учетной записи для проверки подлинности с помощью обычной проверки подлинности.
c.
SiteMinder
Для проверки подлинности Siteminder требуется правильно отформатированный URL-адрес, https://custom_siteminder_hostname/smapi/rest/createsmsession
имя пользователя и пароль.
d.
Microsoft Entra учетные данные клиента OAuth 2.0
OAuth 2.0 с Microsoft Entra ID требуется идентификатор ресурса, идентификатор клиента и секрет клиента.
Идентификатор ресурса, идентификатор клиента и значения секрета клиента зависят от того, как вы выполнили настройку проверки подлинности на основе Microsoft Entra ID для веб-сайта. Один из двух указанных вариантов может подойти для вашего веб-сайта:
Если вы используете приложение Microsoft Entra как поставщик удостоверений, так и клиентское приложение для доступа к веб-сайту, идентификатор клиента и идентификатор ресурса являются идентификатором приложения этого отдельного приложения, а секрет клиента — секретом, созданным в этом приложении.
Примечание.
Подробные инструкции по настройке клиентского приложения в качестве поставщика удостоверений см. в разделах Краткое руководство. Регистрация приложения в платформа удостоверений Майкрософт и Настройка приложения Служба приложений или Функции Azure для использования Microsoft Entra входа.
После настройки клиентского приложения обязательно создайте секрет клиента, перейдя в раздел Сертификаты & секреты приложения. Скопируйте значение секрета клиента, отображаемое на странице, так как оно не отображается снова.
На следующих снимках экрана вы можете просмотреть шаги по получению идентификатора клиента и секрета клиента, а также настроить приложение, если вы создаете приложение самостоятельно.
Просмотр параметров в разделе фирменной символики:
Просмотр параметров в разделе проверки подлинности:
Примечание.
Не требуется использовать указанный выше маршрут для URI перенаправления на веб-сайте. Только если вы используете маркер пользователя, отправленный Azure на веб-сайте для проверки подлинности, вам потребуется маршрут.
Просмотр идентификатора клиента в разделе Essentials:
Просмотр секрета клиента в разделе Сертификаты & секреты :
Если вы используете приложение (первое приложение) в качестве поставщика удостоверений для своего веб-сайта в качестве ресурса и другое приложение (второе приложение) для доступа к веб-сайту, идентификатор клиента — это идентификатор приложения второго приложения, а секрет клиента — секрет, настроенный во втором приложении. Однако идентификатор ресурса — это идентификатор вашего первого приложения.
Примечание.
Инструкции по настройке клиентского приложения в качестве поставщика удостоверений см. в разделах Краткое руководство. Регистрация приложения с помощью платформа удостоверений Майкрософт и Настройка приложения Служба приложений или Функции Azure для использования Microsoft Entra входа.
Вам не нужно настраивать секрет клиента в этом приложении, но необходимо добавить роль приложения в разделе Роли приложения , который позже будет назначен вашему клиентскому приложению. См. изображения, чтобы узнать, как добавить роль приложения.
Создание роли приложения:
Изменение новой роли приложения:
После настройки приложения-ресурса создайте клиентское приложение и предоставьте ему разрешение на доступ к приложению-ресурсу, добавив роль приложения, настроенную выше, в разрешениях API клиентского приложения.
Примечание.
Сведения о предоставлении разрешений клиентскому приложению см. в статье Краткое руководство. Настройка клиентского приложения для доступа к веб-API.
На следующих снимках экрана показан раздел предоставления разрешений клиентскому приложению.
Добавление разрешения:
Выбор разрешений:
Добавление разрешений:
После назначения разрешений необходимо создать секрет клиента для этого приложения, перейдя в раздел Сертификаты & секреты. Скопируйте значение секрета клиента, отображаемое на странице, так как оно не отображается снова. Используйте идентификатор приложения из этого приложения в качестве идентификатора клиента, секрет из этого приложения в качестве секрета клиента и идентификатор приложения первого приложения в качестве идентификатора ресурса.
4. Развертывание для ограниченной аудитории
Разверните это подключение в ограниченной базе пользователей, если вы хотите проверить его в Copilot и других поверхностях поиска, прежде чем развернуть развертывание для более широкой аудитории. Дополнительные сведения об ограниченном выпуске см. в разделе Поэтапное развертывание.
На этом этапе вы готовы создать подключение для облачных веб-сайтов. Вы можете нажать кнопку Создать , чтобы опубликовать веб-страницы подключения и индексировать их с веб-сайтов.
Для других параметров, таких как разрешения доступа, правила включения данных, схема, частота обхода контента и т. д., у нас есть значения по умолчанию в зависимости от того, что лучше всего подходит для веб-сайтов. Ниже приведены значения по умолчанию:
Пользователи | Описание |
---|---|
Разрешения доступа | Все в вашей организации увидят это содержимое |
Содержимое | Описание |
---|---|
URL-адреса для исключения | Нет |
Управление свойствами | Сведения о проверка свойств по умолчанию и их схеме см. в разделе содержимое. |
Синхронизация | Описание |
---|---|
Добавочный обход контента | Частота: каждые 15 минут (поддерживается только при обходе карты сайта) |
Полный обход контента | Частота: каждый день |
Если вы хотите изменить любое из этих значений, необходимо выбрать параметр "Настраиваемая настройка".
Настраиваемая настройка
Пользовательская настройка предназначена для администраторов, которые хотят изменить значения по умолчанию для параметров, перечисленных в таблице выше. Щелкнув параметр "Настраиваемая настройка", вы увидите еще три вкладки: Пользователи, Содержимое и Синхронизация.
Пользователи
Разрешения доступа
Облачный соединитель корпоративных веб-сайтов поддерживает разрешения на поиск, видимые только для всех . Индексированные данные отображаются в результатах поиска для всех пользователей в вашей организации.
Содержимое
Добавление URL-адресов для исключения (необязательные ограничения обхода контента)
Существует два способа предотвратить обход страниц: запретить их в файле robots.txt или добавить в список исключений.
Поддержка robots.txt
Соединитель проверяет, есть ли файл robots.txt для корневого сайта. Если он существует, он следует и учитывает направления, найденные в этом файле. Если вы не хотите, чтобы соединитель выполнял обход определенных страниц или каталогов на сайте, добавьте эти страницы или каталоги в объявления "Запретить" в файл robots.txt.
Добавление URL-адресов для исключения
При необходимости можно создать список исключений , чтобы исключить некоторые URL-адреса из обхода, если это содержимое является конфиденциальным или не стоит обхода. Чтобы создать список исключений, просмотрите корневой URL-адрес. Исключенные URL-адреса можно добавить в список во время процесса настройки.
Управление свойствами
Здесь можно добавить или удалить доступные свойства с веб-сайтов, назначить схему свойству (определить, является ли свойство доступным для поиска, с возможностью запроса, с возможностью извлечения или уточнения), изменить семантиковую метку и добавить псевдоним в свойство . Свойства, выбранные по умолчанию, перечислены ниже.
Свойство source | Метка | Описание | Схема |
---|---|---|---|
авторов | авторов | Люди, которые участвовали в работе с элементом в источнике данных | Запрос, извлечение |
Содержимое | Содержимое | Все текстовое содержимое веб-страницы | Поиск |
CreatedDateTime | Дата создания | Данные и время создания элемента в источнике данных | Запрос, извлечение |
Описание | Извлечение, поиск | ||
FileType | Расширение файла | Расширение файла для контента для обхода | Запрос, уточнение, извлечение |
ЗначокURL | IconUrl | URL-адрес значка веб-страницы | Восстанавливать |
LastModifiedBy | Автор последнего изменения | Пользователь, который в последний раз изменял элемент в источнике данных | Запрос, извлечение |
LastModifiedDateTime | Время последней измененной даты | Дата и время последнего изменения элемента в источнике данных. | Запрос, извлечение |
Title | Title | Заголовок элемента, который вы хотите показать в Copilot и других интерфейсах поиска | Извлечение, поиск |
URL-адрес | url | Целевой URL-адрес элемента в источнике данных | Восстанавливать |
Соединитель облака корпоративного веб-сайта поддерживает два типа свойств источника:
Метатег
Соединитель извлекает все метатеги, которые могут иметь корневые URL-адреса, и отображает их. Вы можете выбрать теги, которые следует включить для обхода контента. Выбранный тег индексируется для всех предоставленных URL-адресов, если они доступны.
Выбранные метатеги можно использовать для создания пользовательских свойств. Кроме того, на странице схемы вы можете управлять ими дальше (с возможностью запроса, с возможностью поиска, с возможностью извлечения, с возможностью уточнения).
Параметры пользовательских свойств
Индексированные данные можно дополнить, создав пользовательские свойства для выбранных метатегов или свойства соединителя по умолчанию.
Чтобы добавить пользовательское свойство, выполните приведенные далее действия.
- Введите имя свойства. Это имя отображается в результатах поиска из этого соединителя.
- Для значения выберите Статическое или Строковое/регулярное сопоставление. Статическое значение включается во все результаты поиска из этого соединителя. Строковое или регулярное значение зависит от добавляемого правила.
- Если выбрано статическое значение, введите значение, которое вы хотите отображать.
- Если вы выбрали значение String/rRegex:
- В разделе Добавление выражений в списке Свойства выберите свойство по умолчанию или мета-тег из списка. В поле Пример значения введите строку, представляющую тип значений, которые могут отображаться. Этот пример используется при предварительном просмотре правила. В поле Выражение введите регулярное выражение, чтобы определить часть значения свойства, которая должна отображаться в результатах поиска. Можно добавить до трех выражений.
- В разделе Создание формулы введите формулу для объединения значений, извлеченных из выражений.
Дополнительные сведения о регулярных выражениях см. в разделе Регулярные выражения .NET или найдите в Интернете справочное руководство по выражению регулярных выражений.
Синхронизация
Интервал обновления определяет частоту синхронизации данных между источником данных и индексом соединителя Graph. Существует два типа интервалов обновления: полный обход контента и добавочный обход контента. Дополнительные сведения см. в разделе Параметры обновления.
При необходимости можно изменить значения интервала обновления по умолчанию.
Примечание.
Добавочный обход контента поддерживается только в том случае, если выбран параметр обхода карты сайта.
Устранение неполадок
После публикации подключения можно просмотреть состояние на вкладке Источники данных в Центре администрирования. Сведения об обновлении и удалении см. в статье Управление соединителем. Инструкции по устранению распространенных проблем можно найти здесь.
Если у вас возникли проблемы или вы хотите отправить отзыв, обратитесь в Microsoft Graph | Поддержка.