Поделиться через


Семантический индекс для Copilot

Семантический индекс создается из содержимого в Microsoft Graph. Он используется для создания контекстно релевантных ответов на запросы пользователей. Она позволяет организациям искать миллиарды векторов (математические представления признаков или атрибутов) и возвращать связанные результаты. В сочетании с усовершенствованиями в Microsoft Graph семантический индекс связывает вас с соответствующей информацией в организации. Он основан на комплексном подходе Корпорации Майкрософт к безопасности, соответствию требованиям, конфиденциальности и учитывает все организационные границы в клиенте.

Что такое индекс?

Концепция индексирования данных хорошо зарекомендовала себя в Microsoft 365. Индексирование — это один из важных способов доступа служб Microsoft 365 к огромному объему данных в Microsoft Graph, где находится клиент Microsoft 365. При индексировании пользователи видят результаты поиска из Microsoft Graph, включая содержимое и сигналы из большинства приложений Microsoft 365 в вашем клиенте. Это гарантирует, что результаты поиска будут персонализированы и повышены в зависимости от ваших подключений между содержимым и людьми в вашей сети.

Взаимодействие с данными в Microsoft Graph основано на ключевое слово сопоставления, персонализации и сопоставления социальных параметров. Поиск ключевых слов по индексу в Microsoft Graph, который сопоставляется с расположениями в документах или наборе документов. Microsoft 365 использует Microsoft Graph для ранжирования наиболее релевантного содержимого на основе знаний о дополнительных сигналах для пользователей и их близкой сети. Это называется персонализацией и сопоставлением социальных ролей в Microsoft 365, что повышает релевантность запросов к содержимому в вашей организации. Доступ к данным клиента в Microsoft Graph осуществляется с помощью управления доступом на основе ролей. Организации всегда контролируют возможности поиска (Майкрософт) с помощью портала поиска и аналитики в Центр администрирования Microsoft 365.

Как семантический индекс помогает управлять данными

Семантический индекс расширяет возможности Microsoft 365, которые позволяют находить релевантный контент на основе ключевых слов, личных предпочтений и социальных связей. Это делается путем создания векторизованных индексов. Вектор — это числовое представление слова, пикселя изображения или другой точки данных. Вектор упорядочивается или сопоставляется с близкими числами, расположенными рядом друг с другом для представления сходства. Векторы хранятся в многомерных пространствах, где семантически похожие точки данных группируются в пространстве векторов, что позволяет Microsoft 365 обрабатывать более широкий набор поисковых запросов, помимо "точного соответствия".

На практике это означает, что службы Microsoft 365, такие как Microsoft 365 Copilot, могут:

  • Понимание связей между различными формами слов (например, технологии, технологии, технологии; США, США, США, США Америки; собака, кошка, домашнее животное).
  • Захватывайте синонимы, чтобы расширить объем информации с возможностью поиска, включая намерение предложений, фрагментов фрагментов, документов и собраний.
  • Определите связанные ресурсы для запроса или примера содержимого.

На следующем рисунке используется текст (вместо чисел, используемых векторизованными индексами), чтобы показать пример сходства между точками данных:

Рисунок, показывающий, как сгруппированы точки данных для семантического индекса.

Семантический индекс обеспечивает быстрый и точный поиск подобия и получение данных на основе их расстояния или сходства векторов. Это означает, что в дополнение к использованию традиционных лексических методов для запроса на основе точных совпадений или предопределенных критериев семантический индекс может находить наиболее похожие или релевантные данные на основе семантического или контекстного значения.

Возможности

Следующие функции семантического индекса не только улучшают результаты поиска. они работают вместе, чтобы помочь вам понять данные, быстрее найти информацию и повысить производительность. Изначально пользователи могут взаимодействовать с семантиковым индексом через Microsoft 365 Copilot интеграции. Мы создаем семантический индекс для пользователей с платной лицензией Microsoft 365 Copilot. Ниже приведены сведения о том, как работает каждая функция.

Microsoft Copilot с чатом на основе Graph

Семантический индекс помогает отображать результаты в Microsoft Copilot в чате на основе графов, понимая цель запроса и добавляя дополнительные сведения в запрос Microsoft Copilot. Соответствующая информация получена в Microsoft Graph и семантическом индексе, чтобы предоставить модели большого языка (LLM) дополнительные сведения для обоснования. Предположим, что вы хотите, чтобы Microsoft Copilot найдите электронное письмо, в котором коллега высоко оценил проектную работу поставщика. Семантический индекс включает в поиск близлежащие слова (например, приподнятые, возбужденные, пораженные) для расширения области поиска и получения наилучшего результата. Вся эта работа выполняется в фоновом режиме, чтобы добавить релевантность к результатам, которые вы ищете с помощью Microsoft Copilot, без дополнительных сложностей.

Принцип работы семантического индекса

Семантический индекс улучшает Microsoft Copilot и результаты поиска в приложении Microsoft 365, SharePoint Online и Microsoft Teams. Он поддерживает расширенный интерфейс поиска и концептуальное понимание ваших онлайн-данных, которые автоматически включаются корпорацией Майкрософт.

Сегодня семантический индекс создается на уровне клиента. Это индекс всей организации, созданный из текстовых файлов SharePoint Online, доступных двум или более пользователям через наследование сайта. Однако результаты отображаются пользователю только в том случае, если у пользователя уже есть доступ к содержимому, управляемому управлением доступом на основе ролей. Кроме того, сайт SharePoint Online должен оставаться доступным для поиска. Со временем мы также создадим содержимое индекса на уровне пользователя. При этом добавляется персонализированный индекс рабочего набора данных, который доступен для пользователей, выполняющих повседневные задачи. Сюда входит любое текстовое содержимое, которое вы делаете или с которыми взаимодействуете, например сообщения электронной почты, документы, которые упоминание вас, или которые вы комментируете или предоставляете к ним общий доступ.

В следующем разделе объясняется, как включить каждый индекс, как поток данных в Microsoft 365 Copilot использует семантический индекс, какие типы файлов может обрабатывать каждый индекс и как каждый индекс обрабатывает обновления.

Включение

Теперь у каждого клиента Microsoft 365 Copilot есть семантический индекс на уровне клиента. Процесс индексирования не требует участия администратора.

Потоки данных

Семантический индекс взаимодействует с Microsoft Graph, чтобы предоставить пользователям доступ к информации в индексе. На следующей схеме показано, как работает поток данных для запроса с помощью Microsoft 365 Copilot.

Снимок экрана: связь между Microsoft 365 Copilot, Приложения Microsoft 365, Microsoft Graph и крупной языковой моделью.

Запросы пользователей из приложений Microsoft 365 отправляются в Copilot (1), а Copilot обращается к Microsoft Graph и семаническому индексу для обработки (2). Copilot отправляет измененный запрос в модель большого языка (3), получает ответ LLM (4), а затем обращается к Microsoft Graph и семаническому индексу для постобработки (5). Затем Copilot отправляет ответ и команду приложения обратно в приложения Microsoft 365. Все запросы шифруются по протоколу HTTPS, а данные клиента остаются неактивными.

Поддерживаемые типы контента

Семантический индекс поддерживает индексирование почтовых ящиков пользователей и типов файлов, перечисленных в следующей таблице, при этом со временем поддерживается больше типов файлов. Список поддерживаемых типов файлов для индекса уровня пользователя и индекса на уровне клиента включен в таблицу.

Тип содержимого или файла Уровень пользователя Уровень клиента
Почтовый ящик пользователя Поддерживается Неприменимо
Делегированный почтовый ящик Не поддерживается Неприменимо
Общий почтовый ящик Не поддерживается Неприменимо
Архивные данные почтового ящика Не поддерживается Неприменимо
Архивные данные SharePoint Не поддерживается Не поддерживается
документы Word (doc/docx) Поддерживается Поддерживается
PowerPoint (pptx) Поддерживается Поддерживается
PDF-файлы Поддерживается Поддерживается
Веб-страницы (aspx) Поддерживается Поддерживается
Файлы OneNote (один) Поддерживается Поддерживается
Данные соединителя Graph Неприменимо Поддерживается

Обновления индекса

Когда семантический индекс завершает индексирование для клиента в первый раз, документы, созданные пользователями, индексируются почти в реальном времени в почтовом ящике пользователя. Новые документы, добавляемые на сайты SharePoint Online, доступные через наследование сайтов двумя или более пользователями, индексируются ежедневно. При обновлении документа на уровне пользователя и клиента изменения немедленно индексируются.

Администрирование

Мы предоставляем администраторам необязательные действия для подготовки семантического индекса и управления им с помощью Центр администрирования Microsoft 365. Для включения семантического индекса не требуется административное участие, так как служба автоматически включается корпорацией Майкрософт. Семантический индекс является улучшением поиска Microsoft 365 и не может быть отключен.

Администраторы могут подготовить семантический индекс и управлять им, изучив рекомендации по планированию и развертыванию совместной работы с файлами в SharePoint и совместному использованию разрешений в современном интерфейсе SharePoint. Администраторы могут исключить файлы из семантического индекса, изучив рекомендации по исключению данных с Защита от потери данных Microsoft Purview (DLP). Если решение защиты от потери данных отсутствует, администраторы могут исключить сайты SharePoint Online из индекса уровня клиента.

За исключением сайтов SharePoint Online

Иногда организации без Защита от потери данных Microsoft Purview могут захотеть исключить сайт SharePoint Online из индексации данных с помощью поиска (Майкрософт). Эти действия следует учитывать только для конфиденциальных данных, таких как заработная плата, отдел кадров или финансовая информация. Чтобы исключить сайт SharePoint Online, выполните следующие действия.

  1. Перейдите на сайт с соответствующими разрешениями администратора.
  2. В раскрывающемся меню выберите Параметры , а затем — Сведения о сайте .
  3. Выберите Просмотреть все параметры сайта , чтобы открыть страницу Параметры сайта.
  4. Выберите Поиск и доступность в автономном режиме в категории Поиск и выберите Нет , чтобы разрешить этому сайту отображаться в результатах поиска , чтобы исключить его из поиска (Майкрософт) и поиска по семантическому индексу. Это также можно сделать с помощью PowerShell для нескольких сайтов.

Снимок экрана: параметры исключения сайтов SharePoint Online.

Поиск (Майкрософт) и семантический индекс поддерживают исключение содержимого SharePoint Online только из индекса на уровне клиента. Невозможно исключить результаты только из поиска (Майкрософт) или только из семантического индекса; действия применяются к обоим одновременно.

Настройка аналитики элементов

На странице Поиск и аналитика в Центр администрирования Microsoft 365 аналитика элементов включена по умолчанию. Отключение аналитических сведений о людях или элементах сокращает возможности поиска (Майкрософт) и семантического индекса, так как результаты не будут включать соответствующих людей, которые были бы получены из групп рассылки или из организационной диаграммы.

  • Люди аналитические сведения предоставляют пользователю список релевантных пользователей на основе его общедоступной совместной работы в Microsoft 365. Общедоступная совместная работа включает членов общедоступной группы рассылки и лиц, подключенных к организационной диаграмме.

  • Аналитика элементов позволяет получать рекомендации для сотрудников вашей организации на основе совместной работы в Microsoft 365. Эти рекомендации могут включать, помимо прочего, документы или другие типы содержимого и отображаться в карточках людей (контактах), Delve, приложении Microsoft 365, Microsoft Copilot результатах и других расположениях.

Аналитика элементов и Люди аналитика не охватывают функции персонализации на основе собственных данных пользователя.

Включение сторонних сведений

С помощью соединителей Copilot организации могут переносить организационные данные или содержимое из внешних источников в Microsoft Graph, где они затем будут перенесены в семантический индекс. Корпорация Майкрософт индексирует все данные соединителей Graph, сохраняя при этом элементы управления доступом для содержимого. Это расширяет типы источников контента, доступных для поиска в приложениях для повышения производительности Microsoft 365 и в более широкой экосистеме Майкрософт, и работает лучше всего, если содержимое соединителя является текстовым. Сторонние данные могут размещаться в локальной среде или в общедоступных или частных облаках, и эта информация используется Microsoft Graph, которая может приниматься в семантический индекс, чтобы предоставить организации весь контекст в Microsoft 365 и стороннего содержимого вашей организации. Дополнительные сведения о требованиях к лицензированию соединителя Graph для Microsoft 365 корпоративный и Microsoft 365 Copilot см. в статье Требования к лицензированию и цены.

Конфиденциальность, соответствие требованиям и безопасность

Модель разрешений в вашем клиенте Microsoft 365 может помочь предотвратить непреднамеренную утечку данных между пользователями, группами и клиентами. Семантический индекс представляет только данные, к которым каждый пользователь может получить доступ, используя те же базовые элементы управления для доступа к данным, которые используются в других службах Microsoft 365. Семантический индекс учитывает границу доступа на основе удостоверений пользователя, поэтому процесс заземления обращается только к содержимому, доступ к которому имеет текущий пользователь. Дополнительные сведения см. в документации по политике конфиденциальности и службе Майкрософт.

Microsoft 365 Copilot соответствует нашим существующим обязательствам в отношении конфиденциальности, безопасности и соответствию требованиям коммерческих клиентов Microsoft 365, включая Общий регламент по защите данных (GDPR) и Границу данных Европейского Союза (ЕС). Запросы, ответы и данные, доступ к которым осуществляется через семантический индекс, не используются для обучения базовых LLM, включая те, которые используются Microsoft 365 Copilot. Дополнительные сведения см. в разделе Данные, конфиденциальность и безопасность для Microsoft 365 Copilot.

Хранение и обработка

Данные, созданные семантиковым индексом, остаются в клиенте вашей компании и соответствуют политикам и процессам безопасности, соответствия требованиям, удостоверениям и конфиденциальности. Семантический индекс работает только с содержимым, на которое пользователи уже имеют разрешения, и не влияет на квоты хранилища.

Сведения об индексе на уровне пользователя хранятся там, где находится почтовый ящик пользователя. С другой стороны, сведения об индексе на уровне клиента хранятся в изолированном и защищенном контейнере клиента клиента. Этот контейнер находится в регионе, где находится сайт SharePoint, который может быть домашним регионом или другим регионом, указанным администратором клиента. Для клиентов, входящих в границу данных Европейского союза (EUDB), индекс хранится в центре обработки данных на основе ЕС/ЕАСТ. Обработка других клиентов может выполняться либо в регионе клиента, либо в США. Для организаций с несколькими регионами соблюдаются все географические границы. Данные внутри региона хранятся и обрабатываются в каждом регионе.

Поддержка ключа клиента Microsoft Purview (BYOK)

Семантический индекс обеспечивает поддержку собственного ключа (BYOK) для предприятий, которые включили BYOK в своей среде. Корпорация Майкрософт автоматически включает семантический индекс для клиентов с поддержкой BYOK без какого-либо административного вмешательства.

Защита информации

В контексте поиска нет других способов исключить данные из семантического индекса с помощью возможностей защиты информации. Семантический индекс наследует параметры безопасности и конфиденциальности от поиска (Майкрософт), а данные, доставленные из сторонних соединителей, предоставляются в том же хранилище и средства защиты, что и другие данные Microsoft 365. Для организаций, изучающих дополнительные варианты защиты информации, Microsoft 365 предоставляет встроенные возможности в приложениях Microsoft 365. Кроме того, доступны дополнительные продукты, помогающие администраторам защищать данные организации за счет минимизации данных и уменьшения чрезмерного совместного доступа. В следующих разделах описаны параметры, доступные для организаций только для справки.

Минимизация данных

Минимизация данных сокращает объем доступных данных, к которые может получить ваша организация. Хранение и удаление содержимого часто требуется для соответствия нормативным требованиям, но удаление содержимого, которое больше не имеет ценности для бизнеса, также помогает управлять рисками и ответственностью. Управление жизненным циклом данных Microsoft Purview, лицензируемая отдельно, может использоваться для удаления содержимого, которое больше не требуется с помощью политик хранения для управления в большом масштабе, и меток хранения для исключений и детализированного управления.

Сокращение чрезмерного совместного доступа

Организации уже давно могут принимать меры для сокращения чрезмерного использования в Microsoft 365 с помощью существующих элементов управления в Центр администрирования Microsoft 365 и SharePoint Online. Важно отметить, что семантический индекс не изменяет разрешения на доступ к содержимому и не изменяет принципы предоставления пользователям общего доступа к информации коллегам. Например, семантический индекс не предоставляет доступ к содержимому со ссылкой, которая работает со всеми в моей организации частью индекса уровня клиента. Только пользователи, выбрав ссылку, к которым у них есть доступ, будут добавлять сведения в свой индекс пользователей. При изучении вариантов защиты информации организациям рекомендуется учитывать следующее:

  • Планирование безопасной совместной работы с файлами . Просмотрите план и разверните совместную работу с файлами , чтобы узнать больше о рекомендациях по работе с безопасной и продуктивной средой совместной работы с файлами для пользователей.

  • Доступ пользователей к данным правильного размера для уменьшения списка — уменьшите чрезмерное использование, наследуя списки исключений для сайтов SharePoint Online и выполняя проверки управления доступом в режиме реального времени. Организации могут использовать надстройку Syntex SharePoint Advanced Management для управления этими разрешениями и управления ими.

  • Использование меток конфиденциальности . Еще один способ уменьшить общий доступ к содержимому заключается в использовании Защита информации Microsoft Purview для применения меток конфиденциальности, которые позволяют классифицировать данные на основе их конфиденциальности и применять такие меры защиты, как шифрование и маркетинг контента. Метки конфиденциальности также включаются в обрезку поиска (то есть поддерживаются для фильтрации и правил на стороне приложения, используемых для визуальной маркировки и ограничений доступа).

  • Ограничение доступаЗащита от потери данных Microsoft Purview доступен в Microsoft 365 E5 и может использоваться для ретроактивного и временного ограничения доступа к документам, которые были зарегистрированы как переобученные. Организации, у которых нет Microsoft 365 E5 лицензий, могут использовать 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь в управлении безопасностью данных и соответствием требованиям.

Для клиентов, заинтересованных в развертывании расширенных решений для защиты информации, ознакомьтесь со следующей статьей, в которую показано, как развернуть решение для защиты информации с помощью Microsoft Purview. Дополнительные сведения о том, как Microsoft Purview может помочь вам повысить безопасность данных и соответствие требованиям для Microsoft 365 Copilot, см. в статье Защита взаимодействия Microsoft 365 Copilot с Microsoft Purview и управление ими.

Дополнительные ресурсы

Microsoft 365, Microsoft Graph и семантический индекс обеспечивают беспрецедентную выразительность для поиска, чата и копилотов, используя данные Microsoft 365. Эта выразительность помогает отображать правильные данные заземления, чтобы максимально эффективно использовать данные организации с помощью Microsoft 365 и Microsoft 365 Copilot.

Чтобы узнать больше о Microsoft 365 Copilot, проверка следующие ресурсы: