Сделать данные доступными для поиска

Завершено

Если вы хотите создать copilot, использующий собственные данные для создания точных ответов, необходимо эффективно выполнять поиск данных. При создании copilot в Azure AI Studio можно использовать интеграцию с поиском ИИ Azure для получения соответствующего контекста в потоке чата.

Поиск ИИ Azure — это извлекатель , который можно включить при создании приложения языковой модели с потоком запроса. Поиск ИИ Azure позволяет создавать собственные данные, индексировать данные и запрашивать индекс, чтобы получить необходимые сведения.

Схема, показывающая индекс, запрашиваемый для получения данных о заземления.

Использование векторного индекса

Хотя текстовый индекс повышает эффективность поиска, обычно можно добиться лучшего решения для получения данных с помощью векторного индекса, содержащего внедренные маркеры, представляющие текстовые маркеры в источнике данных.

Внедрение — это специальный формат представления данных, который поисковая система может легко найти соответствующую информацию. В частности, внедрение — это вектор чисел с плавающей запятой.

Например, представьте, что у вас есть два документа со следующим содержимым:

  • "Дети играли радостно в парке".
  • "Дети счастливо побежали по детской площадке".

Эти два документа содержат тексты, которые семантически связаны, даже если используются разные слова. Создавая векторные внедрения для текста в документах, связь между словами в тексте может быть математически вычисляется.

Представьте, что ключевое слово извлекаются из документа и отображаются в виде вектора в многомерном пространстве:

Схема внедрения векторов.

Расстояние между векторами можно вычислить путем измерения косинуса угла между двумя векторами, также известного как косинус сходство. Другими словами, сходство косинуса вычисляет семантику сходства между документами и запросом.

Представляя слова и их значения с векторами, можно извлечь соответствующий контекст из источника данных, даже если данные хранятся в разных форматах (тексте или изображении) и языках.

Если вы хотите использовать векторный поиск для поиска данных, необходимо создать внедрения при создании индекса поиска. Чтобы создать внедрение для индекса поиска, можно использовать модель внедрения Azure OpenAI, доступную в Azure AI Studio.

Схема, показывающая векторный индекс, содержащий внедрение.

Совет

Узнайте больше об внедрениях в службе Azure OpenAI.

Создание индекса поиска

В службе "Поиск ИИ Azure" индекс поиска описывает, как упорядочено содержимое, чтобы сделать его доступным для поиска. Представьте библиотеку, содержащую множество книг. Вы хотите иметь возможность выполнять поиск по библиотеке и получать соответствующую книгу легко и эффективно. Чтобы сделать библиотеку доступным для поиска, создайте каталог, содержащий все соответствующие данные о книгах, чтобы упростить поиск любой книги. Каталог библиотеки служит индексом поиска.

Хотя существуют различные подходы к созданию индекса, интеграция поиска ИИ Azure в Azure AI Studio упрощает создание индекса, подходящего для языковых моделей. Вы можете добавить данные в Azure AI Studio, после чего можно использовать поиск Azure AI для создания индекса в Azure AI Studio с помощью модели внедрения. Ресурс индекса хранится в службе "Поиск ИИ Azure" и запрашивается Azure AI Studio при использовании в потоке чата.

Снимок экрана: создание индекса в Azure AI Studio.

Настройка индекса поиска зависит от данных, которые у вас есть, и контекста, который будет использоваться языковой моделью. Например, ключевое слово поиск позволяет получить информацию, которая точно соответствует поисковому запросу. Семантический поиск уже делает его еще одним шагом, извлекая информацию, которая соответствует значению запроса вместо точного ключевое слово, используя семантические модели. В настоящее время наиболее сложным методом является векторный поиск, который создает внедрения для представления данных.

Совет

Дополнительные сведения о поиске векторов.

Поиск индекса

Существует несколько способов запроса информации в индексе:

  • Поиск ключевых слов: определяет соответствующие документы или проходы на основе определенных ключевое слово или терминов, предоставленных в качестве входных данных.
  • Семантический поиск: извлекает документы или проходы, понимая смысл запроса и сопоставляя его с семантически связанным содержимым, а не полагаться исключительно на точные ключевое слово совпадения.
  • Векторный поиск: использует математические представления текста (векторов) для поиска похожих документов или фрагментов на основе их семантического значения или контекста.
  • Гибридный поиск: объединяет любые или все другие методы поиска. Запросы выполняются параллельно и возвращаются в едином результирующем наборе.

При создании индекса поиска в Azure AI Studio вы можете настроить индекс, который наиболее подходит для использования в сочетании с языковой моделью. Когда результаты поиска используются в созданном приложении ИИ, гибридный поиск дает наиболее точные результаты.

Гибридный поиск — это сочетание ключевое слово (и полнотекстового) и векторного поиска, к которому при необходимости добавляется семантический ранжирование. При создании индекса, совместимого с гибридным поиском, извлекаемые сведения точные, когда доступны точные совпадения (с помощью ключевое слово), и по-прежнему актуальны, если найти только концептуально аналогичную информацию (с помощью векторного поиска).

Совет

Дополнительные сведения о гибридном поиске.