Azure OpenAI в данных

2025-02-13

Используйте эту статью, чтобы узнать о Azure OpenAI On Your Data, что упрощает подключение, прием и создание корпоративных данных для быстрого создания персонализированных копилотов (предварительная версия). Он улучшает понимание пользователей, ускоряет выполнение задач, повышает эффективность работы и помогает принимать решения.

Что такое Azure OpenAI в данных

Azure OpenAI On Your Data позволяет выполнять расширенные модели ИИ, такие как GPT-35-Turbo и GPT-4 на собственных корпоративных данных, не требуя обучения или точной настройки моделей. Вы можете общаться поверх и анализировать данные с большей точностью. Вы можете указать источники для поддержки ответов на основе последних сведений, доступных в указанных источниках данных. Доступ к Azure OpenAI On Your Data можно получить с помощью REST API с помощью пакета SDK или веб-интерфейса на портале Azure AI Foundry. Вы также можете создать веб-приложение, которое подключается к данным, чтобы включить расширенное решение чата или развернуть его непосредственно в качестве копилота в Copilot Studio (предварительная версия).

Разработка с помощью Azure OpenAI в данных

Схема, показывающая пример рабочего процесса.

Как правило, процесс разработки, используемый с Azure OpenAI On Your Data, — это:

Прием. Отправка файлов с помощью портала Azure AI Foundry или API приема. Это позволяет взломать, фрагментировать и внедрить данные в экземпляр поиска ИИ Azure, который можно использовать моделями Azure OpenAI. Если у вас есть существующий поддерживаемый источник данных, вы также можете подключить его напрямую.
Разработка. После использования Azure OpenAI On Your Data начните разработку приложения с помощью доступных REST API и пакетов SDK, доступных на нескольких языках. Он создаст запросы и намерения поиска для передачи в службу Azure OpenAI.
Вывод. После развертывания приложения в предпочитаемой среде он отправит запросы в Azure OpenAI, которые будут выполнять несколько шагов перед возвратом ответа:
1. Создание намерений: служба определит намерение запроса пользователя определить правильный ответ.
2. Извлечение. Служба извлекает соответствующие блоки доступных данных из подключенного источника данных, запрашивая его. Например, с помощью семантического или векторного поиска. Для влияния на извлечение используются такие параметры , как строгость и количество извлеченных документов.
3. Фильтрация и повторная обработка. Результаты поиска на шаге извлечения улучшаются путем ранжирования и фильтрации данных для уточнения релевантности.
4. Создание ответов: полученные данные отправляются вместе с другими сведениями, такими как системное сообщение в большую языковую модель (LLM) и ответ отправляется в приложение.

Чтобы приступить к работе, подключите источник данных с помощью портала Azure AI Foundry и начните задавать вопросы и общаться о ваших данных.

Управление доступом на основе ролей Azure (Azure RBAC) для добавления источников данных

Чтобы использовать Azure OpenAI в данных полностью, необходимо задать одну или несколько ролей Azure RBAC. Дополнительные сведения см . в azure OpenAI в конфигурации данных.

Форматы данных и типы файлов

Функция On Your Data Azure OpenAI поддерживает следующие типы файлов:

.txt
.md
.html
.docx
.pptx
.pdf

Существует ограничение отправки, и есть некоторые предостережения о структуре документов и о том, как это может повлиять на качество ответов из модели:

Если вы преобразуете данные из неподдерживаемого формата в поддерживаемый, оптимизируйте качество ответа модели, убедившись, что преобразование:
- Не приводит к значительной потере данных.
- Не добавляет неожиданный шум в ваши данные.
Если в файлах имеется особое форматирование, например таблицы и столбцы или пункты маркированных списков, подготовьте данные с помощью скрипта подготовки данных, доступного на веб-сайте GitHub.
Для документов и наборов данных с длинными текстовыми строками следует использовать имеющийся скрипт подготовки данных. Этот скрипт разбивает данные на отдельные блоки, за счет чего ответы модели становятся более точными. Этот скрипт также поддерживает сканированные PDF-файлы и изображения.

Поддерживаемые источники данных

Для отправки данных необходимо подключиться к источнику данных. Если вы хотите использовать данные для чата с моделью Azure OpenAI, данные блокируются в индексе поиска, чтобы соответствующие данные можно было найти на основе запросов пользователей.

Примечание.

Данные должны быть неструктурированным текстом для получения наилучших результатов. Если у вас есть нетекстовые полуструктурированные или структурированные данные, рассмотрите возможность преобразования его в текст. Если в файлах имеется особое форматирование, например таблицы и столбцы или пункты маркированных списков, подготовьте данные с помощью скрипта подготовки данных, доступного на веб-сайте GitHub.

Встроенная векторная база данных в виртуальном ядере Azure Cosmos DB для MongoDB изначально поддерживает интеграцию с Azure OpenAI On Your Data.

Для некоторых источников данных, таких как отправка файлов с локального компьютера (предварительная версия) или данных, содержащихся в учетной записи хранения BLOB-объектов (предварительная версия), используется поиск ИИ Azure. При выборе следующих источников данных данные будут приема в индекс поиска ИИ Azure.

Прием данных с помощью поиска ИИ Azure	Описание
Поиск по искусственному интеллекту Azure	Используйте существующий индекс поиска ИИ Azure с помощью Azure OpenAI On your Data.
Отправка файлов (предварительная версия)	Отправьте файлы с локального компьютера, чтобы храниться в базе данных Хранилище BLOB-объектов Azure и входить в поиск по искусственному интеллекту Azure.
URL-адрес или веб-адрес (предварительная версия)	Веб-содержимое из URL-адресов хранится в Хранилище BLOB-объектов Azure.
Хранилище BLOB-объектов Azure (предварительная версия)	Отправьте файлы из Хранилище BLOB-объектов Azure для приема в индекс поиска ИИ Azure.

Возможно, вам потребуется использовать индекс поиска ИИ Azure, если требуется:

Настройте процесс создания индекса.
Повторно используйте индекс, созданный до приема данных из других источников данных.

Примечание.

Чтобы использовать существующий индекс, он должен иметь по крайней мере одно поле для поиска.
Задайте для параметра CORS Allow Origin Type параметр all и источники".
В индексе поиска невозможно иметь сложные поля.

Типы поиска

Azure OpenAI On Your Data предоставляет следующие типы поиска, которые можно использовать при добавлении источника данных.

Поиск ключевых слов
Семантический поиск
Векторный поиск с помощью моделей внедрения Ada, доступных в выбранных регионах

Чтобы включить векторный поиск, требуется существующая модель внедрения, развернутая в ресурсе Azure OpenAI. Выберите развертывание внедрения при подключении данных, а затем выберите один из типов векторного поиска в разделе "Управление данными". Если вы используете Поиск ИИ Azure в качестве источника данных, убедитесь, что в индексе есть векторный столбец.

Если вы используете собственный индекс, можно настроить сопоставление полей при добавлении источника данных, чтобы определить поля, которые будут сопоставлены при ответе на вопросы. Чтобы настроить сопоставление полей, выберите "Использовать сопоставление настраиваемых полей" на странице источника данных при добавлении источника данных.

Внимание

Семантический поиск зависит от дополнительных цен. Чтобы включить семантический поиск или векторный поиск, необходимо выбрать базовый или более высокий номер SKU . Дополнительные сведения см . в разделе "Разница в ценовой категории" и ограничения служб.
Чтобы повысить качество получения информации и ответов модели, рекомендуем включить семантический поиск для следующих исходных языков: английский, арабский, испанский, итальянский, итальянский, китайский, корейский, португальский, русский, французский и японский.

Параметр поиска	Тип извлечения	Дополнительные цены?	Льготы
ключевое слово	Поиск по ключевым словам	Нет дополнительных цен.	Выполняет быстрый и гибкий анализ запросов и сопоставление по полям с возможностью поиска, используя термины или фразы в любом поддерживаемом языке, с операторами или без них.
семантический	Семантический поиск	Дополнительные цены на использование семантического поиска .	Улучшает точность и релевантность результатов поиска с помощью рерантера (с моделями ИИ) для понимания семантического смысла терминов и документов, возвращаемых первоначальным рангером поиска.
вектор	Векторный поиск	Дополнительные цены на учетную запись Azure OpenAI от вызова модели внедрения.	Позволяет находить документы, аналогичные данным входным данным запроса, на основе векторных внедрения содержимого.
гибрид (вектор + ключевое слово)	Гибридная среда поиска векторов и поиска ключевых слов	Дополнительные цены на учетную запись Azure OpenAI от вызова модели внедрения.	Выполняет поиск сходства по полям векторов с помощью векторных внедрения, а также поддерживает гибкий анализ запросов и полнотекстовый поиск по буквенно-цифровым полям с помощью запросов терминов.
hybrid (vector + keyword) + семантика	Гибрид векторного поиска, семантического поиска и поиска ключевых слов.	Дополнительные цены на учетную запись Azure OpenAI от вызова модели внедрения и дополнительных цен на использование семантического поиска .	Использует векторные внедрения, распознавание речи и гибкий анализ запросов для создания расширенных возможностей поиска и создания приложений искусственного интеллекта, которые могут обрабатывать сложные и разнообразные сценарии извлечения информации.

интеллектуальный поиск.

Azure OpenAI On Your Data включает интеллектуальный поиск данных. Семантический поиск включен по умолчанию, если у вас есть как семантический поиск, так и поиск ключевых слов. При внедрении моделей интеллектуальный поиск по умолчанию использует гибридный и семантический поиск.

Управление доступом на уровне документа

Примечание.

Управление доступом на уровне документа поддерживается при выборе службы "Поиск ИИ Azure" в качестве источника данных.

Azure OpenAI On Your Data позволяет ограничить документы, которые можно использовать в ответах для разных пользователей с фильтрами безопасности поиска Azure. При включении доступа на уровне документов результаты поиска, возвращаемые из службы "Поиск ИИ Azure" и используемые для создания ответа, обрезаются на основе членства пользователей в группе Microsoft Entra. Доступ на уровне документа можно включить только в существующих индексах поиска ИИ Azure. Дополнительные сведения см . в разделе Azure OpenAI в сети данных и конфигурации доступа.

Сопоставление полей индекса

Если вы используете собственный индекс, вам будет предложено на портале Azure AI Foundry определить поля, которые необходимо сопоставить с ответами на вопросы при добавлении источника данных. Можно указать несколько полей для данных содержимого и включать все поля, имеющие текст, относящиеся к вашему варианту использования.

В этом примере поля, сопоставленные с данными содержимого и заголовок , предоставляют сведения модели для ответа на вопросы. Заголовок также используется для заголовка текста ссылки. Поле, сопоставленный с именем файла, создает имена ссылок в ответе.

Правильное сопоставление этих полей помогает убедиться, что модель имеет лучшее качество отклика и ссылок. Кроме того, его можно настроить в API с помощью fieldsMapping параметра.

Если вы хотите реализовать дополнительные критерии на основе значений для выполнения запросов, можно настроить фильтр поиска с помощью параметра в filter.

Прием данных в поиск azure AI

По состоянию на сентябрь 2024 года API приема переключились на интегрированную векторизацию. Это обновление не изменяет существующие контракты API. Встроенная векторизация, новое предложение службы "Поиск ИИ Azure", использует предварительно созданные навыки для блокирования и внедрения входных данных. Служба приема данных в Azure OpenAI больше не использует пользовательские навыки. После миграции на интегрированную векторизацию процесс приема прошел некоторые изменения и в результате создаются только следующие ресурсы:

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Контейнер блоков больше недоступен, так как эта функция теперь изначально управляется поиском ИИ Azure.

Подключение к данным

Необходимо выбрать способ проверки подлинности подключения из Azure OpenAI, поиска ИИ Azure и хранилища BLOB-объектов Azure. Вы можете выбрать управляемое удостоверение , назначаемое системой, или ключ API. Выбрав ключ API в качестве типа проверки подлинности, система автоматически заполняет ключ API для подключения с помощью поиска ИИ Azure, Azure OpenAI и Хранилище BLOB-объектов Azure ресурсов. Выбрав управляемое удостоверение, назначенное системой, проверка подлинности будет зависеть от назначения роли. Управляемое удостоверение , назначаемое системой, выбрано по умолчанию для обеспечения безопасности.

После нажатия следующей кнопки программа автоматически проверит настройку, чтобы использовать выбранный метод проверки подлинности. Если возникла ошибка, ознакомьтесь со статьей о назначениях ролей, чтобы обновить настройку.

После исправления установки нажмите кнопку "Далее ", чтобы проверить и продолжить. Пользователи API также могут настроить проверку подлинности с назначенным управляемым удостоверением и ключами API.

Возможно, вы хотите использовать Хранилище BLOB-объектов Azure в качестве источника данных, если вы хотите подключиться к существующим Хранилище BLOB-объектов Azure и использовать файлы, хранящиеся в контейнерах.

Планирование автоматического обновления индекса

Примечание.

Автоматическое обновление индекса поддерживается только для Хранилище BLOB-объектов Azure.

Чтобы обеспечить актуальность индекса поиска ИИ Azure с помощью последних данных, вы можете запланировать автоматическое обновление индекса, а не обновлять его вручную при каждом обновлении данных. Автоматическое обновление индекса доступно только при выборе Хранилище BLOB-объектов Azure в качестве источника данных. Чтобы включить автоматическое обновление индекса, выполните приведенные далее действия.

Добавьте источник данных с помощью портала Azure AI Foundry.
В разделе "Выбор или добавление источника данных" выберите расписание индексатора и выберите частоту обновления, который вы хотите применить.

После приема данных задана частота, которая отличается от одного раза, индексаторы поиска ИИ Azure будут созданы с расписанием, эквивалентным расписанию 0.5 * the cadence specified. Это означает, что по указанному курсу индексаторы будут извлекать, повторно обрабатывать и индексировать документы, добавленные или измененные из контейнера хранилища. Этот процесс гарантирует, что обновленные данные предварительно обрабатываются и индексируются в окончательном индексе при требуемом курсировании автоматически. Чтобы обновить данные, необходимо передать только дополнительные документы из портал Azure. На портале выберите контейнеры учетных записей> хранения. Выберите имя исходного контейнера, а затем отправьте. Индекс автоматически будет собирать файлы после запланированного периода обновления. Промежуточные ресурсы, созданные в ресурсе поиска ИИ Azure, не будут удалены после приема, чтобы разрешить будущие запуски. Эти ресурсы:

{Index Name}-index
{Index Name}-indexer
{Index Name}-datasource
{Index Name}-skillset

Чтобы изменить расписание, можно использовать портал Azure.

Откройте страницу ресурса поиска в портал Azure
Выбор индексаторов на левой панели
Выполните следующие действия для двух индексаторов, имеющих имя индекса в качестве префикса.
1. Выберите индексатор, чтобы открыть его. Затем выберите вкладку параметров .
2. Обновите расписание до требуемой частоты из "Расписание" или укажите настраиваемую частоту из "Интервал (минут)"
3. Выберите Сохранить.

Прием данных в поиск azure AI

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Контейнер блоков больше недоступен, так как эта функция теперь изначально управляется поиском ИИ Azure.

Подключение к данным

С помощью портала Azure AI Foundry вы можете загрузить файлы с вашего компьютера, чтобы попробовать Azure OpenAI на ваших данных. Вы также можете создать новую учетную запись Хранилище BLOB-объектов Azure и ресурс поиска ИИ Azure. Затем служба сохраняет файлы в контейнер хранилища Azure и выполняет прием из контейнера. Вы можете использовать статью краткого руководства , чтобы узнать, как использовать этот параметр источника данных.

Прием данных в поиск azure AI

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Контейнер блоков больше недоступен, так как эта функция теперь изначально управляется поиском ИИ Azure.

Подключение к данным

Вы можете вставить URL-адреса и служба будет хранить содержимое веб-страницы, используя его при создании ответов из модели. Содержимое в URL-адресах или веб-адресах, которые используются, должны иметь следующие характеристики для правильного приема:

Общедоступный веб-сайт, например Использование ваших данных с Azure OpenAI в моделях Azure AI Foundry - Azure OpenAI | Microsoft Learn. Невозможно добавить URL-адрес или веб-адрес с помощью управления доступом, например с паролем.
Веб-сайт HTTPS.
Размер содержимого в каждом URL-адресе меньше 5 МБ.
Веб-сайт можно скачать как один из поддерживаемых типов файлов.
Поддерживается только один слой вложенных ссылок. На веб-странице будут доступны только до 20 ссылок.

После добавления URL-адреса или веб-адреса для приема данных веб-страницы из URL-адреса извлекаются и сохраняются в Хранилище BLOB-объектов Azure с именем контейнера. webpage-<index name> Каждый URL-адрес будет сохранен в другом контейнере в учетной записи. Затем файлы индексируются в индекс поиска ИИ Azure, который используется для получения при чате с моделью.

Прием данных в поиск azure AI

{job-id}-index
{job-id}-indexer, если указано почасовое или ежедневное расписание, в противном случае индексатор очищается в конце процесса приема.
{job-id}-datasource

Контейнер блоков больше недоступен, так как эта функция теперь изначально управляется поиском ИИ Azure.

Подключение к данным

Вы можете подключиться к базе данных вектора Elasticsearch и общаться с данными.

Необходимые компоненты

База данных Elasticsearch
Модель внедрения. Вы можете:
- Использование существующей модели внедрения Azure OpenAI text-embedding-ada-002 или
- Доведите собственную модель внедрения, размещенную в Elasticsearch.
Подготовьте данные с помощью записной книжки Python, доступной на сайте GitHub.

Запрос на доступ

Использование источника данных Elasticsearch — это предварительная версия функции, которая распространяется на условия службы ограниченного доступа в условиях конкретной службы. Необходимо заполнить и отправить форму запроса, чтобы запросить доступ к источнику данных Elasticsearch. Форма запрашивает сведения о вашей компании и сценарии, для которых планируется использовать источник данных Elasticsearch. После отправки формы команда Azure OpenAI будет просматривать ее и отправлять вам электронное письмо с решением в течение 10 рабочих дней.