Мастеры импорта данных в портал Azure

Статья
23.11.2024

Служба "Поиск ИИ Azure" имеет два мастера импорта, которые автоматизируют индексирование и создание объектов, чтобы начать запрос немедленно. Если вы не знакомы с поиском ИИ Azure, эти мастера являются одним из самых мощных функций в вашем распоряжении. С минимальными усилиями можно создать конвейер индексирования или обогащения, который выполняет большую часть функциональных возможностей поиска ИИ Azure.

Мастер импорта данных поддерживает невекторные рабочие процессы. Текст и цифры можно извлечь из необработанных документов. Вы также можете настроить примененные навыки ИИ и встроенные навыки, которые определяют структуру и создают содержимое для поиска текста из файлов изображений и неструктурированных данных.
Мастер импорта и векторизации данных добавляет блоки и векторизацию. Необходимо указать существующее развертывание модели внедрения, но мастер делает подключение, сформулирует запрос и обрабатывает ответ. Он создает векторное содержимое из текста или изображения.

Если вы используете мастер для проверки концепции, в этой статье объясняется внутренние работы мастеров, чтобы их можно было использовать более эффективно.

Эта статья не является пошаговой. Сведения об использовании мастера с примерами данных см. в следующих примерах:

Поддерживаемые источники данных и сценарии

Мастера поддерживают большинство источников данных, поддерживаемых индексаторами.

Data	Мастер импорта данных	Мастер импорта и векторизации данных
ADLS 2-го поколения	✅	✅
Хранилище BLOB-объектов Azure	✅	✅
Хранилище файлов Azure	❌	❌
Хранилище таблиц Azure	✅	✅
База данных SQL Azure и управляемый экземпляр	✅	✅
Cosmos DB для NoSQL	✅	✅
Cosmos DB для MongoDB	✅	✅
Cosmos DB для Apache Gremlin	✅	✅
MySQL	❌	❌
OneLake	✅	✅
SharePoint Online	❌	❌
Использование SQL Server на виртуальных машинах	✅	✅

Демонстрационные данные

Корпорация Майкрософт размещает примеры данных, чтобы можно было опустить шаг конфигурации источника данных в рабочем процессе мастера.

Демонстрационные данные	Мастер импорта данных	Мастер импорта и векторизации данных
Отели	✅	❌
недвижимость	✅	❌

Навыки

В этом разделе перечислены навыки, которые могут отображаться в наборе навыков, созданном мастером. Мастера создают сопоставления наборов навыков и выходных полей на основе выбранного варианта. После создания набора навыков можно изменить определение JSON, чтобы добавить дополнительные навыки.

Ниже приведены некоторые моменты, которые следует помнить о навыках в следующем списке:

Параметры анализа изображений и OCR доступны для больших двоичных объектов в служба хранилища Azure и файлах в OneLake, предполагая режим синтаксического анализа по умолчанию. Изображения — это тип содержимого изображения (например, PNG или JPG) или внедренный образ в файл приложения (например, PDF).
При настройке хранилища знаний добавляется фигура.
Разделение текста и слияние текста добавляются для фрагментирования данных при выборе модели внедрения. Они добавляются для других не внедренных навыков, если для исходного поля задана степень детализации страниц или предложений.

Навыки	Мастер импорта данных	Мастер импорта и векторизации данных
Многомодальное распознавание ИИ	❌	✅
Внедрение Azure OpenAI	❌	✅
Машинное обучение Azure (каталог моделей Azure AI Foundry)	❌	✅
Макет документа	❌	✅
Распознавание сущностей	✅	❌
Анализ изображений (применяется к blob-объектам, анализу по умолчанию, индексации всего файла	✅	❌
Извлечение ключевых слов	✅	❌
Распознавание языка	✅	❌
Перевод текста	✅	❌
OCR (применяется к blob-объектам, анализу по умолчанию, индексации целых файлов)	✅	✅
Обнаружение PII	✅	❌
Анализ тональности	✅	❌
Фигура (применяется к хранилищу знаний)	✅	❌
Разделение текста	✅	✅
Слияние текста	✅	✅

Хранилище знаний

Вы можете создать хранилище знаний для дополнительного хранилища обогащенного (навыков) содержимого. Может потребоваться хранилище знаний для рабочих процессов извлечения информации, для которых не требуется поисковая система.

Хранилище знаний	Мастер импорта данных	Мастер импорта и векторизации данных
storage	✅	❌

Создание мастеров

Мастеры импорта создают объекты, описанные в следующей таблице. После создания объектов можно просмотреть определения JSON в портал Azure или вызвать их из кода.

Чтобы просмотреть эти объекты после запуска мастера, выполните следующие действия.

Войдите в портал Azure и найдите службу поиска.
Выберите управление поиском в меню, чтобы найти страницы для индексов, индексаторов, источников данных и наборов навыков.

Объект	Description
Индексатор	Объект конфигурации, указывающий источник данных, целевой индекс, дополнительный набор знаний, необязательное расписание и необязательные параметры конфигурации для обработки ошибок и кодировки Base-64.
Источник данных	Сохраняет сведения о подключении к поддерживаемму источнику данных в Azure. Объект источника данных используется исключительно с индексаторами.
Указатель	Физическая структура данных, используемая для полнотекстового поиска и других запросов.
Набор навыков	Необязательно. Полный набор инструкций по управлению, преобразованию и формированию содержимого, включая анализ и извлечение данных из файлов изображений. Наборы навыков также используются для интегрированной векторизации. Если объем работы не попадает под ограничение 20 транзакций на индексатор в день, набор навыков должен включать ссылку на ресурс многослужб Azure AI, который обеспечивает обогащение. Для интегрированной векторизации можно использовать azure AI Vision или модель внедрения в каталог моделей Azure AI Foundry.
Хранилище знаний	Необязательно. Доступно только в мастере импорта данных . Хранит обогащенный набор навыков из таблиц и БОЛЬШИХ двоичных объектов в служба хранилища Azure для независимого анализа или последующей обработки в сценариях, не относящихся к поиску.

Льготы

Перед написанием кода можно использовать мастера для прототипирования и проверки концепции. Мастера подключаются к внешним источникам данных, примеры данных для создания начального индекса, а затем импортируют и при необходимости векторизируют данные в виде документов JSON в индекс в поиске ИИ Azure.

Если вы оцениваете наборы навыков, мастер обрабатывает сопоставления полей выходных данных и добавляет вспомогательные функции для создания доступных объектов. Разделение текста добавляется при указании режима синтаксического анализа. Слияние текста добавляется, если выбран анализ изображений, чтобы мастер смог объединить текстовые описания с содержимым изображения. Навыки фигуры добавляются для поддержки допустимых проекций, если выбран параметр хранилища знаний. Все перечисленные выше задачи приходят с кривой обучения. Если вы не знакомы с обогащением, способность обрабатывать эти шаги для вас позволяет измерять ценность навыка, не тратя много времени и усилий.

Выборка — это процесс, с помощью которого выводится схема индекса, и она имеет некоторые ограничения. При создании источника данных мастер выбирает случайный образец документов, чтобы определить, какие столбцы являются частью источника данных. Не все файлы считываются, так как это потенциально может занять несколько часов для очень больших источников данных. При наличии выбора документов исходные метаданные, такие как имя поля или тип, используются для создания коллекции полей в схеме индекса. В зависимости от сложности исходных данных может потребоваться изменить исходную схему для достижения точности или расширить ее для полноты. Вы можете внести свои изменения на странице определения индекса.

В целом преимущества использования мастера понятны: если выполнены требования, можно создать запрашиваемый индекс в течение нескольких минут. Некоторые сложности индексирования, такие как сериализация данных в виде документов JSON, обрабатываются мастерами.

Ограничения

Мастеры импорта не без ограничений. Ограничения приведены ниже.

Мастеры не поддерживают итерацию или повторное использование. Каждый проход по мастеру создает новый индекс, набор навыков и конфигурацию индексатора. В мастере могут сохраняться и повторно использоваться только источники данных. Чтобы изменить или уточнить другие объекты, удалите объекты и запустите их или используйте REST API или пакет SDK для .NET для изменения структур.
Исходное содержимое должно находиться в поддерживаемом источнике данных.
Выборка находится над подмножеством исходных данных. В случае крупных источников данных мастер может пропускать поля. Возможно, потребуется расширить схему или исправить выводимые типы данных, если выборка недостаточна.
Обогащение ИИ, предоставляемое в портал Azure, ограничено подмножеством встроенных навыков.
Хранилище знаний, которое можно создать мастером импорта данных, ограничено несколькими проекциями по умолчанию и использует соглашение об именовании по умолчанию. Если вы хотите настроить имена или проекции, необходимо создать хранилище знаний с помощью REST API или пакетов SDK.

Защита подключений

Мастеры импорта делают исходящие подключения с помощью контроллера портал Azure и общедоступных конечных точек. Не удается использовать мастеры, если к ресурсам Azure обращаются через частное подключение или через общую приватную ссылку.

Мастера можно использовать через ограниченные общедоступные подключения, но не все функциональные возможности.

В службе поиска импорт встроенных примеров данных требуется общедоступная конечная точка и нет правил брандмауэра.

Примеры данных размещаются корпорацией Майкрософт в определенных ресурсах Azure. контроллер портал Azure подключается к этим ресурсам через общедоступную конечную точку. Если вы поместите службу поиска за брандмауэром, при попытке получить встроенные примеры данных Import configuration failed, error creating Data Source, а затем выполните "An error has occured."следующую ошибку.
В поддерживаемых источниках данных Azure, защищенных брандмауэрами, можно получить данные, если есть правильные правила брандмауэра.

Ресурс Azure должен признать сетевые запросы с IP-адреса устройства, используемого в подключении. Вы также должны перечислить поиск Azure AI в качестве доверенной службы в конфигурации сети ресурса. Например, в служба хранилища Azure можно перечислить Microsoft.Search/searchServices как надежную службу.
При подключении к учетной записи с несколькими службами Azure AI, которую вы предоставляете, или подключения к внедренным моделям, развернутым на портале Azure AI Foundry или Azure OpenAI, доступ к общедоступному интернету должен быть включен, если служба поиска не соответствует дате создания, уровню и регионам требований для частных подключений. Дополнительные сведения об этих требованиях см. в разделе "Сделать исходящие подключения через общую приватную ссылку".

Для выставления счетов используются подключения к многослужбам Azure AI. Выставление счетов происходит, когда вызовы API превышают число бесплатных транзакций (20 на выполнение индексатора) для встроенных навыков, вызываемых мастером импорта данных или встроенной векторизации в мастере импорта и векторизации данных .

Если поиск по искусственному интеллекту Azure не удается подключиться:
- В мастере импорта и векторизации данных ошибка "Access denied due to Virtual Network/Firewall rules."
- В мастере импорта данных нет ошибок, но набор навыков не будет создан.

Если параметры брандмауэра препятствуют успешному выполнению рабочих процессов мастера, рассмотрите вместо этого сценарии или программные подходы.

Рабочий процесс

Мастер организован на четыре основных шага:

Подключитесь к поддерживаемму источнику данных Azure.
Создайте схему индекса, выводимую данными источника выборки.
При необходимости он добавляет навыки для извлечения или создания содержимого и структуры. Входные данные для создания хранилища знаний собираются на этом шаге.
Запустите мастер для создания объектов, при необходимости векторизации данных, загрузки данных в индекс, задания расписания и других параметров конфигурации.

Рабочий процесс представляет собой конвейер, поэтому это один из способов. Вы не можете использовать мастер для редактирования любых созданных объектов, но для допустимых обновлений можно использовать другие средства портала, такие как конструктор индексов или индексатора или редакторы JSON.

Запуск мастеров

Ниже показано, как запустить мастеры.

На портале Azure откройте страницу службы поиска на панели мониторинга или найдите свою службу в списке служб.
На странице "Обзор службы" в верхней части выберите "Импорт данных" или "Импорт и векторизация данных".

Мастера открываются полностью развернуты в окне браузера, чтобы иметь больше места для работы.
Если вы выбрали импорт данных, можно выбрать параметр "Примеры ", чтобы индексировать размещенный корпорацией Майкрософт набор данных из поддерживаемого источника данных.
Выполните оставшиеся действия мастера, чтобы создать индекс и индексатор.

Импорт данных можно запустить из других служб Azure, включая Azure Cosmos DB, Базу данных SQL Azure, Управляемый экземпляр SQL и хранилище BLOB-объектов Azure. Найдите добавление службы "Поиск ИИ Azure" в области навигации слева на странице обзора службы.

Настройка источника данных в мастере

Мастера подключаются к внешнему поддерживаемому источнику данных с помощью внутренней логики, предоставленной индексаторами службы "Поиск ИИ Azure", которые оснащены для выборки источника, чтения метаданных, взлома документов для чтения содержимого и структуры, а также сериализации содержимого в формате JSON для последующего импорта в поиск ИИ Azure.

Вы можете вставить подключение к поддерживаемму источнику данных в другой подписке или регионе, но для активной подписки задана область выбора существующего подключения .

Не все источники данных предварительной версии гарантированно доступны в мастере. Так как каждый источник данных имеет потенциал для внедрения других изменений ниже, предварительный просмотр источника данных будет добавлен только в список источников данных, если он полностью поддерживает все возможности мастера, такие как определение набора навыков и вывод схемы индекса.

Импорт можно выполнять только из одной таблицы, представления базы данных или эквивалентной структуры данных, однако структура может включать иерархические или вложенные структуры. Подробнее см. в статье Как моделировать сложные типы.

Настройка набора навыков в мастере

Конфигурация набора навыков возникает после определения источника данных, так как тип источника данных сообщает о доступности определенных встроенных навыков. В частности, если вы индексируете файлы из хранилища BLOB-объектов, выбор режима синтаксического анализа этих файлов определяет, доступен ли анализ тональности.

Мастер добавляет нужные навыки. Он также добавляет другие навыки, необходимые для достижения успешного результата. Например, если указать хранилище знаний, мастер добавляет навык фигуры для поддержки проекций (или физических структур данных).

Наборы навыков являются необязательными, и в нижней части страницы есть кнопка, чтобы пропустить вперед, если вы не хотите обогащения ИИ.

Конфигурация схемы индекса в мастере

Мастеры примеры источника данных для обнаружения полей и типа поля. В зависимости от источника данных также могут предлагаться поля для индексирования метаданных.

Так как выборка является непреднастойным упражнением, ознакомьтесь со следующими рекомендациями.

Является ли список полей точным? Если источник данных содержит поля, которые не были выбраны в выборке, вы можете вручную добавить новые поля, которые пропустили выборку, и удалить любые, которые не добавляют значение в интерфейс поиска или которые не будут использоваться в выражении фильтра или профиле оценки.
Подходит ли тип данных для входящих данных? Служба "Поиск ИИ Azure" поддерживает типы данных модели данных сущностей (EDM). Для данных SQL Azure существует диаграмма сопоставления, которая содержит эквивалентные значения. Дополнительные сведения см. в разделе Сопоставления полей и преобразования.
У вас есть одно поле, которое может использоваться в качестве ключа? Этим полем должно быть Edm.string, и оно должно однозначно идентифицировать документ. Для реляционных данных оно может быть сопоставлено с первичным ключом. Для больших двоичных объектов это может быть metadata-storage-path. Если значения полей включают пробелы или дефисы, необходимо задать ключ шифрования Base-64 на этапе создания индексатора в разделе Дополнительные параметры, чтобы отключить проверку для этих символов.
Задайте атрибуты, чтобы определить, как это поле используется в индексе.

Уделите время этому шагу, так как атрибуты определяют физическое выражение полей в индексе. Если вы хотите изменить атрибуты позже, даже программно, вам потребуется удалить и перестроить индекс. Основные атрибуты, такие как поиск иизвлечение , имеют незначительное влияние на хранилище. Включение фильтров и использование средств подбора повышает требования к хранилищу.
- Доступный для поиска: позволяет использовать полнотекстовый поиск. Каждое поле, используемое в запросах произвольной формы или в выражениях запросов, должно иметь этот атрибут. Инвертированные индексы создаются для каждого поля с меткой Доступный для поиска.
- Доступный для получения: возвращает поле в результатах поиска. Каждое поле с содержимым для результатов поиска должно иметь этот атрибут. Установка этого поля не влияет на размер индекса.
- Фильтруемый: позволяет ссылаться на поле в выражениях фильтра. Все поля, используемые в выражении $filter, должны иметь этот атрибут. Выражения фильтра используются для точных совпадений. Так как текстовые строки остаются нетронутыми, для размещения подробного содержимого требуется больше хранилища.
- Аспектируемый: позволяет использовать поле в фасетной навигации. Добавить метку Аспектируемый можно только к полям, также отмеченным как фильтруемые.
- Сортируемый: позволяет использовать поле при сортировке. Все поля, используемые в выражении $Orderby, должны иметь этот атрибут.
Требуется ли лексический анализ? Для полей Edm.string, доступных для поиска, вы можете настроить анализатор, если требуется расширенное индексирование и запросы.

По умолчанию задано Standard Lucene, но вы можете выбрать Microsoft English, если нужно использовать анализатор Майкрософт для расширенной обработки лексики, например для разрешения неправильных форм существительных и глаголов. В портал Azure можно указать только анализаторы языка. Если вы используете пользовательский анализатор или неязыковый анализатор, например Keyword, Pattern и т. д., необходимо создать его программным способом. Подробнее об анализаторах см. в разделе Добавление анализаторов языка.
Требуются ли функции typeahead в виде автозаполнения или предлагаемых результатов? Установите флажок Средство подбора, чтобы включить предложения запросов typeahead и автозаполнение для выбранных полей. Средства подбора добавляют слова с маркерами в индексе и таким образом потребляют больше места для хранения.

Конфигурация индексатора в мастере

Последняя страница мастера собирает пользовательские входные данные для конфигурации индексатора. Можно указать расписание и задать другие параметры, которые будут отличаться по типу источника данных.

Во внутреннем режиме мастер также настраивает следующие определения, которые не отображаются в индексаторе до тех пор, пока он не будет создан:

сопоставления полей между источником данных и индексом
Сопоставления полей выходных данных между выходными данными навыка и индексом

Попробуйте работы с мастерами

Лучший способ понять преимущества и ограничения мастера — его пошаговое применение. Ниже приведены некоторые краткие руководства, основанные на мастере.

Поделиться через