Поделиться через


Отладка сеансов в поиске ИИ Azure

Отладка сеансов — это визуальный редактор, который работает с существующим набором навыков в портал Azure, предоставляя структуру и содержимое одного обогащенного документа, так как он создается индексатором и набором навыков на протяжении всего сеанса. Так как вы работаете с динамическим документом, сеанс интерактивный— вы можете выявлять ошибки, изменять и вызывать выполнение навыка, а также проверять результаты в режиме реального времени. Если изменения устраняют проблему, их можно зафиксировать в опубликованный набор навыков для глобального применения исправлений.

В этой статье описываются поддерживаемые сценарии и упорядочение редактора. Вкладки и разделы редактора распаковывать различные слои набора навыков, чтобы можно было изучить структуру набора навыков, поток и содержимое, которое он создает во время выполнения.

Поддерживаемые сценарии

Использование сеансов отладки для исследования и устранения проблем с:

  • Встроенные навыки, используемые для обогащения ИИ, такие как OCR, анализ изображений, распознавание сущностей и извлечение ключевых слов.

  • Встроенные навыки, используемые для интегрированной векторизации, с блокированием данных с помощью разделения текста и векторизации с помощью навыка внедрения.

  • Пользовательские навыки, используемые для интеграции внешней обработки, которую вы предоставляете.

Сравните следующие образы сеансов отладки для первых двух сценариев. В обоих сценариях область поверхности показывает прогрессирование навыков, которые создают или преобразуют содержимое в пути из исходного документа в индекс поиска. Поток включает параметры сопоставления индексов, и вы можете отслеживать стрелки, чтобы следовать следу обработки. Область сведений справа учитывает контекст. В нем показано представление обогащенного документа или сведений о навыке или сопоставлении.

На первом изображении показан шаблон для применения обогащения искусственного интеллекта. Навыки могут выполняться последовательно или параллельно, если зависимостей нет. Сопоставления полей вывода отправляют обогащенное или созданное содержимое из структур данных в памяти в поля в индексе.

Снимок экрана: сеанс отладки для анализа OCR и изображений.

На втором изображении показан типичный шаблон интегрированной векторизации. Навыки интегрированной векторизации обычно включают разделение текста и навык внедрения. Навык разделения текста блокирует документ на страницы. Навыки внедрения обеспечивают векторизацию. Сопоставления проекций управляют тем, как фрагменты содержимого являются индексами. Этот набор навыков пропускает родительский индекс и создает индекс просто фрагментированного содержимого, используя метаданные для идентификации источника блока.

Снимок экрана: сеанс отладки для интегрированной векторизации.

Ограничения

Сеансы отладки работают со всеми общедоступными источниками данных индексатора и большинством источников данных предварительной версии с следующими исключениями:

  • Индексатор SharePoint Online.

  • Индексатор Azure Cosmos DB для MongoDB.

  • Для Azure Cosmos DB для NoSQL строка завершается ошибкой во время индексирования и нет соответствующих метаданных, сеанс отладки может не выбрать правильную строку.

  • Для API SQL Azure Cosmos DB, если ранее секционированная коллекция не секционирована, сеанс отладки не найдет документ.

  • Для пользовательских навыков управляемое удостоверение, назначаемое пользователем, не поддерживается для подключения сеанса отладки к служба хранилища Azure. Как указано в предварительных требованиях, можно использовать системное управляемое удостоверение или указать полный доступ строка подключения, включающую ключ. Дополнительные сведения см. в статье "Подключение службы поиска к другим ресурсам Azure с помощью управляемого удостоверения".

  • В настоящее время возможность выбора документа для отладки недоступна. Это ограничение не является постоянным и будет отменено в ближайшее время. В настоящее время сеансы отладки выбирают первый документ в контейнере исходных данных или папке.

Как работает сеанс отладки

При запуске сеанса служба поиска создает копию набора навыков, индексатора и источника данных, содержащего один документ, используемый для тестирования набора навыков. Все состояние сеанса сохраняется в новом контейнере BLOB-объектов, созданном служба Azure AI в предоставленной учетной записи служба хранилища Azure. Имя созданного контейнера имеет префикс ms-az-cognitive-search-debugsession. Префикс необходим, так как он снижает вероятность случайного экспорта данных сеанса в другой контейнер в вашей учетной записи.

Кэшированная копия обогащенного документа и набора навыков загружается в визуальный редактор, чтобы можно было проверить содержимое и метаданные обогащенного документа, с возможностью проверить каждый узел документа и изменить любой аспект определения набора навыков. Все изменения, внесенные в сеанс, кэшируются. Эти изменения не повлияют на опубликованный набор навыков, если вы не зафиксируйте их. Фиксация изменений приведет к перезаписи рабочего набора навыков.

Если конвейер обогащения не имеет ошибок, сеанс отладки можно использовать для добавочного обогащения документа, тестирования и проверки каждого изменения перед фиксацией изменений.

Макет сеанса отладки

Визуальный редактор организован в область поверхности, показывающую прогрессию операций, начиная с взлома документов, а также навыков, сопоставлений и индекса.

Выберите любой навык или сопоставление, а панель откроется на стороне с соответствующими сведениями.

Снимок экрана: панель сведений о навыке с детализацией для получения дополнительных сведений.

Следуйте ссылкам, чтобы получить дополнительные сведения о обработке навыков. Например, на следующем сниме экрана показаны выходные данные первого итерации навыка разделения текста.

Снимок экрана: область сведений о навыке с помощью средства оценки выражений для заданного выходных данных.

Область сведений о навыке

Область сведений о навыке содержит следующие разделы:

  • Итерации: показывает, сколько раз выполняется навык. Вы можете проверить входные и выходные данные каждого из них.
  • Параметры навыка: просмотр или изменение определения набора навыков JSON.
  • Ошибки и предупреждения: отображаются ошибки или предупреждения, относящиеся к этому навыку.

Обогащенная область структуры данных

Область "Обогащенная структура данных" выходит на сторону при выборе синего шоу или скрытия символа со стрелкой. Это удобочитаемое представление того, что содержит обогащенный документ. На предыдущих снимках экрана в этой статье показаны примеры обогащенной структуры данных.

Следующие шаги

Теперь, когда вы понимаете элементы сеансов отладки, запустите первый сеанс отладки в существующем наборе навыков.