Поделиться через


Извлечение и сопоставление сведений из неструктурированного содержимого

Службы ИИ Azure
Azure Cosmos DB
Приложения-контейнеры Azure

Идеи решения

В этой статье описывается идея решения. Ваш архитектор облака может использовать это руководство, чтобы визуализировать основные компоненты для типичной реализации этой архитектуры. Используйте эту статью в качестве отправной точки для разработки хорошо спроектированного решения, которое соответствует конкретным требованиям рабочей нагрузки.

В этой архитектуре описывается решение обработки содержимого, которое извлекает данные и применяет схемы между несколькими модальными содержимым с помощью оценки достоверности и проверки пользователей. Он обрабатывает утверждения, счета, контракты и другие документы, извлекая сведения из неструктурированного содержимого и сопоставляя их с структурированными форматами. Эта архитектура применяет Azure AI Foundry, Azure AI Content Understanding, Azure OpenAI в моделях Azure AI Foundry и других службах Azure для преобразования больших объемов неструктурированного содержимого с помощью конвейеров обработки на основе событий.

В этой архитектуре показано, как создавать масштабируемые системы для обработки содержимого. Системы обрабатывают текст, изображения, таблицы и графы, а также включают автоматические проверки качества и проверку человека для рабочих процессов бизнес-документов.

Архитектура

Схема, показывающая типичную архитектуру обработки содержимого.

Изображение содержит ключевые разделы, соответствующие рабочему процессу. В разделе браузера клиента есть текст, который считывает файл отправки. Стрелка из этого текста указывает на раздел "Приложения контейнеров". Четыре строки из обработчика содержимого в разделе "Приложения контейнеров". Верхняя строка в этом разделе разделена на две строки. Одна строка считывает извлечение или сопоставление и указывает на Azure OpenAI в модели Foundry. Другая строка считывает извлечение и указывает на понимание содержимого ИИ Azure. Следующая строка в этом разделе считывает результат задачи и указывает на хранилище BLOB-объектов. Следующая строка считывает журнал задач или результат и указывает на Azure Cosmos DB. Стрелка, считывающая Dequeue, указывает на хранилище очередей Azure. Стрелка, считывающая точки enqueue из API обработчика содержимого в хранилище очередей. Стрелка указывает из раздела "Монитор" или "Обновить процесс" в Power BI. Другая стрелка из Azure Cosmos DB в Power BI.

Скачайте файл Visio для этой архитектуры.

Рабочий процесс

Следующий рабочий процесс соответствует предыдущей схеме:

  1. Пользователи отправляют многофакторное содержимое, например документы, изображения, контракты и счета, через интерфейс веб-интерфейс. Содержимое отправляется с определенными требованиями к обработке и целевыми схемами.

  2. Веб-сайт приложений контейнеров Azure получает запрос на отправку содержимого и вызывает API обработки, размещенный в приложениях контейнеров. Оба компонента — это настраиваемые решения, предназначенные для этого сценария. API выбирает соответствующий конвейер обработки и инициирует рабочие процессы анализа содержимого.

  3. Приложения-контейнеры управляют рабочим процессом обработки. Он подключает распознавание содержимого, которое выполняет оптическое распознавание символов (OCR) и извлекает текст с помощью Azure OpenAI в модели Foundry. Эти модели сопоставляют схемы и преобразуют извлеченные данные в структурированные форматы.

  4. Распознавание содержимого выполняет OCR на основе машинного обучения для эффективного извлечения текста из различных форматов содержимого, включая изображения, таблицы и графы.

  5. Azure OpenAI в модели Foundry с GPT Vision обрабатывает извлеченное содержимое, сопоставляет его с пользовательскими или отраслевыми схемами и создает структурированные выходные данные JSON с оценкой достоверности.

  6. Код оркестрации в контейнерных приложениях хранит обработанные результаты, оценки достоверности, сопоставления схем и исторические данные обработки для следов аудита и непрерывное улучшение в Azure Cosmos DB.

  7. Код оркестрации в контейнерных приложениях использует хранилище BLOB-объектов Azure для хранения исходных документов, промежуточных артефактов обработки и окончательных структурированных выходных данных для надежного сохранения и извлечения данных.

  8. Хранилище очередей Azure управляет рабочими процессами обработки на основе событий между службами этого решения. Это управление обеспечивает надежную координацию обработки и обработки сообщений между компонентами конвейера.

  9. Веб-сайт монитора обработчика содержимого отображает обработанные результаты пользователям через веб-интерфейс. Пользователи могут просматривать структурированные выходные данные JSON, исправлять любые неточности, добавлять комментарии для контекста или обратной связи и сохранять окончательные проверенные результаты в системе.

  10. Обработчик содержимого отслеживает веб-каналы веб-сайтов, обрабатывая метрики и данные отзывов пользователей непосредственно на панели мониторинга Power BI. Обработанные данные и метаданные, хранящиеся в Azure Cosmos DB, обеспечивают комплексную аналитику в конвейере обработки содержимого. Эти аналитические сведения включают ключевые показатели эффективности, показатели успеха, распределение типов документов, тенденции оценки достоверности, шаблоны коррекции пользователей и другие операционные метрики, поддерживающие оптимизацию конвейера обработки содержимого на основе данных.

Компоненты

  • Контейнерные приложения — это бессерверная платформа контейнеров, которую можно использовать для запуска микрослужб и контейнерных приложений на бессерверной платформе. В этой архитектуре контейнерные приложения размещают API конвейера обработки, который управляет анализом содержимого, координатами между службами ИИ и управляет рабочими процессами извлечения и преобразования. Код, который выполняется, закодирован командой разработчиков программного обеспечения.

  • Azure AI Foundry — это управляемая служба ИИ, которая предоставляет доступ к расширенным языковым моделям для обработки и создания естественного языка. В этой архитектуре Azure AI Foundry предоставляет основу для развертывания моделей ИИ, используемых в конвейере обработки контента, и это шлюз в подключенных службах ИИ, таких как Content Understanding.

    • Azure OpenAI в модели Foundry — это компонент Azure AI Foundry, который предоставляет языковые модели, включая GPT-4o и GPT-4o mini. В этой архитектуре модели размещаются как услуга в Azure AI Foundry. Эти модели выполняют преобразование данных на основе схемы, сопоставляют извлеченный контент с структурированными форматами и вычисляют оценки достоверности для точности извлечения.

    • Распознавание содержимого — это многофакторная служба искусственного интеллекта, которая анализирует различные мультимедийные материалы, такие как аудио, видео, текст и изображения, и преобразует его в структурированные, доступные для поиска данные. В этой архитектуре служба Content Understanding точно выполняет расширенное извлечение OCR и содержимого из много модальных документов.

  • Azure Cosmos DB — это глобально распределенная служба базы данных с несколькими моделями, которая обеспечивает гарантированную низкую задержку и эластичную масштабируемость. В этой архитектуре Azure Cosmos DB хранит обработанные результаты, оценки достоверности, результаты проверки и исторические данные обработки для следов аудита и оптимизации производительности.

  • Хранилище BLOB-объектов — это решение хранилища объектов Майкрософт, оптимизированное для хранения больших объемов неструктурированных данных. В этой архитектуре хранилище BLOB-объектов поддерживает исходные документы, промежуточные артефакты обработки и окончательные структурированные выходные данные с надежной устойчивостью и глобальной доступностью.

  • Реестр контейнеров Azure — это управляемая служба реестра Docker, которая хранит образы контейнеров и управляет ими. В этой архитектуре реестр контейнеров управляет версиями образов контейнеров для компонентов конвейера обработки. Эта система обеспечивает согласованные возможности развертывания и отката.

  • Power BI — это коллекция программных служб, приложений и соединителей, которые совместно работают для создания, совместного использования и использования бизнес-аналитических сведений таким образом, который лучше всего подходит для вас и вашей организации. В этой архитектуре Power BI подключается к Azure Cosmos DB и получает метрики обработки в режиме реального времени из веб-приложения мониторинга для предоставления комплексной аналитики производительности обработки документов, шаблонов отзывов пользователей и операционных ключевых показателей эффективности.

Сведения о сценарии

Это решение для обработки содержимого решает проблему извлечения значимых данных из больших объемов неструктурированного много модального содержимого, которое организации получают ежедневно. Традиционная ручная обработка документов, таких как контракты, счета, утверждения и отчеты о соответствии, занимает много времени, подвержено ошибкам и не масштабируется с ростом бизнеса. В результате организации сталкиваются с несогласованным качеством данных, отсутствием стандартизации и сложностью интеграции извлеченных сведений в подчиненные бизнес-процессы.

Это решение использует расширенные службы ИИ для автоматического извлечения, преобразования и проверки содержимого из различных типов документов. Система обеспечивает оценку достоверности, чтобы включить автоматическую обработку для извлечения высокой достоверности при переключение результатов снижения достоверности для проверки человека. Такой подход обеспечивает скорость и точность при сохранении гибкости для обработки различных форматов контента и пользовательских бизнес-схем.

Потенциальные варианты использования

Обработка финансовых услуг

Автоматизация обработки утверждений: Извлечение сведений о политике, оценки ущерба и оценки затрат из документов страховых претензий, фотографий и отчетов о корректировке с помощью автоматических проверок проверки и соответствия требованиям.

Обработка счета и контракта: Автоматически извлекает сведения о поставщиках, элементы строки, условия из счетов и контрактов и сопоставляет их с корпоративными системами с помощью оценки достоверности для рабочих процессов утверждения.

Анализ нормативных документов: Обработка нормативных документов, отчетов о соответствии и документации по аудиту для извлечения ключевых метрик и обеспечения соблюдения требований к финансовым правилам и отчетам.

Документация по здравоохранению

Обработка клинических документов: Извлеките информацию о пациенте, диагностику, планы лечения и сведения о лекарствах из медицинских записей, отчетов лабораторий и клинических заметок для интеграции электронных записей здравоохранения.

Автоматизация медицинского выставления счетов: Обработка медицинских утверждений, заявлений о выставлении счетов и страховых форм для извлечения кодов процедур, сведений о пациенте и сведений о покрытиях для автоматизированных рабочих процессов выставления счетов.

Извлечение данных исследования: Анализ документов клинических испытаний, научных документов и форм согласия пациента для извлечения параметров исследования, результатов и данных соответствия для рабочих процессов медицинских исследований.

Анализ контракта и извлечение: Обработка юридических контрактов, соглашений и изменений для извлечения ключевых условий, обязательств, дат и сторон для мониторинга соответствия контрактам и соответствия требованиям.

Обнаружение юридических документов: Анализ юридических кратких данных, депозитов и файлов дела для извлечения соответствующих фактов, ссылок и доказательств для судебной поддержки и подготовки дела.

Документация по соответствию требованиям: Обработка нормативных представлений, отчетов аудита и сертификатов соответствия требованиям для извлечения требований, выводов и исправлений для рабочих процессов управления.

Производство и цепочка поставок

Обработка документации по качеству: Извлеките результаты проверки, данные тестирования и сведения о сертификации из документов и сертификатов контроля качества для отслеживания соответствия требованиям и улучшения процессов.

Документация по поставщику: Сертификация поставщиков процессов, спецификации материалов и документы по доставке для извлечения данных соответствия и сведений о цепочке поставок для рабочих процессов закупок.

Анализ записей обслуживания: Извлеките данные оборудования, расписания обслуживания и журналы ремонта из технической документации по прогнозному обслуживанию и системам управления активами.

Альтернативы

Эта архитектура включает несколько компонентов, которые можно заменить другими службами Azure или подходами в зависимости от функциональных и нефункциональных требований рабочей нагрузки. Рассмотрим следующие варианты и компромиссы.

Подход к извлечению содержимого

Текущий подход: В этом решении используется понимание содержимого для расширенного извлечения OCR и содержимого в сочетании с Azure OpenAI для сопоставления схем и преобразования. Такой подход обеспечивает высокую точность для сложного много модального содержимого с гибкой настройкой схемы.

Альтернативный подход: Используйте Azure AI Document Intelligence для обработки документов с помощью предварительно созданных моделей для распространенных типов документов, таких как счета, квитанции и формы. Этот подход обеспечивает более быструю реализацию стандартных типов документов, но меньше гибкости для пользовательских схем.

Рассмотрим эту альтернативу, если рабочая нагрузка имеет следующие характеристики:

  • В основном обрабатываются стандартные типы документов с хорошо определенными форматами.

  • Вам требуется более быстрое время на рынок с предварительно созданными моделями извлечения.

  • Требования к схеме соответствуют стандартным моделям аналитики документов.

  • У вас ограниченные пользовательские ресурсы разработки для сопоставления схем.

Обработка оркестрации

Текущий подход: Это решение использует контейнерные приложения для размещения пользовательской логики обработки, которая управляет конвейером анализа содержимого. Этот подход обеспечивает максимальный контроль над рабочими процессами обработки, обработкой ошибок и интеграцией пользовательской бизнес-логики.

Альтернативный подход: Используйте Azure Logic Apps или Функции Azure для оркестрации рабочих процессов со встроенными соединителями для служб ИИ. Этот подход обеспечивает визуальное проектирование рабочих процессов и преимущества управляемых служб, но меньше контроля над логикой обработки.

Рассмотрим эту альтернативу, если рабочая нагрузка имеет следующие характеристики:

  • Вы предпочитаете визуальное проектирование рабочих процессов для разработки пользовательского кода.

  • Рабочие процессы обработки относительно просты и используют стандартную условную логику.

  • Вы хотите свести к минимуму затраты на управление инфраструктурой.

  • Ваша команда имеет больше опыта в решениях с низким кодом и без кода, чем в контейнерных приложениях.

Оптимизация затрат

Оптимизация затрат фокусируется на способах сокращения ненужных расходов и повышения эффективности работы. Дополнительные сведения см. в контрольном списке проектной экспертизы для оптимизации затрат.

Дополнительные сведения о затратах на выполнение этого сценария см. в предварительно настроенной оценке в калькуляторе цен Azure.

Цены зависят от региона и использования, поэтому прогнозировать точные затраты на развертывание невозможно. Большинство ресурсов Azure, используемых в этой инфраструктуре, соответствуют ценовой категории на основе использования. Однако реестр контейнеров взимает фиксированную стоимость за реестр в день.

Развертывание этого сценария

Чтобы развернуть реализацию этой архитектуры, выполните действия, описанные в репозитории GitHub.

Соавторы

Корпорация Майкрософт поддерживает эту статью. Следующие авторы написали эту статью.

Основной автор:

Другой участник:

Чтобы просмотреть неопубликованные профили LinkedIn, войдите в LinkedIn.

Дальнейшие шаги