Обзор типов моделей в Microsoft Syntex

Статья
01/29/2024

^{Область применения: ✓ Все пользовательские модели | ✓ Все предварительно созданные модели}

Понимание содержимого в Microsoft Syntex начинается с моделей обработки документов. Модели обработки документов позволяют выявлять и классифицировать документы, которые отправляются в библиотеки документов SharePoint, а затем извлекать необходимые сведения из каждого файла.

При применении к библиотеке документов SharePoint модель связана с типом контента и содержит столбцы для хранения извлекаемых сведений. Созданный вами тип контента сохраняется в галерее типов контента SharePoint. Вы также можете пользоваться существующими типами контента, чтобы применять их схемы.

Syntex использует пользовательские модели и предварительно созданные модели.

Схема, показывающая типы пользовательских и предварительно созданных моделей Syntex.

Модели могут быть корпоративными моделями, созданными в центре содержимого, или локальными моделями, созданными на локальном сайте SharePoint.

Пользовательские модели

Выбранный тип пользовательской модели зависит от используемых типов файлов, формата и структуры файлов и места применения модели.

Пользовательские модели включают:

Обработка неструктурированных документов
Обработка документов в свободной форме
Структурированная обработка документов

Дополнительные сведения о параллельных различиях в пользовательских моделях см. в статье Сравнение пользовательских моделей.

При создании пользовательской модели вы выбираете метод обучения, связанный с типом модели. Например, если вы хотите создать неструктурированную модель обработки документов, на странице Параметры создания модели , где вы создаете модель, выберите метод Обучение . В следующей таблице показан метод обучения, связанный с каждым пользовательским типом модели.

Неструктурированных обработка документов	Freeform обработка документов	Структурированные обработка документов

Примечание.

Чтобы сделать метод выбора Freeform и метод Макет доступными для пользователей, их сначала необходимо настроить в Центр администрирования Microsoft 365.

Обработка неструктурированных документов

Используйте неструктурированную модель обработки документов для автоматической классификации документов и извлечения информации из них. Эта функция лучше всего работает с неструктурированными документами, например с письмами и контрактами. Анализируемые документы должны содержать текст, который можно найти с помощью фраз или шаблонов. Обнаруженный текст определяет как тип файла (его классификатор), так и подлежащие извлечению данные (его экстракторы).

Например, неструктурированным документом может быть письмо о продлении контракта, которое может быть написано как угодно. Однако в тексте каждого документа о продлении контракта постоянно содержатся сведения, например текстовая строка "Дата начала службы", за которой следует фактическая дата.

Этот тип модели поддерживает самый широкий диапазон типов файлов и поддерживает более 40 языков.

При создании неструктурированной модели обработки документов используйте параметр Метод Обучения .

Дополнительные сведения см. в статье Общие сведения об обработке неструктурированных документов.

Обработка документов в свободной форме

Используйте модель обработки документов в свободной форме для автоматического извлечения информации из неструктурированных документов и документов свободной формы, таких как буквы и контракты, где информация может отображаться в любом месте документа.

Модели обработки документов в свободной форме используют Microsoft Power Apps AI Builder для создания и обучения моделей в Syntex.

Примечание.

Модель обработки документов в свободной форме пока недоступна в некоторых регионах. Дополнительные сведения см. в разделе Доступность компонентов по регионам.

Поскольку ваша организация получает письма и документы в большом количестве из различных источников, таких как почта, факс и электронная почта, обработка этих документов и их ввод вручную в базу данных может занять значительное время. Используя ИИ для извлечения текста и других сведений из этих документов, эта модель автоматизирует этот процесс.

Этот тип модели является оптимальным вариантом для документов в PDF-файлах или файлах изображений, если не требуется автоматическая классификация типа документа и поддерживает более 40 языков.

При создании модели обработки документов в свободной форме используйте метод выбора свободной формы .

Дополнительные сведения см. в статье Общие сведения о структурированной и бесплатной обработке документов.

Структурированная обработка документов

Используйте структурированную модель обработки документов для автоматической идентификации значений полей и таблиц. Он лучше всего подходит для структурированных или частично структурированных документов, таких как формы и счета.

Структурированные модели обработки документов используют обработку документов Microsoft Power Apps AI Builder (прежнее название — обработка форм) для создания и обучения моделей в Syntex.

Этот тип модели поддерживает самый широкий диапазон языков и обучен понимать макет формы из примеров документов, а затем учится искать данные, необходимые для извлечения из аналогичных расположений. Формы обычно имеют более структурированный макет, где сущности находятся в одном расположении (например, номер социального страхования в налоговой форме).

При создании структурированной модели обработки документов используйте параметр Метод Макет .

Дополнительные сведения см. в статье Общие сведения о структурированной и бесплатной обработке документов.

Готовые модели

Если вам не нужно создавать пользовательскую модель, можно использовать предварительно созданную модель обработки документов , которая уже обучена для конкретных структурированных документов.

К предварительно созданным моделям относятся:

Обработка контракта
Обработка счета
Обработка квитанций

Снимок экрана: страница

Предварительно созданные модели предварительно обучены распознавать документы и структурированную информацию в документах. Вместо того, чтобы создавать новую пользовательскую модель с нуля, можно выполнить итерацию по существующей предварительно обученной модели, чтобы добавить определенные поля, которые соответствуют потребностям вашей организации.

Обработка контракта

Модель обработки контракта анализирует и извлекает ключевую информацию из документов контракта. API анализирует контракты в различных форматах и извлекает ключевые сведения о контракте, такие как имя клиента или стороны, адрес выставления счетов, юрисдикция и дата окончания срока действия.

Дополнительные сведения о предварительно созданных моделях обработки контрактов см. в разделе Использование предварительно созданной модели для извлечения сведений из контрактов.

Обработка счета

Модель обработки счетов анализирует и извлекает ключевую информацию из счетов продаж. API анализирует счета в различных форматах и извлекает ключевые сведения о счете, такие как имя клиента, адрес выставления счетов, дата выполнения и сумма.

Дополнительные сведения о предварительно созданных моделях обработки счетов см. в разделе Использование предварительно созданной модели для извлечения сведений из счетов.

Обработка квитанций

Предварительно созданная модель обработки квитанций анализирует и извлекает ключевую информацию из квитанций о продажах. API анализирует печатные и рукописные квитанции и извлекает ключевые сведения о квитанциях, такие как имя продавца, номер телефона продавца, дата транзакции, налог и итог транзакции.

Дополнительные сведения о предварительно созданных моделях обработки квитанций см. в статье Использование предварительно созданной модели для извлечения сведений из квитанций.