Общие сведения об обработке неструктурированных документов в Microsoft Syntex

Примечание.

До июня 2024 г. вы можете бесплатно опробовать неструктурированную обработку документов и другие выбранные службы Syntex, если настроено выставление счетов с оплатой по мере использования . Сведения и ограничения см. в статье Опробовать Microsoft Syntex и изучить его службы.

Используйте неструктурированную модель обработки документов (метод обучения) для автоматической классификации файлов и извлечения информации. Он лучше всего подходит для неструктурированных документов, таких как письма или контракты.

Примечание.

Корпорация Майкрософт уважает конфиденциальность и право владения данными, используемыми для обучения и обработки моделей в Syntex. Ни одна из данных вашей организации не используется или не передается корпорацией Майкрософт для обучения моделей ИИ, моделей с большим языком или любых других моделей. Данные остаются в безопасном состоянии в клиенте вашей организации. Дополнительные сведения см. в статье Защита и конфиденциальность данных Майкрософт.

Общие сведения о неструктурированных моделях

Неструктурированная модель обработки документов (ранее известная как модель распознавания документов) использует искусственный интеллект (ИИ) для обработки документов. Анализируемые документы должны содержать текст, который можно найти с помощью фраз или шаблонов. Обнаруженный текст определяет как тип файла (его классификатор), так и подлежащие извлечению данные (его экстракторы).

Примечание.

Дополнительные сведения о том, как использовать Syntex и примеры сценариев, см. в статье Начало внедрения Microsoft Syntex и сценарии и варианты использования для Microsoft Syntex.

Неструктурированные модели обработки документов создаются и управляются в типе сайта SharePoint, который называется центром содержимого. В модели, применяемой к библиотеке документов SharePoint и связанной с некоторым типом контента, для хранения извлеченных сведений используются столбцы. Созданный вами тип контента сохраняется в галерее типов контента SharePoint. Вы также можете пользоваться существующими типами контента, чтобы применять их схемы.

Примечание.

Типы контента, доступные только для чтения или запечатанные, не могут быть обновлены, поэтому их нельзя использовать в модели.

Добавьте классификаторы и средства извлечения в неструктурированные модели обработки документов, чтобы выполнить следующие действия:

  • Классификаторы используются для поиска и классификации документов, загружаемых в библиотеку документов. Например, классификатор может быть "обучен", чтобы определять все загруженные в библиотеку документы, относящиеся к продлению контракта. Тип контента "продление контракта" определяется вами при создании классификатора.

  • Экстракторы извлекают данные из этих документов. Например, для каждого документа о продлении контракта, определенного в библиотеке документов, будут отображаться столбцы с датой запуска службы и клиентом для каждого документа.

Чтобы обучить и протестировать классификаторы и экстракторы своей модели, можно использовать образцы файлов. Образцы файлов дают вашей модели примеры информации, которую нужно искать при поиске файлов и извлечении из них данных. Например, вы можете научить классификаторы и экстракторы для документов, относящихся к продлению контрактов, с помощью образцов таких документов, используемых в вашей организации. Кроме того, образцы файлов можно использовать для проверки эффективности работы вашей модели.

После публикации своей модели используйте центр управления контентом, чтобы применить ее к любой библиотеке документов SharePoint, к которой у вас есть доступ.

Требования и ограничения

Сведения о требованиях, которые следует учитывать при выборе этой модели, см. в разделе Требования и ограничения для моделей в Microsoft Syntex.