Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это содержимое относится к: версии 4.0 (GA)
checkmarkПредыдущие версии:blue-checkmark v3.1 (GA) :::moniker-end
Это содержимое относится к: версия 3.1 (GA)purple-checkmarkПоследняя версия: v4.0 (GA)
Налоговая модель аналитики документов использует мощные возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей и элементов строки из выбранной группы налоговых документов. Налоговые документы могут иметь различные форматы, такие как 1099, 1098, W2, 1040, 1095A, 1095C, W-4, 1099-SSA. Формат ввода может включать изображения, захваченные телефоном, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает сведения о ключах и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает определенные форматы документов на английском языке.
Поддерживаемые типы налоговых форм:
- Унифицированный налог США
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 и варианты (добавлены 1099-SSA)
- 1040 и варианты
- 1095A, 1095C
- W-4
Автоматическая обработка налоговых документов
Автоматическая обработка налоговых документов — это процесс извлечения ключевых полей из налоговых документов. Исторически налоговые документы обрабатывались вручную. Эта модель позволяет легко автоматизировать налоговые сценарии.
Единый налог США
Предварительно созданная Unified US Tax модель автоматически обнаруживает и извлекает данные из W2, 10981040а также 1099 налоговые формы в отправленных документах. Эти документы могут состоять из множества документов, связанных с налогами или не налогом. Модель обрабатывает только поддерживаемые формы.
Варианты разработки
Аналитика документов версии 4.0: 2024-11-30 (GA) поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы | Идентификатор модели |
|---|---|---|
| Модели налоговой формы США | • Аналитика • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для |
• prebuilt-tax.us• prebuilt-tax.us.w2 • prebuilt-tax.us.W-4 • prebuilt-tax.us.1095A • prebuilt-tax.us.1095C • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • prebuilt-tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • prebuilt-tax.us.1099Combo • prebuilt-tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT• prebuilt-tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LT C • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC • prebuilt-tax.us.1099OID• prebuilt-tax.us.1099OID • prebuilt-tax.us.10991099PATR • prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S• prebuilt-tax.us.1099SA • prebuilt-tax.us.1099SB • prebuilt-tax.us.1099SSA • prebuilt-tax.us.1040• prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule812 • prebuilt-tax.us.1040ScheduleA •-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы | Идентификатор модели |
|---|---|---|
| Модели налоговой формы США | • Аналитика • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для |
• prebuilt-tax.us.w2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы | Идентификатор модели |
|---|---|---|
| Модели налоговой формы США | • Аналитика • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для |
• prebuilt-tax.us.w2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Требования к входным данным
Поддерживаются следующие форматы файлов.
| Модель | Изображение: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Читать | ✔ | ✔ | ✔ |
| Макет | ✔ | ✔ | ✔ |
| Общий документ | ✔ | ✔ | |
| Готовое | ✔ | ✔ | |
| Настраиваемая функция извлечения | ✔ | ✔ | |
| Настраиваемая классификация | ✔ | ✔ | ✔ |
- Фотографии и сканы: для получения наилучших результатов предоставьте одну чёткую фотографию или высококачественный скан на каждый документ.
- PDF и TIFF: для PDF и TIFF можно обрабатывать до 2000 страниц. (С подпиской на бесплатный уровень обрабатываются только первые две страницы.)
- Размер файла: размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
- Размеры изображения: размеры должны находиться в диапазоне от 50 пикселей до 10 000 пикселей x 10 000 пикселей.
- Блокировки паролей. Если pdf-файлы заблокированы паролем, необходимо удалить блокировку перед отправкой.
- Высота текста: минимальная высота извлеченного текста составляет 12 пикселей для изображения 1024 x 768 пикселей. Это измерение соответствует примерно тексту размером 8 пунктов при 150 точках на дюйм.
- Обучение пользовательской модели: максимальное количество страниц для обучающих данных составляет 500 для пользовательской модели шаблона и 50 000 для пользовательской нейронной модели.
- Обучение пользовательской модели извлечения: общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
- Обучение пользовательской модели классификации: общий размер обучающих данных составляет 1 ГБ, не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с максимум 10 000 страниц.
- Типы файлов Office (DOCX, XLSX, PPTX): максимальная длина строки составляет 8 миллионов символов.
Попробуйте извлечь данные налогового документа
Узнайте, как данные, включая сведения о клиентах, сведения о поставщике и элементы строки, извлекаются из счетов. Вам потребуются следующие ресурсы:
Подписка Azure — ее можно создать бесплатно.
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (
F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.
Document Intelligence Studio
На домашней странице Document Intelligence Studio выберите поддерживаемую модель налогового документа.
Вы можете проанализировать пример налогового документа или отправить собственные файлы.
Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:
Поддерживаемые языки и языковые стандарты
См . страницу предварительно созданных моделей для полного списка поддерживаемых языков.
Извлечение полей
Поддерживаемые поля извлечения документов см. на страницах схемы модели налогового документа в нашем примере репозитория GitHub.
Пары "ключ-значение" и извлеченные элементы строки налоговых документов находятся в documentResults разделе выходных данных JSON.
Следующие шаги
Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.