Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Это содержимое относится к: версии 4.0 (GA)
checkmarkПредыдущие версии: | blue-checkmark v3.1 (GA) версии 3.0 (GA)синяя галочка версии 2.1 (GA)синяя галочка
Это содержимое относится к: версия 3.1 (GA)Последняя версия:
checkmark | Предыдущие версии:синяя галочка v3.0синяя галочкаверсии 2.1
purple-checkmarkЭто содержимое относится к: версия 3.0 (GA)
checkmarkПоследние версии:purple-checkmarkверсия 4.0 (GA) версии 3.1Предыдущая версия:синяя галочкаверсия 2.1
Это содержимое относится к: версии 2.1 Последняя версия:синяя галочка
Модель квитанции аналитики документов объединяет мощные возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения ключевых сведений из квитанций о продажах. Квитанции могут иметь различные форматы и качество, они могут быть не только печатными, но и рукописными. API извлекает ключевые сведения, такие как имя и номер телефона продавца, дата транзакции, налог, итоговая сумма транзакции, и возвращает структурированные данные JSON. Модель квитанций версии 4.0 (GA) поддерживает другие поля, в том числе ReceiptType, TaxDetails.NetAmountTaxDetails.DescriptionTaxDetails.RateиCountryRegion, а также извлечение таблиц НДС по общим квитанциям отеля.
Извлечение данных квитанции
Оцифровка квитанций включает преобразование различных типов квитанций, включая сканированные, сфотографированные и печатные копии, в цифровой формат для упрощенной обработки нижестоящего потока. Примеры включают управление затратами, анализ поведения потребителей, автоматизацию налогов и т. д. Использование технологии аналитики документов с OCR (оптическое распознавание символов) может извлекать и интерпретировать данные из этих различных форматов квитанций. Обработка аналитики документов упрощает процесс преобразования, но также значительно сокращает необходимое время и усилия, что упрощает эффективное управление данными и получение.
Пример квитанции, обработанный с помощью Document Intelligence Studio:
Пример квитанции, обрабатываемый с помощью средства проверки меток аналитики документов:
Варианты разработки
Аналитика документов версии 4.0: 2024-11-30 (GA) поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы | Идентификатор модели |
|---|---|---|
| Модель получения | • Аналитика • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для |
prebuilt-receipt |
Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы | Идентификатор модели |
|---|---|---|
| Модель получения | • Аналитика • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для |
prebuilt-receipt |
Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы | Идентификатор модели |
|---|---|---|
| Модель получения | • Аналитика • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для |
prebuilt-receipt |
Аналитика документов версии 2.1 поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы |
|---|---|
| Модель получения | • • для клиентской библиотеки • |
Требования к входным данным
Поддерживаются следующие форматы файлов.
| Модель | Изображение: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Читать | ✔ | ✔ | ✔ |
| Макет | ✔ | ✔ | ✔ |
| Общий документ | ✔ | ✔ | |
| Готовое | ✔ | ✔ | |
| Настраиваемая функция извлечения | ✔ | ✔ | |
| Настраиваемая классификация | ✔ | ✔ | ✔ |
- Фотографии и сканы: для получения наилучших результатов укажите одну чистую фотографию или высококачественную проверку на документ.
- PDF и TIFFs: для PDF-файлов и TIFFs можно обрабатывать до 2000 страниц. (С подпиской на бесплатный уровень обрабатываются только первые две страницы.)
- Размер файла: размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
- Размеры изображения: размеры должны находиться в диапазоне от 50 пикселей до 10 000 пикселей x 10 000 пикселей.
- Блокировки паролей. Если pdf-файлы заблокированы паролем, необходимо удалить блокировку перед отправкой.
- Высота текста: минимальная высота извлеченного текста составляет 12 пикселей для изображения 1024 x 768 пикселей. Это измерение соответствует примерно 8-точечным тексту в 150 точек на дюйм.
- Обучение пользовательской модели: максимальное количество страниц для обучающих данных составляет 500 для пользовательской модели шаблона и 50 000 для пользовательской нейронной модели.
- Обучение пользовательской модели извлечения: общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
- Обучение пользовательской модели классификации: общий размер обучающих данных составляет 1 ГБ, не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с максимум 10 000 страниц.
- Типы файлов Office (DOCX, XLSX, PPTX): максимальная длина строки составляет 8 миллионов символов.
- Поддерживаемые форматы файлов: JPEG, PNG, PDF и TIFF.
- Поддерживаемая квота на страницы для PDF и TIFF: Аналитика документов может обрабатывать до 2000 страниц для подписчиков уровня "Стандартный" или только первые две страницы для подписчиков бесплатного уровня.
- Поддерживаемый размер файла: менее 50 МБ; минимум пикселей 50 x 50 пикселей; максимум пикселей 10 000 x 10 000 пикселей.
Извлечение данных модели квитанций
Узнайте, как аналитика документов извлекает данные, включая время и дату транзакций, сведения о продавце и суммы из квитанций. Вам потребуются следующие ресурсы:
Подписка Azure — ее можно создать бесплатно.
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (
F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.
Примечание.
Document Intelligence Studio доступна с API версии 3.1 и версии 3.0 и более поздними версиями.
На домашней странице Document Intelligence Studio выберите "Квитанции".
Вы можете проанализировать пример квитанции или отправить собственные файлы.
Нажмите кнопку "Выполнить анализ", а при необходимости настройте параметры анализа:
Средство разработки меток аналитики документов
Перейдите к инструменту аналитики документов.
На домашней странице примера инструмента выберите предварительно созданную модель, чтобы получить плитку данных .
Выберите тип формы для анализа из раскрывающегося меню.
Выберите URL-адрес для файла, который необходимо проанализировать, в одном из следующих вариантов:
В поле Источник выберите URL-адрес в раскрывающемся меню, вставьте выбранный URL-адрес и нажмите кнопку Получить.
В поле конечной точки службы аналитики документов вставьте конечную точку, полученную в подписке Аналитики документов.
В поле ключа вставьте ключ, полученный из ресурса аналитики документов.
Щелкните элемент Run analysis (Выполнить анализ). Средство аналитики документов вызывает предварительно созданный API анализа и анализирует документ.
Просмотрите результаты. Просмотрите пары "ключ-значение", извлеченные, элементы строки, извлеченные текст и обнаруженные таблицы.
Примечание.
Пример средства маркировки данных не поддерживает файлы в формате BMP. Это ограничение средства, а не службы аналитики документов.
Поддерживаемые языки и языковые стандарты
Полный список поддерживаемых языков см. на странице поддержки языка предварительно созданных моделей.
Извлечение полей
Сведения о поддерживаемых полях извлечения документов см. на странице схемы модели квитанций в нашем примере репозитория GitHub
| Имя. | Тип | Описание | Стандартизованные выходные данные |
|---|---|---|---|
| ReceiptType | Строка | Тип уведомления о продажах | Itemized |
| MerchantName | Строка | Имя продавца, выдавшего квитанцию | |
| MerchantPhoneNumber | phoneNumber | Указанные номера телефонов продавца | +1 xxx xxx xxxx |
| MerchantAddress | Строка | Указанный адрес продавца | |
| TransactionDate | Дата | Дата выдачи квитанции | гггг-мм-дд |
| TransactionTime | Время | Время выдачи квитанции | чч-мм-сс (24 часа) |
| Итог | Число (долл. США) | Полная сумма транзакции по квитанции | Число с плавающей точкой и двумя десятичными знаками |
| Промежуточный итог | Число (долл. США) | Промежуточная сумма квитанции, часто перед вычетом налогов | Число с плавающей точкой и двумя десятичными знаками |
| Налоги | Число (долл. США) | Общий налог на получение (часто налог на продажу или эквивалентный). Переименовано в TotalTax в версии 2022-06-30. | Число с плавающей точкой и двумя десятичными знаками |
| Совет | Число (долл. США) | Чаевые покупателя | Число с плавающей точкой и двумя десятичными знаками |
| Товаров | Массив объектов | Извлеченные позиции с именем, количеством, ценой за единицу и общей ценой | |
| Имя. | Строка | Описание элемента. Переименовано в Description в версии 2022-06-30. | |
| Количество | Число | Количество по каждой позиции | Число с плавающей точкой и двумя десятичными знаками |
| Цена, | Число | Отдельная цена за единицу по каждой позиции | Число с плавающей точкой и двумя десятичными знаками |
| Общая стоимость | Число | Общая цена позиции | Число с плавающей точкой и двумя десятичными знаками |
Руководство по миграции и REST API версии 3.1
- Следуйте руководству по миграции с помощью аналитики документов версии 3.1, чтобы узнать, как использовать версию 3.1 в приложениях и рабочих процессах.
Следующие шаги
Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.
Попробуйте обработать собственные формы и документы с помощью средства проверки меток для аналитики документов.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.