Заметка
Доступ к этой странице требует авторизации. Вы можете попробовать войти в систему или изменить каталог.
Доступ к этой странице требует авторизации. Вы можете попробовать сменить директорию.
Внимание
Начиная с Document Intelligence версии 4.0 и идти вперед, модель визитной карточки (предварительно созданная бизнес-карта) устарела. Чтобы извлечь данные из форматов визитных карточек, используйте следующее:
| Функция | версия | Идентификатор модели |
|---|---|---|
| Модель визитных карточек | • v3.1:2023-07-31 (GA)• v3.0:2022-08-31 (GA) • версии 2.1 (GA) |
prebuilt-businessCard |
Это содержимое относится к: версии 3.1 (GA)blue-checkmark
checkmarkПредыдущие версии:версии 3.0blue-checkmarkверсии 2.1
purple-checkmarkЭто содержимое относится к: версия 3.0 (GA)
checkmarkПоследние версии:purple-checkmarkверсия 4.0 (GA) версии 3.1Предыдущая версия:синяя галочкаверсия 2.1
[! INCLUDE [относится к версии 2.1].. /(includes/applies-to-v21.md)]
Модель бизнес-карты аналитики документов объединяет мощные возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения данных из образов визитных карточек. API анализирует печатные визитные карточки; извлекает ключевые сведения, такие как имя, фамилия, имя компании, адрес электронной почты и номер телефона; и возвращает структурированное представление данных JSON.
Извлечение данных визитной карточки
Визитные карточки — отличный способ представить бизнес или профессионала. Логотип компании, шрифты и фоновые изображения, найденные в визитных карточках, помогают повысить фирменную символику компании и отличить его от других. Применение методов OCR и машинного обучения для автоматизации сканирования визитных карточек — это распространенный сценарий обработки изображений. Корпоративные системы, используемые группами продаж и маркетинга, обычно имеют возможность извлечения данных визитной карточки в пользу своих пользователей.
Пример визитной карточки, обработанной с помощью Document Intelligence Studio
Пример бизнес-процессов, обработанный с помощью средства аналитики документов
Варианты разработки
Аналитика документов версии 3.1:2023-07-31 (GA) поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы | Идентификатор модели |
|---|---|---|
| Модель визитных карточек | • Document Intelligence Studio • REST API • Пакет SDK для C# • Пакет SDK для Python • Пакет SDK для Java • Пакет SDK для JavaScript |
prebuilt-businessCard |
Аналитика документов версии 3.0:2022-08-31 (GA) поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы | Идентификатор модели |
|---|---|---|
| Модель визитных карточек | • Document Intelligence Studio • REST API • Пакет SDK для C# • Пакет SDK для Python • Пакет SDK для Java • Пакет SDK для JavaScript |
prebuilt-businessCard |
Аналитика документов версии 2.1 (GA) поддерживает следующие средства, приложения и библиотеки:
| Функция | Ресурсы |
|---|---|
| Модель визитных карточек | • Средство маркировки аналитики документов • REST API • Пакет SDK для клиентской библиотеки • Контейнер Docker аналитики документов |
Попробуйте извлечь данные визитной карточки
Узнайте, как данные, включая имя, название задания, адрес, электронную почту и название компании, извлекаются из визитных карточек. Вам потребуются следующие ресурсы:
Подписка Azure — создайте бесплатную учетную запись
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (
F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.
Document Intelligence Studio
Примечание.
Document Intelligence Studio доступен с API версии 3.1 и версии 3.0.
На домашней странице Document Intelligence Studio выберите визитные карточки.
Вы можете проанализировать образец визитной карточки или отправить собственные файлы.
Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:
Средство разработки меток аналитики документов
Перейдите к инструменту аналитики документов.
На домашней странице примера инструмента выберите предварительно созданную модель, чтобы получить плитку данных .
Выберите тип формы для анализа из раскрывающегося меню.
Выберите URL-адрес для файла, который необходимо проанализировать, в одном из следующих вариантов:
В поле Источник выберите URL-адрес в раскрывающемся меню, вставьте выбранный URL-адрес и нажмите кнопку Получить.
В поле конечной точки службы аналитики документов вставьте конечную точку, полученную в подписке Аналитики документов.
В поле ключа вставьте ключ, полученный из ресурса аналитики документов.
Щелкните элемент Run analysis (Выполнить анализ). Средство аналитики документов вызывает предварительно созданный API анализа и анализирует документ.
Просмотрите результаты. Просмотрите пары "ключ-значение", извлеченные, элементы строки, извлеченные текст и обнаруженные таблицы.
Примечание.
Пример средства маркировки данных не поддерживает файлы в формате BMP. Это ограничение средства, а не службы аналитики документов.
Требования к входным данным
Поддерживаются следующие форматы файлов.
| Модель | Изображение: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Читать | ✔ | ✔ | ✔ |
| Макет | ✔ | ✔ | ✔ |
| Общий документ | ✔ | ✔ | |
| Готовое | ✔ | ✔ | |
| Настраиваемая функция извлечения | ✔ | ✔ | |
| Настраиваемая классификация | ✔ | ✔ | ✔ |
- Фотографии и сканы: для получения наилучших результатов предоставьте одну чёткую фотографию или высококачественный скан на каждый документ.
- PDF и TIFF: для PDF и TIFF можно обрабатывать до 2000 страниц. (С подпиской на бесплатный уровень обрабатываются только первые две страницы.)
- Размер файла: размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
- Размеры изображения: размеры должны находиться в диапазоне от 50 пикселей до 10 000 пикселей x 10 000 пикселей.
- Блокировки паролей. Если pdf-файлы заблокированы паролем, необходимо удалить блокировку перед отправкой.
- Высота текста: минимальная высота извлеченного текста составляет 12 пикселей для изображения 1024 x 768 пикселей. Это измерение соответствует примерно тексту размером 8 пунктов при 150 точках на дюйм.
- Обучение пользовательской модели: максимальное количество страниц для обучающих данных составляет 500 для пользовательской модели шаблона и 50 000 для пользовательской нейронной модели.
- Обучение пользовательской модели извлечения: общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
- Обучение пользовательской модели классификации: общий размер обучающих данных составляет 1 ГБ, не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с максимум 10 000 страниц.
- Типы файлов Office (DOCX, XLSX, PPTX): максимальная длина строки составляет 8 миллионов символов.
- Поддерживаемые форматы файлов: JPEG, PNG, PDF и TIFF
- Pdf и TIFF обрабатываются до 2000 страниц. Для подписчиков уровня "Бесплатный" обрабатываются только две первые страницы.
- Размер файла должен быть меньше 50 МБ и размер по крайней мере 50 x 50 пикселей и не более 10 000 x 10 000 пикселей.
Поддерживаемые языки и языковые стандарты
Полный список поддерживаемых языков см . на странице поддержки языка предварительно созданной модели.
Извлечение полей
Поддерживаемые поля извлечения документов см . на странице схемы модели визитных карточек в нашем примере репозитория GitHub.
Извлеченные поля
| Имя. | Тип | Описание | Текст |
|---|---|---|---|
| ContactNames | массив объектов | Имя контакта, извлеченное из визитной карточки | [{ "FirstName": "John" "LastName", : "Doe" }] |
| FirstName | строка | Имя контакта | "John" |
| LastName | строка | Фамилия контакта | "Doe" |
| CompanyNames | массив строк | Название компании, извлеченное из визитной карточки | ["Contoso"] |
| Отделы | массив строк | Отдел или организация контакта | ["R&D"] |
| JobTitles | массив строк | Должность контакта | ["Инженер программного обеспечения"] |
| Сообщения электронной почты | массив строк | Контактная электронная почта, извлеченная из визитной карточки | ["johndoe@contoso.com"] |
| Веб-сайты | массив строк | Веб-сайт извлеченный из визитной карточки | ["https://www.contoso.com"] |
| Адреса | массив строк | Адрес, извлеченный из визитной карточки | ["123 Main Street, Редмонд, Вашингтон 98052"] |
| MobilePhones | Массив номеров телефонов | Номер мобильного телефона, извлеченный из визитной карточки | ["+19876543210"] |
| Факсы | Массив номеров телефонов | Номер телефона факса, извлеченный из визитной карточки | ["+19876543211"] |
| WorkPhones | Массив номеров телефонов | Номер служебного телефона, извлеченный из визитной карточки | ["+19876543231"] |
| OtherPhones | Массив номеров телефонов | Другой номер телефона, извлеченный с визитной карточки | ["+19876543233"] |
Поддерживаемые языковые стандарты
Предварительно созданные визитные карточки версии 2.1 поддерживают следующие языковые стандарты:
- en-us
- en-au
- en-ca
- en-gb
- en-in
Руководство по миграции и REST API версии 3.1
- Следуйте руководству по миграции с помощью аналитики документов версии 3.1, чтобы узнать, как использовать версию версии 3.0 в приложениях и рабочих процессах.
Следующие шаги
Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.
Попробуйте обработать собственные формы и документы с помощью средства разработки примеров меток для анализа документов
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.