Використовуйте готові моделі
Готові моделі в Azure Document Intelligence дозволяють витягувати дані з поширених типів форм без навчання власних моделей. Microsoft навчає ці моделі на великій кількості зразків документів, тож можна очікувати точних і надійних результатів для стандартних типів документів.
Моделі аналізу документів
Перед тим, як розглядати доменно-специфічні готові моделі, важливо зрозуміти моделі аналізу документів, які їх підтримують.
Модель читання
Модель Read витягує друкований і рукописний текст із документів і зображень. Він виявляє мову кожного текстового рядка і класифікує, чи текст написаний від руки, чи надрукований. Модель читання використовується як основа для вилучення тексту у всіх інших моделях Document Intelligence.
Для багатосторінкових PDF або TIFF файлів ви можете використати pages параметр у вашому запиті, щоб вказати діапазон сторінок для аналізу.
Модель читання ідеальна, коли ви хочете витягувати слова та рядки з документів без фіксованої чи передбачуваної структури.
Модель макету
Модель верстки розширює вилучення тексту з моделі читання, виявляючи позначки вибору, таблиці та інформацію про структуру документа. Також підтримується опціональна keyValuePairs функція для вилучення пар ключ-значення.
Коли ви оцифруєте документ, він може бути під кутом, або таблиці можуть мати складні структури з об'єднаними клітинками або неповними рядками. Модель макету може впоратися з цими труднощами. Кожна клітинка таблиці витягується разом із її вмістом, позицією обмежувальної коробки та індексами рядків/стовпців.
Відбіркові позначки (галочки та радіокнопки) витягуються разом із їхньою межою, рівнем впевненості та тим, чи вони вибрані.
Нотатка
Загальна модель документа була доступна в попередніх версіях Document Intelligence, але в 2023-10-31-preview релізі була застарілою. Його функціональність для вилучення пар ключ-значення та сутності інтегрована в модель розмітки та інші функції.
Готові моделі для певних типів документів
Azure Document Intelligence включає готові моделі, навчені на певних типах документів. Нижче наведено кілька прикладів для вилучення полів із поширених бізнес-документів:
Фінансові та юридичні документи
| Модель | Опис |
|---|---|
| Рахунок | Витягує ім'я клієнта, дані постачальника, номер замовлення на закупівлю, рахунок і терміни, адреси виставлення рахунків і доставки, позиції та загальні суми. |
| Квитанція | Витягує дані про торговця, дату та час транзакції, позиції та підсумки. Підтримує обробку односторінкових чеків готелю. |
| Банківська виписка | Витягує інформацію про рахунки, початкові та кінцеві залишки, а також деталі транзакцій. |
| Перевірено | Витягує отримувача, суму, дату та іншу релевантну інформацію. |
| Платіжна відомість | Видобуває заробітну плату, години, відрахування, чисту оплату праці та інші поширені поля заглушки. |
| Кредитна картка | Витягує інформацію про платіжну картку. |
| Контракт | Витяги з угоди та деталей сторони. |
Податкові документи США
| Модель | Опис |
|---|---|
| Уніфікований податок США | Єдина модель, яка витягує з будь-якого підтримуваного типу податкової форми США. |
| W-2 | Витягує деталі оподатковуваної компенсації. |
| 1098 та варіації | Витягує відсотки за іпотекою та пов'язані деталі. |
| 1099 та варіації | Отримує дохід з різних джерел. |
| 1040 та варіації | Витягує деталі індивідуальної податкової декларації. |
Іпотечні документи США
| Модель | Опис |
|---|---|
| 1003 (URLA) | Витяги з деталей заявки на кредит. |
| 1004 (URAR) | Витягує інформацію з оцінок майна. |
| 1005 | Витягує інформацію про підтвердження працевлаштування. |
| 1008 | Витягує деталі передачі кредиту. |
| Закриття розкриття | Витягує остаточні умови закриття кредиту. |
Особисті документи, які посвідчують особу
| Модель | Опис |
|---|---|
| Документ посвідчення особи | Витяги з водійських посвідчень США, посвідчень Європейського Союзу та водійських посвідчень та міжнародних паспортів. Включає імена, дати народження, номери документів, а також схвалення або обмеження. |
| Картка медичного страхування | Витягує поширені поля з карток медичного страхування США. |
| Свідоцтво про шлюб | Витяги з засвідченої інформації про шлюб. |
Важливо
Модель посвідчення особи вилучає особисту інформацію, що регулюється законами про захист даних у більшості юрисдикцій. Переконайтеся, що у вас є дозвіл особи зберігати її дані та що ви відповідаєте всім чинним законодавчим вимогам.
Особливості попередньо вбудованих моделей
Готові моделі розроблені для вилучення різних типів даних із документів. Нижче наведено деякі з функцій.
- Вилучення тексту: Усі готові моделі витягують рядки та слова з рукописного та друкованого тексту.
- Пари ключ-значення: Обсяги тексту, які ідентифікують мітку та її відповідь. Наприклад, вага і 31 кг.
- Позначки вибору: Галочки та радіокнопки, включно з тим, чи обрано вони.
- Таблиці: Дані в клітинках, включаючи кількість стовпців і рядків, заголовки стовпців і рядків, а також об'єднані клітинки.
-
Поля: Моделі, навчені для певного типу форми, визначають фіксований набір полів. Наприклад, модель рахунку витягує
CustomerNameтаInvoiceTotal.
Коли використовувати готові та кастомні моделі
Готові моделі охоплюють найпоширеніші типи документів. Якщо у вас є унікальний тип, специфічний для галузі, ви можете отримати більш точні результати з кастомною моделлю. Однак для навчання кастомних моделей потрібен час і вибіркові дані. Завжди перевіряйте, чи існує готова модель для вашого сценарію, перш ніж інвестувати у розробку індивідуальної моделі.