Folosiți modele preasamblate
Sfat
Consultați fila Text și imagini pentru mai multe detalii!
Modelele preconstruite în Azure Document Intelligence îți permit să extragi date din tipuri comune de formulare fără a-ți antrena propriile modele. Microsoft antrenează aceste modele pe un număr mare de documente exemplu, așa că vă puteți aștepta la rezultate precise și fiabile pentru tipurile standard de documente.
Modele de analiză a documentelor
Înainte de a privi modelele preconstruite specifice domeniului, este important să înțelegem modelele de analiză a documentelor care stau la baza lor.
Modelul de citire
Modelul citit extrage text tipărit și scris de mână din documente și imagini. Detectează limbajul fiecărei linii de text și clasifică dacă textul este scris de mână sau tipărit. Modelul de citire este folosit ca bază pentru extragerea textului în toate celelalte modele de Inteligență a Documentelor.
Pentru fișiere PDF sau TIFF cu mai multe pagini, poți folosi parametrul pages din cererea ta pentru a specifica un interval de pagini pentru analiză.
Modelul de citire este ideal când vrei să extragi cuvinte și linii din documente fără o structură fixă sau previzibilă.
Modelul de aranjament
Modelul de layout extinde extragerea textului modelului citit prin detectarea semnelor de selecție, tabelelor și informațiilor despre structura documentului. De asemenea, suportă o funcție opțională keyValuePairs pentru extragerea perechilor cheie-valoare.
Când digitalizezi un document, acesta poate fi înclinat, sau tabelele pot avea structuri complexe cu celule comasate sau rânduri incomplete. Modelul de layout poate face față acestor dificultăți. Fiecare celulă a tabelului este extrasă împreună cu conținutul, poziția casetei delimitate și indicii rândurilor/coloanelor.
Semnele de selecție (căsuțe de bifat și butoane radio) sunt extrase împreună cu caseta de delimitare, nivelul de încredere și dacă sunt selectate.
Notă
Modelul general al documentului era disponibil în versiunile anterioare ale Document Intelligence, dar a fost deprevăzut în această 2023-10-31-preview versiune. Funcționalitatea sa pentru extragerea perechii cheie-valoare și entități a fost integrată în modelul de layout și în alte caracteristici.
Modele preconstruite pentru tipuri specifice de documente
Azure Document Intelligence include modele predefinite antrenate pe tipuri specifice de documente. Următoarele modele predefinite sunt câteva exemple disponibile pentru extragerea câmpurilor din documente de afaceri comune:
Documente financiare și juridice
| Model | Descriere |
|---|---|
| Factură | Extrage numele clientului, detaliile vânzătorului, numărul comenzii de achiziție, factura și datele scadentă, adresele de facturare și livrare, articolele de linie și totalurile. |
| Chitanță | Extrage detalii despre comercianți, data și ora tranzacției, liniile și totalurile. Suportă procesarea chitanțelor de hotel pe o singură pagină. |
| Extras bancar | Extrage informații despre cont, solduri de început și final și detalii despre tranzacții. |
| Bifat | Extrage plătitorul, suma, data și alte informații relevante. |
| Fluturaș de salariu | Extrage salariile, orele, deducerile, salariul net și alte câmpuri de racletă de plată comună. |
| Card de credit | Extrage informații despre cardurile de plată. |
| Contract | Extrage acordul și detaliile părții. |
Documente fiscale din SUA
| Model | Descriere |
|---|---|
| Impozitul unificat în SUA | Un singur model care extrage din orice tip de formular fiscal din SUA suportat. |
| W-2 | Extrage detalii despre compensațiile impozabile. |
| 1098 și variații | Extrage dobânda ipotecară și detalii conexe. |
| 1099 și variații | Extrage venituri din diverse surse. |
| 1040 și variații | Extrage detaliile declarațiilor de venit individuale. |
Documente ipotecare din SUA
| Model | Descriere |
|---|---|
| 1003 (URLA) | Extrage detaliile cererii de împrumut. |
| 1004 (URAR) | Extrage informații din evaluările proprietăților. |
| 1005 | Extrage informații despre validarea angajării. |
| 1008 | Extrage detalii despre transmiterea împrumutului. |
| Dezvăluirea de închidere | Extrage termenii finali ai împrumutului de închidere. |
Documente personale de identificare
| Model | Descriere |
|---|---|
| Document de identitate | Extrage detalii din permisele de conducere ale SUA, actele de identitate și permisele de conducere ale Uniunii Europene, precum și pașapoartele internaționale. Include nume, date de naștere, numere de documente și însemnări sau restricții. |
| Cardul de asigurare de sănătate | Extrage câmpuri comune din cardurile de asigurare de sănătate din SUA. |
| Certificat de căsătorie | Extrase informații certificate despre căsătorie. |
Important
Modelul documentului de identitate extrage informații personale acoperite de legile privind protecția datelor în majoritatea jurisdicțiilor. Asigurați-vă că aveți permisiunea persoanei pentru a-i stoca datele și că respectați toate cerințele legale aplicabile.
Caracteristici ale modelelor predefinite
Modelele preconstruite sunt concepute pentru a extrage diferite tipuri de date din documente. Printre aceste caracteristici se numără:
- Extragerea textului: Toate modelele preconstruite extrag linii și cuvinte din text scris de mână și tipărit.
- Perechi cheie-valoare: Întinderi de text care identifică o etichetă și răspunsul acesteia. De exemplu, greutatea și 31 kg.
- Marcaje de selecție: Căsuțe de bifat și butoane radio, inclusiv dacă sunt selectate sau nu.
- Tabele: Date în celule, inclusiv numărul de coloane și rânduri, anteturile de coloane și rânduri, precum și celulele comasate.
-
Câmpuri: Modelele antrenate pentru un anumit tip de formă identifică un set fix de câmpuri. De exemplu, modelul de factură extrage
CustomerNameșiInvoiceTotal.
Când să folosești modele preasamblate vs. modele personalizate
Modelele preconstruite acoperă cele mai comune tipuri de documente. Dacă ai un tip de formă specific industriei sau unic, s-ar putea să obții rezultate mai precise cu un model personalizat. Totuși, modelele personalizate necesită timp și date de probă pentru a fi antrenate. Verifică întotdeauna dacă există un model preconstruit pentru scenariul tău înainte de a investi în dezvoltarea unui model personalizat.