Ce este Azure Document Intelligence?
Sfat
Consultați fila Text și imagini pentru mai multe detalii!
Azure Document Intelligence este un serviciu AI bazat pe cloud în Microsoft Foundry care folosește modele OCR și deep learning pentru a extrage text, perechi cheie-valoare, semne de selecție și tabele din documente.
OCR capturează structura documentului prin crearea de casete legate în jurul obiectelor detectate într-o imagine. Locațiile casetelor de încadrare sunt înregistrate ca coordonate în raport cu restul paginii. Azure Document Intelligence returnează date de bounding box și alte informații într-un format JSON structurat care păstrează relațiile din documentul original.
Pentru a construi un model de extragere a documentelor cu acuratețe ridicată de la zero este nevoie de expertiză în învățare profundă, cantități mari de calcul și timpi lungi de instruire. Azure Document Intelligence oferă modele de bază deja antrenate pe mii de exemple de formulare, astfel încât poți obține extragere de date cu acuratețe ridicată cu un efort minim.
Componente ale serviciului de informații documentale
Azure Document Intelligence este compus din trei categorii de modele:
Modele de analiză a documentelor: Extragere text, structură, tabele și semnele de selecție din documente. Modelul de citire extrage text și detectează limbaje, în timp ce modelul de layout adaugă extrageri de tabel și structură. Vei explora aceste modele în detaliu în unitatea Folosește modele preconstruite .
Modele preconstruite: Extrageți informații din tipuri comune de documente — cum ar fi facturi, chitanțe, formulare fiscale, acte de identitate și altele — fără a fi necesară nicio instruire. Vei vedea lista completă a modelelor preasamblate disponibile în unitatea Folosește modele preconstruite .
Modele personalizate: Extrageți date din formulare specifice afacerii dumneavoastră folosind propriile seturi de date etichetate. Opțiunile includ modele de șabloane personalizate (rapide și eficiente din punct de vedere al costurilor pentru layout-uri fixe), modele neuronale personalizate (acuratețe mai mari pentru diverse layout-uri), modele compuse și clasificatoare personalizate. Vei învăța despre antrenament și folosirea modelelor personalizate în unitatea Train și vei folosi modele personalizate .
Acces la serviciile de informații documentale
Poți accesa Azure Document Intelligence în mai multe moduri:
- API-ul REST: Apelează serviciul direct folosind cereri HTTP.
- SDK-uri pentru biblioteci client: Folosiți SDK-uri pentru Python, C#, Java și JavaScript.
- Document Intelligence Studio: Un instrument online pentru explorarea vizuală, testarea și construirea soluțiilor de Document Intelligence.
- Portalul Microsoft Foundry: Integrează Document Intelligence cu alte instrumente Foundry.
Sfat
Exercițiul acestui modul se concentrează pe SDK-ul Python. Serviciile REST subiacente pot fi utilizate de orice limbă.
Creează o resursă de Inteligență Documentală
Pentru a folosi Azure Document Intelligence, ai nevoie de o resursă Azure. Puteți utiliza oricare dintre următoarele:
- O resursă Foundry: Un abonament multi-servicii care oferă acces la mai multe servicii AI sub un singur endpoint și cheie.
- O resursă Azure Document Intelligence: O resursă cu serviciu unic folosită doar cu Document Intelligence.
Notă
Creează o resursă Foundry dacă plănuiești să accesezi mai multe unelte Foundry sub un singur endpoint și cheie. Pentru accesul doar la Document Intelligence, creați o resursă dedicată Document Intelligence.
Cerințe de intrare
Azure Document Intelligence funcționează pe documente de intrare care îndeplinesc aceste cerințe:
- Formatul trebuie să fie JPEG, PNG, BMP, PDF (text sau scanat) sau TIFF. Modelul de citire acceptă, de asemenea, formate de fișiere Microsoft Office.
- Dimensiunea fișierului trebuie să fie mai mică de 500 MB pentru nivelul standard și 4 MB pentru nivelul gratuit.
- Dimensiunile imaginii trebuie să fie între 50 x 50 pixeli și 10.000 x 10.000 pixeli.
- Documentele PDF trebuie să aibă dimensiuni mai mici de 17 x 17 inch (dimensiunea hârtiei A3).
- Documentele PDF nu trebuie protejate cu parolă.