Wat is Azure Document Intelligence?

Voltooid

Aanbeveling

Zie het tabblad Tekst en afbeeldingen voor meer informatie.

Azure Document Intelligence is een cloudgebaseerde AI-service in Microsoft Foundry die gebruikmaakt van OCR- en Deep Learning-modellen om tekst, sleutel-waardeparen, selectiemarkeringen en tabellen uit documenten te extraheren.

OCR legt documentstructuur vast door begrenzingsvakken rond gedetecteerde objecten in een afbeelding te maken. De locaties van de begrenzingsvakken worden vastgelegd als coördinaten ten opzichte van de rest van de pagina. Azure Document Intelligence retourneert begrenzingsvakgegevens en andere informatie in een gestructureerde JSON-indeling die de relaties van het oorspronkelijke document behoudt.

Schermopname met Document Intelligence waarin een voorbeelddocument wordt geanalyseerd met geëxtraheerde velden en begrenzingsvakken.

Voor het bouwen van een volledig nieuw model voor documentextractie is deep learning-expertise, grote hoeveelheden rekenkracht en lange trainingstijden vereist. Azure Document Intelligence biedt onderliggende modellen die al zijn getraind op duizenden formuliervoorbeelden, zodat u met minimale inspanning gegevensextractie met hoge nauwkeurigheid kunt bereiken.

Onderdelen van de Document Intelligence-service

Azure Document Intelligence bestaat uit drie categorieën modellen:

  • Modellen voor documentanalyse: Tekst, structuur, tabellen en selectiemarkeringen uit documenten extraheren. Het leesmodel extraheert tekst en detecteert talen, terwijl het indelingsmodel tabel- en structuurextractie toevoegt. U gaat deze modellen in detail verkennen in de eenheid Vooraf samengestelde modellen gebruiken .

  • Vooraf samengestelde modellen: Gegevens extraheren uit algemene documenttypen, zoals facturen, ontvangsten, belastingformulieren, id-documenten en meer, zonder dat hiervoor training nodig is. U ziet de volledige lijst met beschikbare vooraf samengestelde modellen in de eenheid Vooraf samengestelde modellen gebruiken .

  • Aangepaste modellen: gegevens extraheren uit formulieren die specifiek zijn voor uw bedrijf met behulp van uw eigen gelabelde gegevenssets. Opties zijn aangepaste sjabloonmodellen (snel en rendabel voor vaste indelingen), aangepaste neurale modellen (hogere nauwkeurigheid voor verschillende indelingen), samengestelde modellen en aangepaste classificaties. U leert meer over het trainen en gebruiken van aangepaste modellen in de les Trainen en het gebruik van aangepaste modellen .

Toegang tot Document Intelligence-services

U hebt op verschillende manieren toegang tot Azure Document Intelligence:

  • REST API: roep de service rechtstreeks aan met behulp van HTTP-aanvragen.
  • Clientbibliotheek-SDK's: SDK's gebruiken voor Python, C#, Java en JavaScript.
  • Document Intelligence Studio: een onlinehulpprogramma voor het visueel verkennen, testen en bouwen van Document Intelligence-oplossingen.
  • Microsoft Foundry-portal: Document intelligence integreren met andere Foundry-hulpprogramma's.

Aanbeveling

De oefening van deze module is gericht op de Python SDK. De onderliggende REST-services kunnen door elke taal worden gebruikt.

Een Document Intelligence-resource maken

Als u Azure Document Intelligence wilt gebruiken, hebt u een Azure-resource nodig. U kunt een van de volgende opties gebruiken:

  • Een Foundry-resource: een abonnement met meerdere services dat toegang biedt tot meerdere AI-services onder één eindpunt en sleutel.
  • Een Azure Document Intelligence-resource: een resource met één service die alleen wordt gebruikt met Document Intelligence.

Opmerking

Maak een Foundry-resource als u van plan bent om toegang te krijgen tot meerdere Foundry-hulpprogramma's onder één eindpunt en sleutel. Voor alleen toegang tot Document Intelligence maakt u een toegewezen Document Intelligence-resource.

Vereisten voor invoer

Azure Document Intelligence werkt op invoerdocumenten die voldoen aan deze vereisten:

  • Indeling moet JPEG, PNG, BMP, PDF (tekst of gescand) of TIFF zijn. Het leesmodel accepteert ook Microsoft Office-bestandsindelingen.
  • De bestandsgrootte moet kleiner zijn dan 500 MB voor de standard-laag en 4 MB voor de gratis laag.
  • De afmetingen van afbeeldingen moeten tussen 50 x 50 en 10.000 x 10.000 pixels liggen.
  • PDF-documenten moeten afmetingen hebben van minder dan 17 x 17 inch (A3 papierformaat).
  • PDF-documenten mogen niet met een wachtwoord zijn beveiligd.

Meer informatie