Delen via


Aangepaste modellen voor Document Intelligence

Belangrijk

  • Openbare preview-versies van Document Intelligence bieden vroegtijdige toegang tot functies die actief zijn in ontwikkeling. Functies, benaderingen en processen kunnen veranderen, vóór algemene beschikbaarheid (GA), op basis van feedback van gebruikers.
  • De openbare preview-versie van Document Intelligence-clientbibliotheken is standaard ingesteld op REST API-versie 2024-07-31-preview.
  • Openbare preview-versie 2024-07-31-preview is momenteel alleen beschikbaar in de volgende Azure-regio's. Houd er rekening mee dat het aangepaste model voor generatieve (extractie van documentvelden) in AI Studio alleen beschikbaar is in de regio VS - noord-centraal:
    • VS - oost
    • VS - west 2
    • Europa -west
    • VS - noord-centraal

Deze inhoud is van toepassing op: vinkje v4.0 (preview) | Vorige versies:blauw-vinkje v3.1 (GA)blauw-vinkje v3.0 (GA)blauw-vinkje v2.1 (GA)

Deze inhoud is van toepassing op: vinkje v3.1 (GA) | Nieuwste versie:paars vinkje v4.0 (preview) | Vorige versies: blauw-vinkje v3.0blauw-vinkje v2.1

Deze inhoud is van toepassing op: vinkje v3.0 (GA) | Nieuwste versies:paars vinkje v4.0 (preview)paars vinkje v3.1 | Vorige versie: blauw-vinkje v2.1

Deze inhoud is van toepassing op: vinkje v2.1 | Nieuwste versie: blauw-vinkje v4.0 (preview)

Belangrijk

Het model compose bewerkingsgedrag verandert van api-version=2024-07-31-preview. Met de model compose bewerking v4.0 en hoger wordt een expliciet getrainde classificatie toegevoegd in plaats van een impliciete classificatie voor analyse. Zie Samengestelde aangepaste modellen v3.1 voor de vorige versie van het samengestelde model. Als u momenteel samengestelde modellen gebruikt, kunt u overwegen om een upgrade uit te voeren naar de nieuwste implementatie.

Wat is een samengesteld model?

Met samengestelde modellen kunt u meerdere aangepaste modellen groeperen in een samengesteld model met één model-id. Uw samengestelde model kan bijvoorbeeld aangepaste modellen bevatten die zijn getraind om uw leverings-, apparatuur- en meubelaankooporders te analyseren. In plaats van handmatig het juiste model te selecteren, kunt u een samengesteld model gebruiken om het juiste aangepaste model te bepalen voor elke analyse en extractie.

Voor sommige scenario's moet het document eerst worden geclassificeerd en vervolgens het document worden geanalyseerd met het model dat het meest geschikt is om de velden uit het model te extraheren. Dergelijke scenario's kunnen scenario's bevatten waarbij een gebruiker een document uploadt, maar het documenttype niet expliciet bekend is. Een ander scenario kan zijn wanneer meerdere documenten samen worden gescand in één bestand en het bestand wordt verzonden voor verwerking. Uw toepassing moet vervolgens de onderdeeldocumenten identificeren en het beste model voor elk document selecteren.

In eerdere versies heeft de model compose bewerking een impliciete classificatie uitgevoerd om te bepalen welk aangepast model het beste het ingediende document vertegenwoordigt. De 2024-07-31-preview implementatie van de model compose bewerking vervangt de impliciete classificatie uit de eerdere versies door een expliciete classificatiestap en voegt voorwaardelijke routering toe.

Voordelen van de nieuwe bewerking voor het opstellen van modellen

Voor de nieuwe model compose bewerking moet u een expliciete classificatie trainen en verschillende voordelen bieden.

  • Continue incrementele verbetering. U kunt de kwaliteit van de classificatie consistent verbeteren door meer voorbeelden toe te voegen en de classificatie incrementeel te verbeteren. Deze afstemming zorgt ervoor dat uw documenten altijd naar het juiste model worden gerouteerd voor extractie.

  • Volledige controle over routering. Door op betrouwbaarheid gebaseerde routering toe te voegen, geeft u een betrouwbaarheidsdrempel op voor het documenttype en het classificatieantwoord.

  • Documentspecifieke documenttypen negeren tijdens de bewerking. Eerdere implementaties van de model compose bewerking selecteerden het beste analysemodel voor extractie op basis van de betrouwbaarheidsscore, zelfs als de hoogste betrouwbaarheidsscores relatief laag waren. Door een betrouwbaarheidsdrempel op te geven of een bekend documenttype expliciet toe te kennen aan een extractiemodel, kunt u specifieke documenttypen negeren.

  • Analyseer meerdere exemplaren van hetzelfde documenttype. Wanneer deze is gekoppeld aan de optie van de splitMode classificatie, kan de model compose bewerking meerdere exemplaren van hetzelfde document in een bestand detecteren en het bestand splitsen om elk document onafhankelijk te verwerken. Met het gebruik splitMode kunt u meerdere exemplaren van een document in één aanvraag verwerken.

  • Ondersteuning voor invoegtoepassingsfuncties. U kunt functies zoals queryvelden of streepjescodes toevoegen als onderdeel van de parameters van het analysemodel.

  • Toegewezen aangepast model maximum uitgebreid tot 500. Met de nieuwe implementatie van de model compose bewerking kunt u maximaal 500 getrainde aangepaste modellen toewijzen aan één samengesteld model.

Model opstellen gebruiken

  • Begin met het verzamelen van voorbeelden van al uw benodigde documenten, inclusief voorbeelden met informatie die moet worden geëxtraheerd of genegeerd.

  • Train een classificatie door de documenten te ordenen in mappen waarin de mapnamen het documenttype zijn dat u wilt gebruiken in de definitie van het samengestelde model.

  • Ten slotte traint u een extractiemodel voor elk van de documenttypen die u wilt gebruiken.

  • Zodra uw classificatie- en extractiemodellen zijn getraind, gebruikt u Document Intelligence Studio, clientbibliotheken of de REST API om de classificatie- en extractiemodellen samen te stellen in een samengesteld model.

Gebruik de splitMode parameter om het gedrag van het splitsen van bestanden te beheren:

  • Geen. Het hele bestand wordt behandeld als één document.
  • perPage. Elke pagina in het bestand wordt behandeld als een afzonderlijk document.
  • automatisch. Het bestand wordt automatisch gesplitst in documenten.

Facturering en prijzen

Samengestelde modellen worden hetzelfde gefactureerd als afzonderlijke aangepaste modellen. De prijzen zijn gebaseerd op het aantal pagina's dat wordt geanalyseerd door het downstreamanalysemodel. Facturering is gebaseerd op de extractieprijs voor de pagina's die worden gerouteerd naar een extractiemodel. Met de toevoeging van de expliciete classificatiekosten worden gemaakt voor de classificatie van alle pagina's in het invoerbestand. Zie de pagina met prijzen voor Document Intelligence voor meer informatie.

Model opstellen gebruiken

  • Begin met het maken van een lijst met alle model-id's die u wilt opstellen in één model.

  • Stel de modellen samen in één model-id met behulp van de Studio-, REST API- of clientbibliotheken.

  • Gebruik de samengestelde model-id om documenten te analyseren.

Billing

Samengestelde modellen worden hetzelfde gefactureerd als afzonderlijke aangepaste modellen. De prijzen zijn gebaseerd op het aantal geanalyseerde pagina's. Facturering is gebaseerd op de extractieprijs voor de pagina's die worden gerouteerd naar een extractiemodel. Zie de pagina met prijzen voor Document Intelligence voor meer informatie.

  • Er zijn geen wijzigingen in prijzen voor het analyseren van een document met behulp van een afzonderlijk aangepast model of een samengesteld aangepast model.

Functies voor samengestelde modellen

  • Custom template en custom neural modellen kunnen samen worden samengesteld in één samengesteld model in meerdere API-versies.

  • Het antwoord bevat een docType eigenschap om aan te geven welke van de samengestelde modellen is gebruikt om het document te analyseren.

  • Voor custom template modellen kan het samengestelde model worden gemaakt met variaties van een aangepaste sjabloon of verschillende formuliertypen. Deze bewerking is handig wanneer binnenkomende formulieren deel uitmaken van een van de verschillende sjablonen.

  • Voor custom neural modellen kunt u het beste alle verschillende variaties van één documenttype toevoegen aan één trainingsgegevensset en trainen op aangepast neuraal model. De model compose bewerking is het meest geschikt voor scenario's wanneer u documenten van verschillende typen hebt die voor analyse worden ingediend.

Limieten voor opstellen van modellen

  • Met de model compose bewerking kunt u maximaal 500 modellen toewijzen aan één model-id. Als het aantal modellen dat ik wil opstellen de bovengrens van een samengesteld model overschrijdt, kunt u een van de volgende alternatieven gebruiken:

    • Classificeer de documenten voordat u het aangepaste model aanroept. U kunt het leesmodel gebruiken en een classificatie bouwen op basis van de geëxtraheerde tekst uit de documenten en bepaalde woordgroepen met behulp van bronnen zoals code, reguliere expressies of zoeken.

    • Als u dezelfde velden wilt extraheren uit verschillende gestructureerde, semi-gestructureerde en ongestructureerde documenten, kunt u overwegen het aangepaste neurale model voor deep learning te gebruiken. Meer informatie over de verschillen tussen het aangepaste sjabloonmodel en het aangepaste neurale model.

  • Het analyseren van een document met behulp van samengestelde modellen is identiek aan het analyseren van een document met behulp van één model. Het Analyze Document resultaat retourneert een docType eigenschap die aangeeft welke van de onderdeelmodellen die u hebt geselecteerd voor het analyseren van het document.

  • De model compose bewerking is momenteel alleen beschikbaar voor aangepaste modellen die zijn getraind met labels.

Compatibiliteit van samengestelde modellen

Aangepast modeltype Modellen die zijn getraind met v2.1 en v2.0 Aangepaste sjabloon en neurale modellen v3.1 en v3.0 Aangepaste sjabloon en neurale modellen v4.0 preview Aangepaste generatieve modellen v4.0 preview
Modellen die zijn getraind met versie 2.1 en v2.0 Niet ondersteund Niet ondersteund Niet ondersteund Niet ondersteund
Aangepaste sjabloon en neurale modellen v3.0 en v3.1 Niet ondersteund Ondersteund Ondersteund Niet ondersteund
Aangepaste sjabloon en neurale modellen v4.0 preview Niet ondersteund Ondersteund Ondersteund Niet ondersteund
Aangepaste generatieve modellen v4.0 preview Niet ondersteund Niet ondersteund Niet ondersteund Niet ondersteund
  • Als u een model wilt opstellen dat is getraind met een eerdere versie van de API (v2.1 of eerder), traint u een model met de v3.0-API met behulp van dezelfde gelabelde gegevensset. Deze toevoeging zorgt ervoor dat het v2.1-model kan worden samengesteld met andere modellen.

  • Met modellen die zijn samengesteld met v2.1 van de API, worden nog steeds ondersteund, waarvoor geen updates nodig zijn.

Ontwikkelingsopties

Document Intelligence v4.0:2024-07-31-preview ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:

Functie Resources
Aangepast model Document Intelligence Studio
REST API
C# SDK
• Java SDK
JavaScript SDK
Python SDK
Samengesteld model Document Intelligence Studio
REST API
C# SDK
• Java SDK
JavaScript SDK
Python SDK

Document Intelligence v3.1:2023-07-31 (GA) ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:

Functie Resources
Aangepast model Document Intelligence Studio
REST API
C# SDK
• Java SDK
JavaScript SDK
Python SDK
Samengesteld model Document Intelligence Studio
REST API
C# SDK
• Java SDK
JavaScript SDK
Python SDK

Document Intelligence v3.0:2022-08-31 (GA) ondersteunt de volgende hulpprogramma's, toepassingen en bibliotheken:

Functie Resources
Aangepast model Document Intelligence Studio
REST API
C# SDK
• Java SDK
JavaScript SDK
Python SDK
Samengesteld model Document Intelligence Studio
REST API
C# SDK
• Java SDK
JavaScript SDK
Python SDK

Document Intelligence v2.1 ondersteunt de volgende bronnen:

Functie Resources
Aangepast model Hulpprogramma
voor documentinformatielabels• REST API
Clientbibliotheek SDK
Document Intelligence Docker-container
Samengesteld model Hulpprogramma voor documentinformatielabels
REST API
C# SDK
• Java SDK
JavaScript SDK• Python SDK

Volgende stappen

Meer informatie over het maken en opstellen van aangepaste modellen:

Aangepaste modellensamenstellen