Aanbevolen procedures: gelabelde gegevenssets genereren

Artikel
10/16/2024

Deze inhoud is van toepassing op: v4.0 (preview) | Vorige versies: v3.1 (GA) v3.0 (GA)

Belangrijk

Aanbevolen procedures voor het genereren van gelabelde gegevenssets zijn alleen van toepassing op aangepaste sjabloon en aangepaste neurale modellen, voor aangepaste generatieve, verwijzen naar Custom Ative

Aangepaste modellen (sjabloon en neurale) vereisen een gelabelde gegevensset van ten minste vijf documenten om een model te trainen. De kwaliteit van de gelabelde gegevensset is van invloed op de nauwkeurigheid van het getrainde model. Deze handleiding helpt u meer te weten te komen over het genereren van een model met hoge nauwkeurigheid door een diverse gegevensset samen te voegen en aanbevolen procedures te bieden voor het labelen van uw documenten.

Inzicht in de onderdelen van een gelabelde gegevensset

Een gelabelde gegevensset bestaat uit verschillende bestanden:

U geeft een set voorbeelddocumenten (meestal PDF's of afbeeldingen) op. Er zijn minimaal vijf documenten nodig om een model te trainen.
Daarnaast genereert het labelproces de volgende bestanden:
- Er wordt een fields.json bestand gemaakt wanneer het eerste veld wordt toegevoegd. Er is één fields.json bestand voor de volledige trainingsgegevensset, de lijst met velden bevat de veldnaam en de bijbehorende subvelden en -typen.
- De Studio voert elk van de documenten uit via de Layout-API. Het indelingsantwoord voor elk van de voorbeeldbestanden in de gegevensset wordt toegevoegd als {file}.ocr.json. Het antwoord op de indeling wordt gebruikt om de veldlabels te genereren wanneer een bepaald tekstbereik is gelabeld.
- Er {file}.labels.json wordt een bestand gemaakt of bijgewerkt wanneer een veld wordt gelabeld in een document. Het labelbestand bevat de tekstbereiken en de bijbehorende veelhoeken uit de indelingsuitvoer voor elke tekstspanne die de gebruiker toevoegt als een waarde voor een specifiek veld.

Video: Tips en aanwijzers voor aangepaste labels

De volgende video is de eerste van twee presentaties waarmee u aangepaste modellen kunt bouwen met een hogere nauwkeurigheid (in de tweede presentatie worden aanbevolen procedures voor het labelen van documenten onderzocht).
We verkennen hoe u een evenwichtige gegevensset maakt en de juiste documenten selecteert om te labelen. Dit proces stelt u in op het pad naar modellen met een hogere kwaliteit.

Een evenwichtige gegevensset maken

Voordat u begint met labelen, is het een goed idee om een aantal verschillende voorbeelden van het document te bekijken om te bepalen welke voorbeelden u wilt gebruiken in uw gelabelde gegevensset. Een evenwichtige gegevensset vertegenwoordigt alle typische variaties die u verwacht te zien voor het document. Het maken van een evenwichtige gegevensset resulteert in een model met de hoogst mogelijke nauwkeurigheid. Enkele voorbeelden om rekening mee te houden zijn:

Documentindelingen: Als u zowel digitale als gescande documenten verwacht te analyseren, voegt u enkele voorbeelden van elk type toe aan de trainingsgegevensset.
Variaties (sjabloonmodel): Overweeg om de gegevensset op te splitsen in mappen en een model te trainen voor elke variatie. Eventuele variaties die structuur of indeling bevatten, moeten worden gesplitst in verschillende modellen. Vervolgens kunt u de afzonderlijke modellen opstellen in één samengesteld model.
Variaties (neurale modellen): wanneer uw gegevensset een beheerbare set variaties heeft, maakt u ongeveer 15 of minder gegevenssets met een paar voorbeelden van elk van de verschillende variaties om één model te trainen. Als het aantal sjabloonvariaties groter is dan 15, traint u meerdere modellen en stelt u deze samen.
Tabellen: Voor documenten met tabellen met een variabel aantal rijen moet u ervoor zorgen dat de trainingsgegevensset ook documenten vertegenwoordigt met verschillende aantallen rijen.
Tabellen met meerdere pagina's: wanneer tabellen meerdere pagina's omvatten, moet u één tabel labelen. Voeg documenten toe aan de trainingsgegevensset met de verwachte variaties die worden weergegeven: alleen documenten met de tabel op één pagina en documenten met de tabel die twee of meer pagina's beslaat met alle rijen met het label.
Optionele velden: Als uw gegevensset documenten bevat met optionele velden, controleert u of de trainingsgegevensset enkele documenten bevat met de opties die worden weergegeven.

Begin met het identificeren van de velden

Neem de tijd om elk van de velden te identificeren die u in de gegevensset wilt labelen. Let op optionele velden. Definieer de velden met de labels die het beste overeenkomen met de ondersteunde typen.

Gebruik de volgende richtlijnen om de velden te definiëren:

Gebruik voor aangepaste neurale modellen semantisch relevante namen voor velden. Als de waarde die wordt geëxtraheerd Effective Date, bijvoorbeeld een naam effective_date krijgt of EffectiveDate geen algemene naam zoals datum1.
Geef in het ideale geval uw velden een naam met Pascal of kameelkast.
Als een waarde deel uitmaakt van een visueel herhalende structuur en u slechts één waarde nodig hebt, labelt u deze als een tabel en extraheert u de vereiste waarde tijdens de naverwerking.
Voor tabellaire velden die meerdere pagina's omvatten, definieert en labelt u de velden als één tabel.

Notitie

Aangepaste neurale modellen delen dezelfde labelindeling en strategie als aangepaste sjabloonmodellen. Op dit moment ondersteunen aangepaste neurale modellen alleen een subset van de veldtypen die worden ondersteund door aangepaste sjabloonmodellen.

Modelmogelijkheden

Aangepaste neurale modellen ondersteunen momenteel alleen sleutel-waardeparen, gestructureerde velden (tabellen) en selectiemarkeringen.

Modeltype	Formuliervelden	Selectiemarkeringen	Tabellaire velden	Handtekening	Regio	Overlappende velden
Aangepaste neurale	✔️Ondersteund	✔️Ondersteund	✔️Ondersteund	Niet ondersteund	✔️Ondersteund¹	✔️Ondersteund²
Sjabloon Aangepast	✔️Ondersteund	✔️Ondersteund	✔️Ondersteund	✔️Ondersteund	✔️Ondersteund	Niet ondersteund

¹ Implementatie van regiolabels verschilt tussen sjabloon- en neurale modellen. Voor sjabloonmodellen injecteert het trainingsproces synthetische gegevens tijdens de training als er geen tekst wordt gevonden in de regio met het label. Bij neurale modellen wordt geen synthetische tekst geïnjecteerd en wordt de herkende tekst gebruikt zoals is.
² Overlappende velden worden ondersteund vanaf de API-versie 2024-02-29-preview en hoger. Overlappende velden hebben enkele limieten. Zie overlappende velden voor meer informatie.

Tabellaire velden

Tabellaire velden (tabellen) worden ondersteund met aangepaste neurale modellen die beginnen met de API-versie 2022-06-30-preview. Modellen die zijn getraind met API-versie 2022-06-30-preview of hoger, accepteren tabellaire veldlabels en documenten die worden geanalyseerd met het model met API-versie 2022-06-30-preview of hoger, produceren tabellaire velden in de uitvoer in de documents sectie van het resultaat in het analyzeResult object.

Tabellaire velden ondersteunen standaard tabellen op meerdere pagina's . Als u een tabel met meerdere pagina's wilt labelen, moet u elke rij van de tabel labelen op de verschillende pagina's in de ene tabel. Als best practice moet u ervoor zorgen dat uw gegevensset enkele voorbeelden van de verwachte variaties bevat. Neem bijvoorbeeld beide voorbeelden op waarbij een hele tabel zich op één pagina bevindt en voorbeelden van een tabel die twee of meer pagina's beslaat.

Tabellaire velden zijn ook handig bij het extraheren van herhalende informatie in een document dat niet wordt herkend als een tabel. Een herhalende sectie met werkervaringen in een cv kan bijvoorbeeld worden gelabeld en geëxtraheerd als een tabellair veld.

Notitie

Tabelveld wanneer gelabeld wordt geëxtraheerd als onderdeel van de documents sectie van het antwoord. Het antwoord bevat ook een tables sectie die de tabellen bevat die zijn geëxtraheerd uit het document door het indelingsmodel. Als u een veld als tabel hebt gelabeld, zoekt u het veld in de documentensectie van het antwoord.

Richtlijnen voor labelen

Labelwaarden zijn vereist. Neem de omringende tekst niet op. Als u bijvoorbeeld een selectievakje labelt, geeft u het veld een naam om de selectievakjeselectie aan te geven, bijvoorbeeld selectionYes en selectionNo niet het labelen van de ja of nee-tekst in het document.
Geef geen interleaving veldwaarden op. De waarde van woorden en/of regio's van één veld moet een opeenvolgende reeks in natuurlijke leesrichting zijn.
Consistent labelen. Als een waarde in meerdere contexten in het document wordt weergegeven, kiest u consistent dezelfde context in documenten om de waarde te labelen.
Visueel herhalende gegevens. Tabellen ondersteunen visueel herhalende groepen informatie, niet alleen expliciete tabellen. Expliciete tabellen worden geïdentificeerd in de tabellensectie van de geanalyseerde documenten als onderdeel van de indelingsuitvoer en hoeven niet als tabellen te worden gelabeld. Label alleen een tabelveld als de informatie visueel wordt herhaald en niet wordt geïdentificeerd als een tabel als onderdeel van het indelingsantwoord. Een voorbeeld hiervan is de sectie herhalende werkervaring van een cv.
Regiolabels (aangepaste sjabloon). Door specifieke regio's te labelen, kunt u een waarde definiëren wanneer er geen bestaat. Als de waarde optioneel is, moet u ervoor zorgen dat u enkele voorbeelddocumenten met het label regio niet achterlaat. Wanneer u regio's labelt, moet u de omringende tekst niet met het label opnemen.
Overlappende velden (aangepast neuraal). Label het veld overlapt met regiolabels. Zorg ervoor dat u ten minste een voorbeeld hebt waarin wordt beschreven hoe de velden elkaar in uw trainingsgegevensset kunnen overlappen.

Volgende stappen

Een aangepast model trainen:

Een model trainen
De REST API's weergeven:

Document Intelligence-API v4.0:2024-07-31-preview

Document Intelligence-API v3.1:2023-07-31 (GA)

Delen via