Metodtips: generera etiketterade datauppsättningar

Artikel
09/02/2024

Det här innehållet gäller för: v4.0 (förhandsversion) | Tidigare versioner: v3.1 (GA) v3.0 (GA)

Viktigt!

Metodtips för att generera märkta datauppsättningar gäller endast för anpassade mallar och anpassade neurala modeller, för anpassad generativ användning, se Anpassad generativ

Anpassade modeller (mallar och neurala) kräver en etiketterad datamängd på minst fem dokument för att träna en modell. Kvaliteten på den märkta datamängden påverkar den tränade modellens noggrannhet. Den här guiden hjälper dig att lära dig mer om att generera en modell med hög noggrannhet genom att montera en mängd olika datamängder och ger metodtips för etikettering av dokument.

Förstå komponenterna i en etiketterad datauppsättning

En etiketterad datauppsättning består av flera filer:

Du anger en uppsättning exempeldokument (vanligtvis PDF-filer eller bilder). Minst fem dokument krävs för att träna en modell.
Dessutom genererar etiketteringsprocessen följande filer:
- En fields.json fil skapas när det första fältet läggs till. Det finns en fields.json fil för hela träningsdatauppsättningen, fältlistan innehåller fältnamnet och tillhörande underfält och typer.
- Studio kör vart och ett av dokumenten via layout-API:et. Layoutsvaret för var och en av exempelfilerna i datamängden läggs till som {file}.ocr.json. Layoutsvaret används för att generera fältetiketterna när ett visst textintervall är märkt.
- En {file}.labels.json fil skapas eller uppdateras när ett fält är märkt i ett dokument. Etikettfilen innehåller textintervall och associerade polygoner från layoututdata för varje textintervall som användaren lägger till som ett värde för ett visst fält.

Video: Tips och pekare för anpassad etikett

Följande video är den första av två presentationer som hjälper dig att skapa anpassade modeller med högre noggrannhet (Den andra presentationen undersöker metodtips för etikettering av dokument).
Vi utforskar hur du skapar en balanserad datauppsättning och väljer rätt dokument att märka. Den här processen ställer in dig på vägen till modeller av högre kvalitet.

Skapa en balanserad datauppsättning

Innan du börjar märka är det en bra idé att titta på några olika exempel på dokumentet för att identifiera vilka exempel du vill använda i din etiketterade datauppsättning. En balanserad datamängd representerar alla vanliga variationer som du kan förvänta dig att se för dokumentet. Att skapa en balanserad datamängd resulterar i en modell med högsta möjliga noggrannhet. Några exempel att tänka på är:

Dokumentformat: Om du förväntar dig att analysera både digitala och skannade dokument lägger du till några exempel av varje typ i träningsdatauppsättningen.
Varianter (mallmodell): Överväg att dela upp datamängden i mappar och träna en modell för varje variant. Eventuella variationer som innehåller antingen struktur eller layout bör delas upp i olika modeller. Du kan sedan skapa de enskilda modellerna i en enda sammansatt modell.
Variationer (neurala modeller): När din datauppsättning har en hanterbar uppsättning varianter, cirka 15 eller färre, skapar du en enda datamängd med några exempel på var och en av de olika varianterna för att träna en enda modell. Om antalet mallvariationer är större än 15 tränar du flera modeller och skapar dem tillsammans.
Tabeller: För dokument som innehåller tabeller med ett variabelt antal rader kontrollerar du att träningsdatauppsättningen även representerar dokument med olika antal rader.
Tabeller med flera sidor: När tabeller sträcker sig över flera sidor etiketterar du en enda tabell. Lägg till dokument i träningsdatauppsättningen med de förväntade variationerna representerade – dokument med endast tabellen på en enda sida och dokument med tabellen som sträcker sig över två eller flera sidor med alla rader märkta.
Valfria fält: Om datamängden innehåller dokument med valfria fält kontrollerar du att träningsdatauppsättningen har några dokument med de alternativ som visas.

Börja med att identifiera fälten

Ta dig tid att identifiera vart och ett av de fält som du planerar att märka i datauppsättningen. Var uppmärksam på valfria fält. Definiera fälten med de etiketter som bäst matchar de typer som stöds.

Använd följande riktlinjer för att definiera fälten:

För anpassade neurala modeller använder du semantiskt relevanta namn för fält. Om värdet som extraheras till exempel är Effective Date, namnge det effective_date eller EffectiveDate inte ett allmänt namn som date1.
Ge dig gärna ett namn på fälten med Pascal eller kamelfodrarna.
Om ett värde ingår i en visuellt upprepande struktur och du bara behöver ett enda värde, etiketterar du det som en tabell och extraherar det nödvändiga värdet under efterbearbetningen.
För tabellfält som sträcker sig över flera sidor definierar och etiketterar du fälten som en enda tabell.

Kommentar

Anpassade neurala modeller har samma etikettformat och strategi som anpassade mallmodeller. För närvarande stöder anpassade neurala modeller endast en delmängd av de fälttyper som stöds av anpassade mallmodeller.

Modellfunktioner

Anpassade neurala modeller stöder för närvarande endast nyckel/värde-par, strukturerade fält (tabeller) och markeringsmarkeringar.

Modelltyp	Formulärfält	Markeringsmarkeringar	Tabellfält	Signatur	Region	Överlappande fält
Anpassad neural	✔️Stödd	✔️Stödd	✔️Stödd	Stöd saknas	✔️Stöds¹	✔️Stöds²
Anpassad mall	✔️Stödd	✔️Stödd	✔️Stödd	✔️Stödd	✔️Stödd	Stöd saknas

¹ Implementeringen av regionetiketter skiljer sig mellan mallar och neurala modeller. För mallmodeller matar träningsprocessen in syntetiska data vid träningstillfället om ingen text hittas i den region som är märkt. Med neurala modeller matas ingen syntetisk text in och den identifierade texten används som den är.
² Överlappande fält stöds från och med API-versionen 2024-02-29-preview och senare. Överlappande fält har vissa gränser. Mer information finns i överlappande fält.

Tabellfält

Tabellfält (tabeller) stöds med anpassade neurala modeller som börjar med API-version 2022-06-30-preview. Modeller som tränats med API-version 2022-06-30-preview eller senare accepterar tabellfältetiketter och dokument som analyserats med modellen med API-version 2022-06-30-preview eller senare skapar tabellfält i utdata i documents avsnittet i resultatet i analyzeResult objektet.

Tabellfält har stöd för korssidestabeller som standard. Om du vill märka en tabell som sträcker sig över flera sidor etiketterar du varje rad i tabellen på de olika sidorna i den enskilda tabellen. Vi rekommenderar att du ser till att datamängden innehåller några exempel på de förväntade variationerna. Ta till exempel med båda exemplen där en hel tabell finns på en enda sida och exempel på en tabell som sträcker sig över två eller flera sidor.

Tabellfält är också användbara när du extraherar upprepad information i ett dokument som inte känns igen som en tabell. Till exempel kan ett upprepat avsnitt av arbetsupplevelser i ett CV märkas och extraheras som ett tabellfält.

Kommentar

Tabellfält när de är märkta extraheras som en del av documents avsnittet i svaret. Svaret innehåller också ett tables avsnitt som innehåller tabellerna som extraherats från dokumentet av layoutmodellen. Om du har märkt ett fält som en tabell letar du efter fältet i dokumentavsnittet i svaret.

Riktlinjer för etikettering

Etiketteringsvärden krävs. Ta inte med den omgivande texten. När du till exempel etiketterar en kryssruta namnger du fältet för att ange kryssrutans markering till exempel selectionYes och selectionNo i stället för att märka texten ja eller nej i dokumentet.
Ange inte mellanlagringsfältvärden. Värdet för ord och/eller regioner i ett fält måste vara en följdsekvens i naturlig läsordning.
Konsekvent etikettering. Om ett värde visas i flera kontexter i dokumentet väljer du konsekvent samma kontext mellan dokument för att märka värdet.
Upprepa data visuellt. Tabeller stöder visuellt upprepade grupper av information, inte bara explicita tabeller. Explicita tabeller identifieras i tabellavsnittet i de analyserade dokumenten som en del av layoututdata och behöver inte märkas som tabeller. Etikettera endast ett tabellfält om informationen upprepas visuellt och inte identifieras som en tabell som en del av layoutsvaret. Ett exempel skulle vara avsnittet upprepad arbetsupplevelse i ett CV.
Regionetiketter (anpassad mall). Med etikettering av specifika regioner kan du definiera ett värde när det inte finns något. Om värdet är valfritt kontrollerar du att du lämnar några exempeldokument med regionen inte märkt. När du etiketterar regioner ska du inte ta med den omgivande texten med etiketten.
Överlappande fält (anpassad neural). Märk fältet överlappande med hjälp av regionetiketter. Se till att du har minst ett exempel som beskriver hur fälten kan överlappa i din träningsdatauppsättning.

Nästa steg

Träna en anpassad modell:

Så här tränar du en modell
Visa REST-API:erna:

Api för dokumentinformation v4.0:2024-07-31-preview

Api för dokumentinformation v3.1:2023-07-31 (GA)

Dela via