Gegevens voorbereiden en een schema definiëren voor aangepaste Text Analytics voor status

Artikel
10/16/2024

Als u een aangepast TA4H-model wilt maken, hebt u kwaliteitsgegevens nodig om het te trainen. In dit artikel wordt beschreven hoe u uw gegevens moet selecteren en voorbereiden, samen met het definiëren van een schema. Het definiëren van het schema is de eerste stap in de levenscyclus van projectontwikkeling en het omvat het definiëren van de entiteitstypen of -categorieën die u nodig hebt om uw model tijdens runtime uit de tekst te extraheren.

Schemaontwerp

Met Aangepaste Text Analytics voor de status kunt u de Text Analytics uitbreiden en aanpassen voor de entiteitstoewijzing voor de status. De eerste stap van het proces is het bouwen van uw schema, waarmee u de nieuwe entiteitstypen of -categorieën kunt definiëren die u nodig hebt om uw model te extraheren uit tekst naast de Text Analytics voor status van bestaande entiteiten tijdens runtime.

Bekijk documenten in uw gegevensset om vertrouwd te zijn met hun indeling en structuur.
Identificeer de entiteiten die u uit de gegevens wilt extraheren.

Als u bijvoorbeeld entiteiten uit ondersteuningsmails extraheert, moet u mogelijk 'Klantnaam', 'Productnaam', 'Datum van aanvraag' en 'Contactgegevens' extraheren.
Vermijd dubbelzinnigheid van entiteitstypen.

Dubbelzinnigheid treedt op wanneer entiteitstypen die u selecteert, vergelijkbaar zijn met elkaar. Hoe meer dubbelzinnig uw schema is, hoe meer gelabelde gegevens u moet onderscheiden tussen verschillende entiteitstypen.

Als u bijvoorbeeld gegevens uit een juridisch contract extraheert, moet u meer voorbeelden toevoegen om 'Naam van de eerste partij' en 'Naam van de tweede partij' te extraheren, om dubbelzinnigheid te voorkomen, omdat de namen van beide partijen er ongeveer als volgt uitzien. Vermijd dubbelzinnigheid omdat het tijd, moeite bespaart en betere resultaten oplevert.
Vermijd complexe entiteiten. Complexe entiteiten kunnen lastig zijn om precies uit tekst te kiezen, overweeg het op te splitsen in meerdere entiteiten.

Het extraheren van 'Adres' zou bijvoorbeeld lastig zijn als het niet is opgesplitst in kleinere entiteiten. Er zijn zoveel variaties van hoe adressen worden weergegeven. Het kost veel gelabelde entiteiten om het model te leren een adres te extraheren, als geheel, zonder het op te splitsen. Als u 'Adres' echter vervangt door 'Straatnaam', 'PO Box', 'Plaats', 'Staat' en 'Zip', heeft het model minder labels per entiteit nodig.

Entiteiten toevoegen

Entiteiten toevoegen aan uw project:

Naar entiteiten draaien vanaf de bovenkant van de pagina.
Text Analytics voor statusentiteiten wordt automatisch in uw project geladen. Als u extra entiteitscategorieën wilt toevoegen, selecteert u Toevoegen in het bovenste menu. U wordt gevraagd een naam in te voeren voordat u de entiteit maakt.
Nadat u een entiteit hebt gemaakt, wordt u doorgestuurd naar de pagina met entiteitsgegevens, waar u de samenstellingsinstellingen voor deze entiteit kunt definiëren.
Entiteiten worden gedefinieerd door entiteitsonderdelen: geleerd, weergeven of vooraf samengesteld. Text Analytics voor statusentiteiten wordt standaard gevuld met het vooraf gedefinieerde onderdeel en kan geen geleerde onderdelen hebben. Uw zojuist gedefinieerde entiteiten kunnen worden gevuld met het geleerde onderdeel zodra u er labels voor toevoegt in uw gegevens, maar niet kan worden gevuld met het vooraf gedefinieerde onderdeel.
U kunt een lijstonderdeel toevoegen aan een van uw entiteiten.

Lijstonderdeel toevoegen

Als u een lijstonderdeel wilt toevoegen, selecteert u Nieuwe lijst toevoegen. U kunt meerdere lijsten toevoegen aan elke entiteit.

Als u een nieuwe lijst wilt maken, typt u in het tekstvak Waarde invoeren dit de genormaliseerde waarde die wordt geretourneerd wanneer een van de synoniemenwaarden wordt geëxtraheerd.
Voor meertalige projecten selecteert u in de vervolgkeuzelijst taal de taal van de lijst met synoniemen en begint u te typen in uw synoniemen en drukt u op Enter na elke lijst. Het wordt aanbevolen synoniemenlijsten in meerdere talen te hebben.

Entiteitsopties definiëren

Ga naar de draaitabel voor entiteitsopties op de pagina met entiteitsgegevens. Wanneer meerdere onderdelen voor een entiteit zijn gedefinieerd, kunnen hun voorspellingen elkaar overlappen. Wanneer er een overlap optreedt, wordt de uiteindelijke voorspelling van elke entiteit bepaald op basis van de entiteitsoptie die u in deze stap selecteert. Selecteer de entiteit die u wilt toepassen en selecteer bovenaan de knop Opslaan .

Nadat u uw entiteiten hebt gemaakt, kunt u teruggaan en deze bewerken. U kunt entiteitsonderdelen bewerken of verwijderen door deze optie te selecteren in het bovenste menu.

Gegevensselectie

De kwaliteit van gegevens waarmee u uw model traint, beïnvloedt de prestaties van het model aanzienlijk.

Gebruik praktijkgegevens die de probleemruimte van uw domein weerspiegelen om uw model effectief te trainen. U kunt synthetische gegevens gebruiken om het eerste modeltrainingsproces te versnellen, maar dit wijkt waarschijnlijk af van uw echte gegevens en maakt uw model minder effectief wanneer dit wordt gebruikt.
Uw gegevensdistributie zoveel mogelijk verdelen zonder dat u ver van de verdeling in het echte leven afwijkt. Als u bijvoorbeeld uw model traint om entiteiten te extraheren uit juridische documenten die in veel verschillende indelingen en talen kunnen voorkomen, moet u voorbeelden opgeven die de diversiteit illustreren zoals u zou verwachten in het echte leven.
Gebruik waar mogelijk diverse gegevens om overfitting van uw model te voorkomen. Minder diversiteit in trainingsgegevens kan leiden tot valse correlaties van uw modelleer die mogelijk niet bestaan in echte gegevens.
Vermijd dubbele documenten in uw gegevens. Dubbele gegevens hebben een negatief effect op het trainingsproces, modelmetrieken en modelprestaties.
Bedenk waar uw gegevens vandaan komen. Als u gegevens verzamelt van één persoon, afdeling of een deel van uw scenario, mist u waarschijnlijk diversiteit die belangrijk kan zijn voor uw model voor meer informatie.

Notitie

Als uw documenten zich in meerdere talen bevinden, selecteert u de optie Voor meerdere talen inschakelen tijdens het maken van het project en stelt u de taaloptie in op de taal van het merendeel van uw documenten.

Gegevensvoorbereiding

Als vereiste voor het maken van een project moeten uw trainingsgegevens worden geüpload naar een blobcontainer in uw opslagaccount. U kunt trainingsdocumenten rechtstreeks vanuit Azure maken en uploaden, of via het hulpprogramma Azure Storage Explorer. Met behulp van het hulpprogramma Azure Storage Explorer kunt u sneller meer gegevens uploaden.

U kunt alleen documenten gebruiken .txt . Als uw gegevens een andere indeling hebben, kunt u de opdracht CLUtils parseren gebruiken om de documentindeling te wijzigen.

U kunt een geannoteerde gegevensset uploaden of u kunt een niet-geannoteerde gegevensset uploaden en uw gegevens labelen in Language Studio.

Testset

Wanneer u de testset definieert, moet u voorbeelddocumenten opnemen die niet aanwezig zijn in de trainingsset. Het definiëren van de testset is een belangrijke stap voor het berekenen van de modelprestaties. Zorg er ook voor dat de testset documenten bevat die alle entiteiten vertegenwoordigen die in uw project worden gebruikt.

Volgende stappen

Als u dat nog niet hebt gedaan, maakt u een aangepast Text Analytics voor het statusproject. Als het uw eerste keer is dat u aangepaste Text Analytics voor de status gebruikt, kunt u overwegen de quickstart te volgen om een voorbeeldproject te maken. U kunt ook het artikel over procedures bekijken voor meer informatie over wat u nodig hebt om een project te maken.

Delen via