Gegevens voorbereiden en een schema voor tekstclassificatie definiëren

2025-06-30

Als u een aangepast model voor tekstclassificatie wilt maken, hebt u kwaliteitsgegevens nodig om het te trainen. In dit artikel wordt beschreven hoe u uw gegevens moet selecteren en voorbereiden, samen met het definiëren van een schema. Het definiëren van het schema is de eerste stap in de levenscyclus van projectontwikkeling en definieert de klassen waarin u uw model nodig hebt om uw tekst tijdens runtime te classificeren.

Schemaontwerp

Het schema definieert de klassen die u nodig hebt voor uw model om uw tekst tijdens runtime te classificeren.

Controleren en identificeren: controleer documenten in uw gegevensset om vertrouwd te zijn met hun structuur en inhoud en bepaal vervolgens hoe u uw gegevens wilt classificeren.

Als u bijvoorbeeld ondersteuningstickets classificeert, hebt u mogelijk de volgende klassen nodig: aanmeldingsprobleem, hardwareprobleem, verbindingsprobleem en aanvraag voor nieuwe apparatuur.
Vermijd dubbelzinnigheid in klassen: Dubbelzinnigheid ontstaat wanneer de klassen die u opgeeft, vergelijkbare betekenis hebben. Hoe meer dubbelzinnig uw schema is, hoe meer gelabelde gegevens u mogelijk moet onderscheiden tussen verschillende klassen.

Als u bijvoorbeeld voedselrecepten classificeert, kunnen ze in een mate vergelijkbaar zijn. Als u onderscheid wilt maken tussen dessertrecepten en hoofdgerechtrecepten, moet u mogelijk meer voorbeelden labelen om uw model te helpen onderscheid te maken tussen de twee klassen. Het vermijden van dubbelzinnigheid bespaart tijd en levert betere resultaten op.
Buiten bereikgegevens: Wanneer u uw model in productie gebruikt, kunt u overwegen om een buiten bereikklasse aan uw schema toe te voegen als u documenten verwacht die niet tot een van uw klassen behoren. Voeg vervolgens enkele documenten toe aan uw gegevensset om te worden gelabeld als buiten het bereik. Het model kan leren om irrelevante documenten te herkennen en hun labels dienovereenkomstig te voorspellen.

Gegevensselectie

De kwaliteit van gegevens waarmee u uw model traint, beïnvloedt de prestaties van het model aanzienlijk.

Gebruik praktijkgegevens die de probleemruimte van uw domein weerspiegelen om uw model effectief te trainen. U kunt synthetische gegevens gebruiken om het eerste modeltrainingsproces te versnellen, maar dit wijkt waarschijnlijk af van uw echte gegevens en maakt uw model minder effectief wanneer dit wordt gebruikt.
Uw gegevensdistributie zoveel mogelijk verdelen zonder dat u ver van de verdeling in het echte leven afwijkt.
Gebruik waar mogelijk diverse gegevens om overfitting van uw model te voorkomen. Minder diversiteit in trainingsgegevens kan leiden tot valse correlaties van uw modelleer die mogelijk niet bestaan in echte gegevens.
Vermijd dubbele documenten in uw gegevens. Dubbele gegevens hebben een negatief effect op het trainingsproces, modelmetrieken en modelprestaties.
Bedenk waar uw gegevens vandaan komen. Als u gegevens verzamelt van één persoon, afdeling of een deel van uw scenario, mist u waarschijnlijk diversiteit die belangrijk kan zijn voor uw model voor meer informatie.

Notitie

Als uw documenten zich in meerdere talen bevinden, selecteert u de optie voor meerdere talen tijdens het maken van het project en stelt u de taaloptie in op de taal van het merendeel van uw documenten.

Gegevensvoorbereiding

Als vereiste voor het maken van een aangepast tekstclassificatieproject moeten uw trainingsgegevens worden geüpload naar een blobcontainer in uw opslagaccount. U kunt trainingsdocumenten rechtstreeks vanuit Azure maken en uploaden, of via het hulpprogramma Azure Storage Explorer. Met behulp van het hulpprogramma Azure Storage Explorer kunt u sneller meer gegevens uploaden.

U kunt alleen gebruiken .txt. documenten voor aangepaste tekst. Als uw gegevens een andere indeling hebben, kunt u de opdracht CLUtils parseren gebruiken om de bestandsindeling te wijzigen.

U kunt een geannoteerde gegevensset uploaden of u kunt een niet-geannoteerde gegevensset uploaden en uw gegevens labelen in Language Studio.

Testset

Wanneer u de testset definieert, moet u voorbeelddocumenten opnemen die niet aanwezig zijn in de trainingsset. Het definiëren van de testset is een belangrijke stap voor het berekenen van de modelprestaties. Zorg er ook voor dat de testset documenten bevat die alle klassen vertegenwoordigen die in uw project worden gebruikt.

Volgende stappen

Als u dat nog niet hebt gedaan, maakt u een aangepast tekstclassificatieproject. Als het de eerste keer is dat u aangepaste tekstclassificatie gebruikt, kunt u overwegen de quickstart te volgen om een voorbeeldproject te maken. U kunt ook de projectvereisten bekijken voor meer informatie over wat u nodig hebt om een project te maken.