Delen via


Gegevens voorbereiden en een tekstclassificatieschema definiëren

Als u een aangepast model voor tekstclassificatie wilt maken, hebt u kwaliteitsgegevens nodig om deze te trainen. In dit artikel wordt beschreven hoe u uw gegevens moet selecteren en voorbereiden, samen met het definiëren van een schema. Het definiëren van het schema is de eerste stap in de levenscyclus van projectontwikkeling en het definieert de klassen waarin uw model uw tekst tijdens runtime moet classificeren.

Schemaontwerp

Het schema definieert de klassen waarin u uw model nodig hebt om uw tekst in te classificeren tijdens runtime.

  • Controleren en identificeren: controleer documenten in uw gegevensset om vertrouwd te zijn met hun structuur en inhoud en bepaal vervolgens hoe u uw gegevens wilt classificeren.

    Als u bijvoorbeeld ondersteuningstickets classificeert, hebt u mogelijk de volgende klassen nodig: aanmeldingsprobleem, hardwareprobleem, connectiviteitsprobleem en aanvraag voor nieuwe apparatuur.

  • Vermijd dubbelzinnigheid in klassen: dubbelzinnigheid doet zich voor wanneer de klassen die u opgeeft dezelfde betekenis als elkaar hebben. Hoe meer dubbelzinnig uw schema is, hoe meer gelabelde gegevens u mogelijk nodig hebt om onderscheid te maken tussen verschillende klassen.

    Als u bijvoorbeeld voedselrecepten classificeert, kunnen deze in zekere mate vergelijkbaar zijn. Als u onderscheid wilt maken tussen dessertrecept en hoofdgerechtrecept, moet u mogelijk meer voorbeelden labelen om uw model te helpen onderscheid te maken tussen de twee klassen. Het vermijden van dubbelzinnigheid bespaart tijd en levert betere resultaten op.

  • Gegevens buiten het bereik: wanneer u uw model in productie gebruikt, kunt u overwegen om een klasse buiten het bereik toe te voegen aan uw schema als u documenten verwacht die niet tot een van uw klassen behoren. Voeg vervolgens enkele documenten toe aan uw gegevensset om te worden gelabeld als buiten het bereik. Het model kan leren om irrelevante documenten te herkennen en hun labels dienovereenkomstig te voorspellen.

Gegevensselectie

De kwaliteit van de gegevens waarmee u uw model traint, heeft een grote invloed op de prestaties van het model.

  • Gebruik echte gegevens die de probleemruimte van uw domein weerspiegelen om uw model effectief te trainen. U kunt synthetische gegevens gebruiken om het initiële modeltrainingsproces te versnellen, maar deze verschillen waarschijnlijk van uw echte gegevens en maken uw model minder effectief wanneer ze worden gebruikt.

  • Breng uw gegevensdistributie zoveel mogelijk in balans zonder dat u ver van de distributie in de praktijk afwijkt.

  • Gebruik waar mogelijk diverse gegevens om overfitting van uw model te voorkomen. Minder diversiteit in trainingsgegevens kan ertoe leiden dat uw model valse correlaties leert die mogelijk niet bestaan in echte gegevens.

  • Vermijd dubbele documenten in uw gegevens. Dubbele gegevens hebben een negatief effect op het trainingsproces, metrische modelgegevens en modelprestaties.

  • Bedenk waar uw gegevens vandaan komen. Als u gegevens verzamelt van één persoon, afdeling of een deel van uw scenario, mist u waarschijnlijk diversiteit die belangrijk kan zijn voor uw model om meer over te weten te komen.

Notitie

Als uw documenten in meerdere talen zijn, selecteert u de optie meerdere talen tijdens het maken van het project en stelt u de taaloptie in op de taal van de meeste documenten.

Gegevensvoorbereiding

Als vereiste voor het maken van een aangepast tekstclassificatieproject moeten uw trainingsgegevens worden geüpload naar een blobcontainer in uw opslagaccount. U kunt trainingsdocumenten rechtstreeks vanuit Azure maken en uploaden, of met behulp van het hulpprogramma Azure Storage Explorer. Met het hulpprogramma Azure Storage Explorer kunt u sneller meer gegevens uploaden.

U kunt alleen gebruiken .txt. documenten voor aangepaste tekst. Als uw gegevens een andere indeling hebben, kunt u de opdracht CLUtils parse gebruiken om de bestandsindeling te wijzigen.

U kunt een geannoteerde gegevensset uploaden of een niet-geannoteerde gegevensset uploaden en uw gegevens labelen in Language Studio.

Testset

Wanneer u de testset definieert, moet u voorbeelddocumenten opnemen die niet aanwezig zijn in de trainingsset. Het definiëren van de testset is een belangrijke stap voor het berekenen van de modelprestaties. Zorg er ook voor dat de testset documenten bevat die alle klassen vertegenwoordigen die in uw project worden gebruikt.

Volgende stappen

Als u dat nog niet hebt gedaan, maakt u een aangepast tekstclassificatieproject. Als dit de eerste keer is dat u aangepaste tekstclassificatie gebruikt, kunt u de quickstart volgen om een voorbeeldproject te maken. U kunt ook de projectvereisten bekijken voor meer informatie over wat u nodig hebt om een project te maken.