Veelgestelde vragen over aangepaste benoemde entiteitsherkenning

Artikel
12/19/2023

Vind antwoorden op veelgestelde vragen over concepten en scenario's met betrekking tot aangepaste NER in Azure AI Language.

Hoe kan ik aan de slag met de service?

Zie de quickstart om snel uw eerste project te maken of bekijk hoe u projecten maakt voor meer gedetailleerde informatie.

Wat zijn de servicebeperkingen?

Zie het artikel servicelimieten voor meer informatie.

Hoeveel getagde bestanden zijn er nodig?

Over het algemeen leiden diverse en representatieve getagde gegevens tot betere resultaten, aangezien het taggen nauwkeurig, consistent en volledig wordt uitgevoerd. Er is geen vast aantal gelabelde exemplaren waardoor elk model goed presteert. Prestaties zijn sterk afhankelijk van uw schema en de dubbelzinnigheid van uw schema. Dubbelzinnige entiteitstypen hebben meer tags nodig. De prestaties zijn ook afhankelijk van de kwaliteit van uw taggen. Het aanbevolen aantal getagde exemplaren per entiteit is 50.

Training duurt lang, is dit verwacht?

Het trainingsproces kan lang duren. Als ruwe schatting is de verwachte trainingstijd voor bestanden met een gecombineerde lengte van 12.800.000 tekens 6 uur.

Hoe kan ik mijn aangepaste model programmatisch bouwen?

Notitie

Op dit moment kunt u alleen een model bouwen met behulp van de REST API of Language Studio.

U kunt de REST API's gebruiken om uw aangepaste modellen te bouwen. Volg deze quickstart om aan de slag te gaan met het maken van een project en het maken van een model via API's voor voorbeelden van het aanroepen van de authoring-API.

Wanneer u klaar bent om uw model te gaan gebruiken om voorspellingen te doen, kunt u de REST API of de clientbibliotheek gebruiken.

Wat is het aanbevolen CI/CD-proces?

U kunt meerdere modellen trainen op dezelfde gegevensset binnen hetzelfde project. Nadat u uw model hebt getraind, kunt u de prestaties bekijken. U kunt uw model implementeren en testen in Language Studio. U kunt labels toevoegen aan of verwijderen uit uw gegevens en een nieuw model trainen en testen. Bekijk servicelimietenvoor meer informatie over het maximum aantal getrainde modellen met hetzelfde project. Wanneer u een model traint, kunt u bepalen hoe uw gegevensset wordt gesplitst in trainings- en testsets. U kunt uw gegevens ook willekeurig laten splitsen in trainings- en testsets waarbij er geen garantie is dat de gereflecteerde modelevaluatie ongeveer dezelfde testset is en de resultaten niet vergelijkbaar zijn. Het is raadzaam om uw eigen testset te ontwikkelen en deze te gebruiken om beide modellen te evalueren, zodat u de verbetering kunt meten.

Garandeert een lage of hoge modelscore slechte of goede prestaties in productie?

Modelevaluatie is mogelijk niet altijd uitgebreid. Dit is afhankelijk van:

Als de testset te klein is, zodat de goede/slechte scores niet representatief zijn voor de werkelijke prestaties van het model. Ook als een specifiek entiteitstype ontbreekt of ondervertegenwoordigd is in uw testset, is dit van invloed op de prestaties van het model.
Gegevensdiversiteit als uw gegevens slechts enkele scenario's/voorbeelden bevatten van de tekst die u in de productie verwacht, wordt uw model niet blootgesteld aan alle mogelijke scenario's en presteert het mogelijk slecht op de scenario's waarop het niet is getraind.
Gegevensweergave als de gegevensset die wordt gebruikt om het model te trainen niet representatief is voor de gegevens die in de productie in het model worden geïntroduceerd, worden de prestaties van het model sterk beïnvloed.

Zie het artikel gegevensselectie en schemaontwerp voor meer informatie.

Hoe kan ik de modelprestaties verbeteren?

Bekijk de modelverwarringsmatrix. Als u merkt dat een bepaald entiteitstype vaak niet correct wordt voorspeld, kunt u overwegen om meer getagde exemplaren voor deze klasse toe te voegen. Als u merkt dat twee entiteitstypen vaak als elkaar worden voorspeld, betekent dit dat het schema dubbelzinnig is en u kunt overwegen om ze beide samen te voegen in één entiteitstype voor betere prestaties.
Testsetvoorspellingen bekijken. Als een van de entiteitstypen veel meer getagde exemplaren heeft dan de andere, is uw model mogelijk bevooroordeeld ten opzichte van dit type. Voeg meer gegevens toe aan de andere entiteitstypen of verwijder voorbeelden uit het dominante type.
Meer informatie over gegevensselectie en schemaontwerp.
Controleer uw testset om voorspelde en getagde entiteiten naast elkaar te zien, zodat u een beter beeld krijgt van de prestaties van uw model en kunt bepalen of er wijzigingen in het schema of de tags nodig zijn.

Waarom krijg ik verschillende resultaten wanneer ik mijn model opnieuw ga trainen?

Wanneer u uw model traint, kunt u bepalen of u uw gegevens willekeurig wilt splitsen in trainings- en testsets. Als u dit doet, is er dus geen garantie dat de gereflecteerde modelevaluatie zich in dezelfde testset bevindt, waardoor de resultaten niet vergelijkbaar zijn.
Als u hetzelfde model opnieuw aan het trainen bent, is uw testset hetzelfde, maar ziet u mogelijk een kleine wijziging in de voorspellingen van het model. Dit komt doordat het getrainde model niet robuust genoeg is en dit een factor is van hoe representatief en uniek uw gegevens zijn en de kwaliteit van uw getagde gegevens.

Hoe kan ik voorspellingen in verschillende talen?

Eerst moet u de meertalige optie inschakelen bij het maken van uw project of u kunt deze later inschakelen vanaf de pagina met projectinstellingen. Nadat u uw model hebt getraind en geïmplementeerd, kunt u beginnen met het uitvoeren van query's in meerdere talen. U krijgt mogelijk verschillende resultaten voor verschillende talen. Als u de nauwkeurigheid van een taal wilt verbeteren, voegt u meer getagde exemplaren in die taal toe aan uw project om het getrainde model te introduceren in meer syntaxis van die taal.

Ik heb mijn model getraind, maar ik kan het niet testen

U moet uw model implementeren voordat u het kunt testen.

Hoe kan ik mijn getrainde model gebruiken voor voorspellingen?

Nadat u uw model hebt geïmplementeerd, roept u de voorspellings-API aan met behulp van de REST API of clientbibliotheken.

Gegevensprivacy en -beveiliging

Custom NER is een gegevensverwerker voor avg-doeleinden (General Data Protection Regulation). In overeenstemming met het AVG-beleid hebben aangepaste NER-gebruikers volledige controle over het weergeven, exporteren of verwijderen van gebruikersinhoud via Language Studio of programmatisch met behulp van REST API's.

Uw gegevens worden alleen opgeslagen in uw Azure Storage-account. Aangepaste NER heeft alleen toegang tot lezen tijdens de training.

Hoe kan ik mijn project klonen?

Als u uw project wilt klonen, moet u de export-API gebruiken om de projectassets te exporteren en deze vervolgens importeren in een nieuw project. Zie de REST API-referentie voor beide bewerkingen.

Delen via