Label uw uitingen in Language Studio

Artikel
12/19/2023

Zodra u een schema voor uw project hebt gemaakt, moet u trainingsuitingen toevoegen aan uw project. De uitingen moeten vergelijkbaar zijn met wat uw gebruikers gebruiken bij de interactie met het project. Wanneer u een utterance toevoegt, moet u toewijzen tot welke intentie deze behoort. Nadat de utterance is toegevoegd, labelt u de woorden in uw utterance die u wilt extraheren als entiteiten.

Het labelen van gegevens is een cruciale stap in de ontwikkelingslevenscyclus; deze gegevens worden gebruikt in de volgende stap bij het trainen van uw model, zodat uw model kan leren van de gelabelde gegevens. Als u al gelabelde uitingen hebt, kunt u deze rechtstreeks importeren in uw project, maar u moet ervoor zorgen dat uw gegevens de geaccepteerde gegevensindeling volgen. Zie Project maken voor meer informatie over het importeren van gelabelde gegevens in uw project. Gelabelde gegevens informeren het model hoe tekst moet worden geïnterpreteerd en worden gebruikt voor training en evaluatie.

Vereisten

Voordat u uw gegevens kunt labelen, hebt u het volgende nodig:

Een project is gemaakt.

Zie de levenscyclus van projectontwikkeling voor meer informatie.

Richtlijnen voor gegevenslabels

Nadat u uw schema hebt gemaakt en uw project hebt gemaakt, moet u uw gegevens labelen. Het labelen van uw gegevens is belangrijk, zodat uw model weet welke woorden en zinnen worden gekoppeld aan de intenties en entiteiten in uw project. U zult tijd willen besteden aan het labelen van uw uitingen: het introduceren en verfijnen van de gegevens die worden gebruikt bij het trainen van uw modellen.

Houd bij het toevoegen en labelen van uitingen rekening met het volgende:

De machine learning-modellen worden gegeneraliseerd op basis van de gelabelde voorbeelden die u opgeeft; Hoe meer voorbeelden u opgeeft, hoe meer gegevenspunten het model heeft om betere generalisaties te maken.
De precisie, consistentie en volledigheid van uw gelabelde gegevens zijn belangrijke factoren voor het bepalen van modelprestaties.
- Label nauwkeurig: label elke intentie en entiteit altijd op het juiste type. Neem alleen op wat u wilt classificeren en geëxtraheerd, vermijd onnodige gegevens in uw labels.
- Label consistent: dezelfde entiteit moet hetzelfde label hebben voor alle uitingen.
- Label volledig: Geef verschillende utterances op voor elke intentie. Label alle exemplaren van de entiteit in al uw uitingen.

Uitingen duidelijk labelen

Zorg ervoor dat de concepten waarnaar uw entiteiten verwijzen goed zijn gedefinieerd en kunnen worden gescheiden. Controleer of u de verschillen eenvoudig op betrouwbare wijze kunt bepalen. Als u dat niet kunt, kan dit een indicatie zijn dat het geleerde onderdeel ook problemen ondervindt.
Als er een overeenkomst tussen entiteiten is, moet u ervoor zorgen dat er een bepaald aspect van uw gegevens is dat een signaal geeft voor het verschil tussen de entiteiten.

Als u bijvoorbeeld een model hebt gemaakt om vluchten te boeken, kan een gebruiker een uiting gebruiken zoals 'Ik wil een vlucht van Boston naar Seattle'. De plaats van herkomst en de plaats van bestemming voor dergelijke utterances zijn naar verwachting vergelijkbaar. Een signaal om 'Plaats van oorsprong' te onderscheiden, kan zijn dat het vaak wordt voorafgegaan door het woord 'van'.
Zorg ervoor dat u alle exemplaren van elke entiteit labelt in zowel uw trainingsgegevens als uw testgegevens. Eén benadering is om de zoekfunctie te gebruiken om alle exemplaren van een woord of woordgroep in uw gegevens te vinden om te controleren of ze correct zijn gelabeld.
Label testgegevens voor entiteiten die geen geleerd onderdeel hebben en ook voor entiteiten die dat wel doen. Dit helpt ervoor te zorgen dat uw metrische evaluatiegegevens nauwkeurig zijn.

Voor meertalige projecten verhoogt het toevoegen van uitingen in andere talen de prestaties van het model in deze talen, maar vermijd het dupliceren van uw gegevens in alle talen die u wilt ondersteunen. Als u bijvoorbeeld de prestaties van een bot met gebruikers wilt verbeteren, kan een ontwikkelaar voorbeelden meestal in het Engels toevoegen en een paar in het Spaans of Frans. Ze kunnen uitingen toevoegen, zoals:
- "Begin morgen om 12.00 uur een ontmoeting met Matt en Kevin." (Engels)
- 'Reageer als voorlopig op de wekelijkse updatevergadering .' (Engels)
- "Cancelar mi próxima reunión." (Spaans)

Uw uitingen labelen

Gebruik de volgende stappen om uw utterances te labelen:

Ga naar uw projectpagina in Language Studio.
Selecteer Gegevenslabels in het menu aan de linkerkant. Op deze pagina kunt u beginnen met het toevoegen van uw uiting en het labelen ervan. U kunt uw uiting ook rechtstreeks uploaden door in het bovenste menu op Uitingsbestand uploaden te klikken. Zorg ervoor dat deze de geaccepteerde indeling volgt.
In de bovenste draaipunten kunt u de weergave wijzigen in trainingsset of testset. Meer informatie over trainings- en testsets en hoe deze worden gebruikt voor modeltraining en -evaluatie.

Tip

Als u van plan bent om de testset automatisch splitsen van het splitsen van trainingsgegevens te gebruiken, voegt u al uw uitingen toe aan de trainingsset.
Selecteer in de vervolgkeuzelijst Intentie selecteren een van de intenties, de taal van de uiting (voor meertalige projecten) en de uiting zelf. Druk op enter in het tekstvak van de uiting om de utterance toe te voegen.

U hebt twee opties voor het labelen van entiteiten in een utterance:

Optie	Beschrijving
Labelen met een kwast	Selecteer het penseelpictogram naast een entiteit in het rechterdeelvenster en markeer vervolgens de tekst in de uiting die u wilt labelen.
Label met inlinemenu	Markeer het woord dat u als entiteit wilt labelen en er wordt een menu weergegeven. Selecteer de entiteit waarmee u deze woorden wilt labelen.

In het rechterdeelvenster onder de draaitabel Labels vindt u alle entiteitstypen in uw project en het aantal gelabelde exemplaren per project.
Onder de distributiedraaipunt kunt u de distributie over trainings- en testsets bekijken. U hebt twee opties voor weergave:
- Totaal aantal exemplaren per gelabelde entiteit , waar u het aantal gelabelde exemplaren van een specifieke entiteit kunt bekijken.
- Unieke utterances per gelabelde entiteit waarbij elke uiting wordt geteld als deze ten minste één gelabeld exemplaar van deze entiteit bevat.
- Utterances per intent , waar u het aantal utterances per intentie kunt bekijken.

Notitie

Lijst- en vooraf gemaakte onderdelen worden niet weergegeven op de pagina voor gegevenslabels en alle labels hier zijn alleen van toepassing op het geleerde onderdeel.

Een label verwijderen:

Selecteer in uw uiting de entiteit waaruit u een label wilt verwijderen.
Blader door het menu dat wordt weergegeven en selecteer Label verwijderen.

Een entiteit verwijderen:

Selecteer de entiteit die u wilt bewerken in het rechterdeelvenster.
Selecteer de drie puntjes naast de entiteit en selecteer de gewenste optie in de vervolgkeuzelijst.

Uitingen voorstellen met Azure OpenAI

Gebruik in CLU Azure OpenAI om uitingen voor te stellen die u aan uw project kunt toevoegen met behulp van GPT-modellen. U moet eerst toegang krijgen en een resource maken in Azure OpenAI. Vervolgens moet u een implementatie maken voor de GPT-modellen. Volg hier de vereiste stappen.

Voordat u aan de slag gaat, is de functie utterances voorstellen alleen beschikbaar als uw taalresource zich in de volgende regio's bevindt:

VS - oost
VS - zuid-centraal
Europa -west

Op de pagina Gegevenslabels:

Selecteer de knop Uitingen voorstellen . Aan de rechterkant wordt een deelvenster geopend waarin u wordt gevraagd om uw Azure OpenAI-resource en -implementatie te selecteren.
Selecteer Bij de selectie van een Azure OpenAI-resource de optie Verbinding maken, zodat uw Taalresource direct toegang heeft tot uw Azure OpenAI-resource. Hiermee wordt de rol van uw Taalresource toegewezen aan uw Azure OpenAI-resource, waardoor uw huidige taalresource toegang heeft tot de service van Cognitive Services User Azure OpenAI. Als de verbinding mislukt, volgt u deze stappen hieronder om de juiste rol handmatig toe te voegen aan uw Azure OpenAI-resource.
Zodra de resource is verbonden, selecteert u de implementatie. Het aanbevolen model voor de Azure OpenAI-implementatie is text-davinci-002.
Selecteer de intentie waarvoor u suggesties wilt ontvangen. Zorg ervoor dat de intentie die u hebt geselecteerd ten minste 5 opgeslagen utterances bevat die moeten worden ingeschakeld voor uitingssuggesties. De suggesties van Azure OpenAI zijn gebaseerd op de meest recente uitingen die u voor die intentie hebt toegevoegd.
Selecteer Utterances genereren. Zodra dit is voltooid, worden de voorgestelde utterances weergegeven met een stippellijn eromheen, met de opmerking Gegenereerd door AI. Deze suggesties moeten worden geaccepteerd of afgewezen. Als u een suggestie accepteert, wordt deze toegevoegd aan uw project, alsof u deze zelf hebt toegevoegd. Als u deze weigert, wordt de suggestie volledig verwijderd. Alleen geaccepteerde uitingen maken deel uit van uw project en worden gebruikt voor training of testen. U kunt accepteren of weigeren door te klikken op de groene of rode annuleringsknoppen naast elke uiting. U kunt ook de Accept all knoppen en Reject all op de werkbalk gebruiken.

Als u deze functie gebruikt, worden er kosten in rekening gebracht voor uw Azure OpenAI-resource voor een vergelijkbaar aantal tokens als de voorgestelde uitingen die worden gegenereerd. Meer informatie over de prijzen van Azure OpenAI vindt u hier.

Vereiste configuraties toevoegen aan Azure OpenAI-resource

Als het verbinden van uw taalresource met een Azure OpenAI-resource mislukt, volgt u deze stappen:

Schakel identiteitsbeheer in voor uw taalresource met behulp van de volgende opties:

Azure-portal
Language Studio

Uw taalresource moet identiteitsbeheer hebben om deze in te schakelen met behulp van de Azure Portal:

Ga naar uw taalresource
Selecteer in het linkermenu onder de sectie Resourcebeheerde optie Identiteit
Zorg ervoor dat u op het tabblad Door het systeem toegewezenstatus instelt op Aan

Nadat u de beheerde identiteit hebt ingeschakeld, wijst u de rol Cognitive Services User toe aan uw Azure OpenAI-resource met behulp van de beheerde identiteit van uw taalresource.

Meld u aan bij de Azure Portal en navigeer naar uw Azure OpenAI-resource.
Selecteer het tabblad Access Control (IAM) aan de linkerkant.
Selecteer Roltoewijzing toevoegen > .
Selecteer Taakfunctierollen en klik op Volgende.
Selecteer Cognitive Services User in de lijst met rollen en klik op Volgende.
Selecteer Toegang toewijzen aan 'Beheerde identiteit' en selecteer Leden selecteren.
Selecteer onder Beheerde identiteit de optie Taal.
Zoek uw resource en selecteer deze. Selecteer vervolgens de knop Selecteren hieronder en vervolgens om het proces te voltooien.
Controleer de details en selecteer Controleren en toewijzen.

Na een paar minuten vernieuwt u Language Studio en kunt u verbinding maken met Azure OpenAI.

Volgende stappen

Trainingsmodel

Delen via