Share via


Uw gegevens labelen in Language Studio

Voordat u uw model traint, moet u uw documenten labelen met de aangepaste entiteiten die u wilt extraheren. Het labelen van gegevens is een cruciale stap in de ontwikkelingslevenscyclus. In deze stap kunt u de entiteitstypen maken die u wilt ophalen uit uw gegevens en deze entiteiten labelen in uw documenten. Deze gegevens worden in de volgende stap gebruikt bij het trainen van uw model, zodat uw model kan leren van de gelabelde gegevens. Als u al gelabelde gegevens hebt, kunt u deze rechtstreeks importeren in uw project, maar u moet ervoor zorgen dat uw gegevens de geaccepteerde gegevensindeling hebben. Zie Project maken voor meer informatie over het importeren van gelabelde gegevens in uw project.

Voordat u een aangepast NER-model maakt, moet u eerst gelabelde gegevens hebben. Als uw gegevens nog niet zijn gelabeld, kunt u deze labelen in Language Studio. Gelabelde gegevens informeren het model hoe tekst moet worden geïnterpreteerd en worden gebruikt voor training en evaluatie.

Vereisten

Voordat u uw gegevens kunt labelen, hebt u het volgende nodig:

Zie de levenscyclus van projectontwikkeling voor meer informatie.

Richtlijnen voor gegevenslabels

Nadat u uw gegevens hebt voorbereid, uw schema hebt ontworpen en uw project hebt gemaakt, moet u uw gegevens labelen. Het labelen van uw gegevens is belangrijk, zodat uw model weet welke woorden worden gekoppeld aan de entiteitstypen die u moet extraheren. Wanneer u uw gegevens in Language Studio labelt (of gelabelde gegevens importeert), worden deze labels opgeslagen in het JSON-document in de opslagcontainer die u aan dit project hebt gekoppeld.

Houd bij het labelen van uw gegevens rekening met het volgende:

  • Over het algemeen leiden meer gelabelde gegevens tot betere resultaten, mits de gegevens nauwkeurig zijn gelabeld.

  • De precisie, consistentie en volledigheid van uw gelabelde gegevens zijn belangrijke factoren voor het bepalen van modelprestaties.

    • Label nauwkeurig: label elke entiteit altijd op het juiste type. Neem alleen op wat u wilt geëxtraheerd, vermijd onnodige gegevens in uw labels.
    • Consistent labelen: dezelfde entiteit moet hetzelfde label hebben voor alle documenten.
    • Label volledig: label alle exemplaren van de entiteit in al uw documenten. U kunt de functie voor automatisch labelen gebruiken om volledige labeling te garanderen.

    Notitie

    Er is geen vast aantal labels dat kan garanderen dat uw model het beste presteert. Modelprestaties zijn afhankelijk van mogelijke dubbelzinnigheid in uw schema en de kwaliteit van uw gelabelde gegevens. We raden u echter aan ongeveer 50 gelabelde exemplaren per entiteitstype te hebben.

Uw gegevens labelen

Gebruik de volgende stappen om uw gegevens te labelen:

  1. Ga naar uw projectpagina in Language Studio.

  2. Selecteer Gegevenslabeling in het menu aan de linkerkant. U vindt een lijst met alle documenten in uw opslagcontainer.

    Tip

    U kunt de filters in het bovenste menu gebruiken om de niet-gelabelde documenten weer te geven, zodat u ze kunt gaan labelen. U kunt de filters ook gebruiken om de documenten weer te geven die zijn gelabeld met een specifiek entiteitstype.

  3. Ga naar één documentweergave aan de linkerkant in het bovenste menu of selecteer een specifiek document om te beginnen met labelen. Aan de linkerkant vindt u een lijst met alle .txt documenten die beschikbaar zijn in uw project. U kunt de knop Vorige en Volgende onderaan de pagina gebruiken om door uw documenten te navigeren.

    Notitie

    Als u meerdere talen hebt ingeschakeld voor uw project, vindt u een vervolgkeuzelijst Taal in het bovenste menu, waarin u de taal van elk document kunt selecteren.

  4. In het rechterdeelvenster voegt u het entiteitstype toe aan uw project, zodat u kunt beginnen met het labelen van uw gegevens.

  5. U hebt twee opties voor het labelen van uw document:

    Optie Beschrijving
    Labelen met een kwast Selecteer het kwastpictogram naast een entiteitstype in het rechterdeelvenster en markeer vervolgens de tekst in het document dat u met dit entiteitstype wilt aantekenen.
    Labelen met behulp van een menu Markeer het woord dat u als entiteit wilt labelen en er wordt een menu weergegeven. Selecteer het entiteitstype dat u wilt toewijzen voor deze entiteit.

    In de onderstaande schermopname ziet u het labelen met behulp van een kwast.

    Een schermopname van de labelopties die worden aangeboden in Aangepaste NER.

  6. In het rechterdeelvenster onder de draaitabel Labels vindt u alle entiteitstypen in uw project en het aantal gelabelde exemplaren.

  7. In het onderste gedeelte van het rechterdeelvenster kunt u het huidige document dat u bekijkt toevoegen aan de trainingsset of de testset. Standaard worden alle documenten toegevoegd aan uw trainingsset. Meer informatie over trainings- en testsets en hoe ze worden gebruikt voor modeltraining en -evaluatie.

    Tip

    Als u van plan bent automatische gegevenssplitsing te gebruiken, gebruikt u de standaardoptie om alle documenten toe te wijzen aan uw trainingsset.

  8. Onder de distributiedraaipunt kunt u de distributie over trainings- en testsets bekijken. U hebt twee opties voor weergave:

    • Totaal aantal exemplaren waarin u het aantal gelabelde exemplaren van een specifiek entiteitstype kunt bekijken.
    • documenten met ten minste één label waarbij elk document wordt geteld als het ten minste één gelabeld exemplaar van deze entiteit bevat.
  9. Wanneer u labelt, worden uw wijzigingen periodiek gesynchroniseerd. Als ze nog niet zijn opgeslagen, ziet u een waarschuwing boven aan de pagina. Als u handmatig wilt opslaan, selecteert u de knop Labels opslaan onderaan de pagina.

Labels verwijderen

Een label verwijderen

  1. Selecteer de entiteit waaruit u een label wilt verwijderen.
  2. Blader door het menu dat wordt weergegeven en selecteer Label verwijderen.

Entiteiten verwijderen

Als u een entiteit wilt verwijderen, selecteert u het pictogram Verwijderen naast de entiteit die u wilt verwijderen. Als u een entiteit verwijdert, worden alle gelabelde exemplaren uit uw gegevensset verwijderd.

Volgende stappen

Nadat u uw gegevens hebt gelabeld, kunt u beginnen met het trainen van een model dat leert op basis van uw gegevens.