Beschriften von Daten in Language Studio

Artikel
12/19/2023

Bevor Sie Ihr Modell trainieren, müssen Sie Ihre Dokumente mit den benutzerdefinierten Entitäten beschriften, die Sie extrahieren möchten. Die Datenbeschriftung ist ein wichtiger Schritt des Entwicklungslebenszyklus. In diesem Schritt können Sie die Entitätstypen erstellen, die Sie aus Ihren Daten extrahieren möchten, und diese Entitäten in Ihren Dokumenten beschriften. Diese Daten werden im nächsten Schritt beim Trainieren Ihres Modells verwendet, damit Ihr Modell anhand der beschrifteten Daten lernen kann. Wenn Sie bereits über beschriftete Daten verfügen, können Sie sie direkt in Ihr Projekt importieren. Achten Sie jedoch darauf, dass Ihre Daten im unterstützten Datenformat vorliegen. Weitere Informationen zum Importieren beschrifteter Daten in Ihr Projekt finden Sie unter Projekt erstellen.

Sie müssen Ihre Daten vor dem Erstellen eines benutzerdefinierten NER-Modells beschriften. Falls Ihre Daten noch nicht beschriftet sind, können Sie sie in Language Studio beschriften. Anhand von beschrifteten Daten kann das Modell bestimmen, wie Text interpretiert werden soll. Auch werden sie zum Trainieren und zur Auswertung verwendet.

Voraussetzungen

Um Daten beschriften zu können, benötigen Sie Folgendes:

Ein erfolgreich erstelltes Projekt mit einem konfigurierten Azure Blob Storage-Konto
Textdaten, die in Ihr Speicherkonto hochgeladen wurden

Weitere Informationen finden Sie unter Lebenszyklus der Projektentwicklung.

Richtlinien für die Datenbeschriftung

Nach dem Aufbereiten Ihrer Daten, dem Entwerfen Ihres Schemas und dem Erstellen Ihres Projekts müssen Sie Ihre Daten beschriften. Sie sollten Ihre Daten beschriften, damit das Modell erkennt, welche Wörter den Entitätstypen zugeordnet werden, die Sie extrahieren müssen. Wenn Sie Ihre Daten in Language Studio beschriften (oder beschriftete Daten importieren), werden die Bezeichnungen in dem JSON-Dokument in Ihrem Speichercontainer gespeichert, den Sie mit diesem Projekt verknüpft haben.

Beachten Sie beim Beschriften Ihrer Daten Folgendes:

Im Allgemeinen werden mit mehr beschrifteten Daten bessere Ergebnisse erzielt, sofern die Daten korrekt beschriftet sind.
Die Genauigkeit, Konsistenz und Vollständigkeit der beschrifteten Daten sind wichtige Faktoren bei der Bestimmung der Modellleistung.
- Genaue Bezeichnungen: Beschriften Sie jede Entität immer mit ihrem richtigen Typ. Schließen Sie nur das ein, was Sie extrahieren möchten, und vermeiden Sie unnötige Daten in Ihren Bezeichnungen.
- Konsistente Bezeichnungen: Die gleiche Entität sollte in allen Dokumenten die gleiche Bezeichnung haben.
- Vollständige Bezeichnungen: Beschriften Sie alle Instanzen der Entität in allen Dokumenten. Sie können auch das Feature „Automatisches Bezeichnen“ verwenden, um zu gewährleisten, dass alle Entitäten beschriftet werden.
Hinweis

Es gibt keine feste Anzahl von Beschriftungen, mit denen Ihr Modell garantiert die beste Leistung erbringt. Die Leistung des Modells hängt von der möglichen Mehrdeutigkeit Ihres Schemas sowie von der Qualität Ihrer beschrifteten Daten ab. Nichtsdestotrotz wird empfohlen, etwa 50 beschriftete Instanzen pro Entitätstyp zu verwenden.

Beschriften Ihrer Daten

Beschriften Sie Ihre Daten wie folgt:

Wechseln Sie in Language Studio zu Ihrer Projektseite.
Wählen Sie im Menü auf der linken Seite die Option Datenbeschriftung aus. Es steht eine Liste mit allen Dokumenten in Ihrem Speichercontainer zur Verfügung.

Tipp

Mithilfe der Filter im oberen Menü können Sie nicht bezeichnete Dokumente anzeigen, damit Sie mit deren Bezeichnung beginnen können. Die Filter können auch verwendet werden, um Dokumente anzuzeigen, die mit einem bestimmten Entitätstyp beschriftet sind.
Wechseln Sie auf der linken Seite des oberen Menüs zu einer Einzeldokumentansicht, oder wählen Sie ein bestimmtes Dokument aus, um mit der Bezeichnung zu beginnen. Auf der linken Seite finden Sie eine Liste aller .txt-Dokumente, die in Ihren Projekten verfügbar sind. Mithilfe der Schaltflächen Zurück und Weiter am unteren Seitenrand können Sie durch Ihre Dokumente navigieren.

Hinweis

Wenn Sie für Ihr Projekt mehrere Sprachen aktiviert haben, können Sie im oberen Menü über das Dropdownmenü Sprache die Sprache des jeweiligen Dokuments auswählen.
Klicken Sie im Bereich auf der rechten Seite auf die Option Add entity type (Entitätstyp hinzufügen), um Ihr Projekt mit Entitätstypen zu beschriften.

Sie können Ihr Dokument auf zwei Arten beschriften:

Option	BESCHREIBUNG
Beschriften mit einem Pinsel	Wählen Sie das Pinselsymbol neben einem Entitätstyp im rechten Bereich aus und markieren Sie dann den Text im Dokument, den Sie mit diesem Entitätstyp beschriften möchten.
Beschriften über ein Menü	Markieren Sie das Wort, das Sie als Entität beschriften möchten, woraufhin ein Menü angezeigt wird. Wählen Sie den Entitätstyp aus, den Sie dieser Entität zuweisen möchten.

Im folgenden Screenshot wird das Beschriften mit einem Pinsel veranschaulicht.

Im Bereich auf der rechten Seite finden Sie unter dem Pivotelement Bezeichnungen alle Entitätstypen in Ihrem Projekt sowie die jeweilige Anzahl beschrifteter Instanzen.
Im unteren Abschnitt des Bereichs auf der rechten Seite können Sie das aktuell angezeigte Dokument dem Trainingssatz oder dem Testsatz hinzufügen. Standardmäßig werden alle Dokumente Ihrem Trainingssatz hinzugefügt. Weitere Informationen zu Schulungs- und Testsätzen sowie zu ihrer Verwendung beim Trainieren und Auswerten von Modellen finden Sie hier.

Tipp

Wenn Sie für die Datenteilung die Option Automatisch nutzen möchten, verwenden Sie die Standardoption (also die Zuweisung aller Dokumente zu Ihrem Trainingssatz).
Unter dem Pivotelement Verteilung können Sie die Verteilung in den Schulungs- und Testsätzen anzeigen. Es gibt zwei Ansichtsoptionen:
- Alle Instanzen: Hier wird die Anzahl aller bezeichneten Instanzen eines bestimmten Entitätstyps angezeigt.
- Dokumente mit mindestens einer Bezeichnung: Hier wird jedes Dokument gezählt, wenn es mindestens eine bezeichnete Instanz dieser Entität enthält.
Bei der Beschriftung werden Ihre Änderungen in regelmäßigen Abständen synchronisiert. Wenn sie noch nicht gespeichert wurden, wird oben auf der Seite eine Warnung eingeblendet. Wenn Sie manuell speichern möchten, wählen Sie unten auf der Seite die Schaltfläche Beschriftungen speichern aus.

Entfernen von Bezeichnungen

So entfernen Sie eine Bezeichnung:

Wählen Sie die Entität aus, aus der Sie eine Bezeichnung entfernen möchten.
Scrollen Sie durch das angezeigte Menü, und wählen Sie Bezeichnung entfernen aus.

Löschen von Entitäten

Wenn Sie eine Entität löschen möchten, können Sie das „Löschen“-Symbol neben der Entität auswählen, die Sie entfernen möchten. Wenn Sie eine Entität löschen, werden alle zugehörigen beschrifteten Instanzen aus Ihrem Dataset entfernt.

Nächste Schritte

Nachdem Sie Ihre Daten beschriftet haben, können Sie mit dem Trainieren eines Modells beginnen, das auf der Grundlage Ihrer Daten lernt.