Definitionen und Benennungen zur benutzerdefinierten benannten Entitätserkennung (Named Entity Recognition, NER)

Artikel
12/19/2023

In diesem Artikel erfahren Sie mehr über einige Definitionen und Benennungen, die beim Verwenden der benutzerdefinierten NER auftreten können.

Entität

Eine Entität ist eine Textspanne, die einen bestimmten Informationstyp angibt. Die Textspanne besteht aus einem oder mehreren Wörtern. Im Bereich der benutzerdefinierten NER stellen Entitäten die Informationen dar, die der Benutzer aus dem Text extrahieren möchte. Entwickler markieren Entitäten innerhalb ihrer Daten mit den erforderlichen Entitäten, bevor sie zum Trainieren an das Modell übergeben werden. Beispiel: „Rechnungsnummer“, „Startdatum“, „Sendungsnummer“, „Geburtsort“, „Abflugort“, „Lieferantenname“ oder „Kundenadresse“.

Beispielsweise könnten im Satz „John borrowed 25,000 USD from Fred“ (John hat 25.000 USD von Fred geliehen) dies die Entitäten sein:

Entitätsname/-typ	Entität
Name des Kreditnehmers	John
Name des Darlehensgebers	Fred
Darlehensbetrag	25.000 USD

F1-Score

Der F1-Score ist eine Funktion der Genauigkeit und des Abrufs. Sie ist erforderlich, wenn Sie ein Gleichgewicht zwischen Genauigkeit und Abruf suchen.

Modell

Ein Modell ist ein Objekt, das für eine bestimmte Aufgabe trainiert wird, in diesem Fall die benutzerdefinierte Entitätserkennung. Modelle werden trainiert, indem beschriftete Daten zum Lernen zur Verfügung gestellt werden, damit die Modelle später für Erkennungsaufgaben verwendet werden können.

Das Modelltraining ist der Prozess, bei dem Sie Ihrem Modell beibringen, was basierend auf Ihren beschrifteten Daten extrahiert werden soll.
Die Modellauswertung ist der Prozess, der direkt nach dem Training ausgeführt wird, um zu erfahren, wie gut Ihr Modell funktioniert.
Die Bereitstellung ist der Prozess, bei dem Sie Ihr Modell einer Bereitstellung zuweisen, um es für die Verwendung über die Vorhersage-API verfügbar zu machen.

Genauigkeit

Misst, wie präzise/genau Ihr Modell ist. Dies ist das Verhältnis zwischen den richtig identifizierten positiven (True Positives) und allen identifizierten positiven Ergebnissen. Die Genauigkeitsmetrik gibt an, wie viele der vorhergesagten Klassen richtig beschriftet wurden.

Project

Ein Projekt ist ein Arbeitsbereich zum Erstellen Ihrer benutzerdefinierten ML-Modelle auf der Grundlage Ihrer Daten. Auf Ihr Projekt können nur Sie und andere Personen zugreifen, die Zugriff auf die verwendete Azure-Ressource haben. Als Voraussetzung für das Erstellen eines benutzerdefinierten Entitätsextraktionsprojekts müssen Sie Ihre Ressource mit Ihrem Dataset mit einem Speicherkonto verbinden, wenn Sie ein neues Projekt erstellen. Ihr Projekt enthält automatisch alle Dateien vom Typ .txt, die in Ihrem Container verfügbar sind.

In Ihrem Projekt können Sie die folgenden Aktionen ausführen:

Beschriften Ihrer Daten: Der Prozess des Beschriftens Ihrer Daten, der bewirkt, dass Ihr Modell beim Trainieren lernt, was Sie extrahieren möchten.
Erstellen und Trainieren Ihres Modells: Der wichtigste Schritt Ihres Projekts, bei dem Ihr Modell mit dem Lernen auf der Grundlage der beschrifteten Daten beginnt.
Anzeigen der Details zur Modellauswertung: Überprüfen Sie die Modellleistung, um zu entscheiden, ob noch Verbesserungen möglich sind oder ob Sie mit den Ergebnissen zufrieden sind.
Bereitstellung: Wenn Sie die Leistung des Modells überprüft und entschieden haben, dass es in Ihrer Umgebung verwendet werden kann, müssen Sie es einer Bereitstellung zuweisen, um es verwenden zu können. Durch das Zuweisen des Modells zu einer Bereitstellung wird es für die Verwendung über die Vorhersage-API verfügbar.
Testen des Modells: Testen Sie nach dem Bereitstellen Ihres Modells Ihre Bereitstellung in Language Studio, um zu überprüfen, wie es in der Produktion abschneidet.

Recall

Misst die Fähigkeit des Modells, tatsächliche positive Klassen vorherzusagen. Dies ist das Verhältnis zwischen den vorhergesagten True Positives und den tatsächlich markierten Klassen. Die Abrufmetrik gibt an, wie viele der vorhergesagten Klassen richtig sind.