Häufig gestellte Fragen zur benutzerdefinierten Erkennung benannter Entitäten

Artikel
09/03/2024

Hier finden Sie Antworten auf häufig gestellte Fragen zu Konzepten und Szenarien im Zusammenhang mit der benutzerdefinierten Erkennung benannter Entitäten in Azure KI Language.

Wie steige ich in die Arbeit mit dem Dienst ein?

Informieren Sie sich im Schnellstart, wie Sie schnell Ihr erstes Projekt erstellen. Noch ausführlichere Informationen finden Sie unter Erstellen von Projekten.

Was sind die Dienstgrenzwerte?

Weitere Informationen finden Sie im Artikel zu den Diensteinschränkungen.

Wie viele markierte Dateien werden benötigt?

Im Allgemeinen führen vielfältige und repräsentativ markierte Daten zu besseren Ergebnissen, da das Tagging genau, konsistent und vollständig erfolgt. Es gibt keine bestimmte Anzahl markierter Instanzen, mit der jedes Modell gut funktioniert. Die Leistung hängt stark von Ihrem Schema und der Mehrdeutigkeit Ihres Schemas ab. Mehrdeutige Entitätstypen benötigen mehr Tags. Die Leistung hängt auch von der Qualität Ihrer Markierung ab. Die empfohlene Anzahl markierter Instanzen pro Entität beträgt 50.

Das Training dauert sehr lange, ist das zu erwarten?

Der Trainingsprozess kann sehr lange dauern. Grob geschätzt beträgt die erwartete Trainingszeit für Dateien mit einer kombinierten Länge von 12.800.000 Zeichen etwa 6 Stunden.

Wie erstelle ich ein benutzerdefiniertes Modell programmgesteuert?

Hinweis

Aktuell können Sie ein Modell nur mithilfe der REST-API oder Language Studio erstellen.

Sie können die REST-APIs verwenden, um Ihre benutzerdefinierten Modelle zu erstellen. Befolgen Sie diesen Schnellstart, um mit dem Erstellen eines Projekts und eines Modells mithilfe der APIs zu beginnen. Dort finden Sie auch Beispiele für das Aufrufen der Erstellungs-API.

Wenn Sie bereit sind, Ihr Modell zu verwenden, um Vorhersagen zu treffen, können Sie die REST-API oder die Clientbibliothek verwenden.

Welcher CI/CD-Prozess wird empfohlen?

Sie können mehrere Modelle mit demselben Dataset innerhalb desselben Projekts trainieren. Nachdem Sie Ihr Modell erfolgreich trainiert haben, können Sie dessen Leistung anzeigen. Sie können Ihr Modell in Language Studio bereitstellen und testen. Sie können Ihren Daten Bezeichnungen hinzufügen oder sie von ihnen entfernen, ein neues Modell trainieren und es auch testen. Sehen Sie sich die Dienstgrenzwerte an, um mehr über die maximale Anzahl trainierter Modelle im selben Projekt zu erfahren. Wenn Sie ein Modell trainieren, können Sie bestimmen, wie Ihr Dataset in Trainings- und Testsätze aufgeteilt wird. Sie können Ihre Daten auch nach dem Zufallsprinzip in Trainings- und Testsätze aufteilen lassen, wobei keine Garantie dafür besteht, dass sich die gezeigte Modellauswertung auf denselben Testsatz bezieht, weshalb die Ergebnisse nicht vergleichbar sind. Es wird empfohlen, einen eigenen Testsatz zu entwickeln und damit beide Modelle zu bewerten, damit Sie Verbesserungen messen können.

Garantiert ein niedriger oder hoher Modellscore eine schlechte oder gute Leistung in der Produktion?

Die Modellauswertung ist möglicherweise nicht immer umfassend. Dies ist von Folgendem abhängig:

Wenn der Testsatz zu klein ist, sind gute/schlechte Scores nicht repräsentativ für die tatsächliche Leistung des Modells. Wenn ein bestimmter Entitätstyp fehlt oder im Testsatz nicht ausreichend repräsentiert ist, wirkt sich dies auch auf die Modellleistung aus.
Datendiversität: Wenn Ihre Daten nur einige Szenarien/Beispiele für den Text umfassen, den Sie in der Produktion erwarten, wird Ihr Modell nicht für alle möglichen Szenarien trainiert und kann in den Szenarien, in denen es nicht trainiert wurde, eine schlechte Leistung zeigen.
Datendarstellung: Wenn das Dataset, das zum Trainieren des Modells verwendet wird, nicht repräsentativ für die Daten ist, die das Modell in der Produktion enthält, wird die Modellleistung stark beeinträchtigt.

Weitere Informationen finden Sie im Artikel zu Datenauswahl und Schemaentwurf.

Wie verbessere ich die Modellleistung?

Sehen Sie sich die Konfusionsmatrix des Modells an. Wenn Sie feststellen, dass ein bestimmter Entitätstyp häufig falsch vorhergesagt wird, sollten Sie weitere markierte Instanzen für diese Klasse hinzufügen. Wenn zwei Entitätstypen bei der Vorhersage häufig miteinander verwechselt werden, ist das Schema mehrdeutig. Sie sollten dann beide Entitätstypen zusammenführen, um eine bessere Leistung zu erzielen.
Überprüfen von Testmengenvorhersagen Wenn einer der Entitätstypen deutlich mehr markierte Instanzen als die anderen hat, ist Ihr Modell möglicherweise zu stark auf diesen Typ ausgerichtet. Fügen Sie den anderen Entitätstypen weitere Daten hinzu, oder entfernen Sie Beispiele aus dem dominanten Typ.
Weitere Informationen zu Datenauswahl und Schemaentwurf finden Sie hier.
Überprüfen Sie Ihren Testsatz, um vorhergesagte und markierte Entitäten nebeneinander zu sehen, damit Sie eine bessere Vorstellung von Ihrer Modellleistung erhalten und entscheiden können, ob Änderungen am Schema oder an den Tags erforderlich sind.

Warum erhalte ich beim erneuten Trainieren meines Modells andere Ergebnisse?

Wenn Sie Ihr Modell trainieren, können Sie bestimmen, ob Ihre Daten zufällig in Trainings- und Testsätze aufgeteilt werden sollen. Wenn Sie dies tun, gibt es keine Garantie dafür, dass die gezeigte Modellauswertung mit demselben Testsatz erfolgt, weshalb die Ergebnisse nicht vergleichbar sind.
Wenn Sie dasselbe Modell erneut trainieren, ist Ihr Testsatz zwar identisch, aber Sie werden möglicherweise eine geringfügige Abweichung bei den Vorhersagen des Modells feststellen. Dies liegt daran, dass das trainierte Modell nicht stabil genug ist. Ein Faktor dafür ist, wie repräsentativ und eindeutig Ihre Daten sind und welche Qualität Ihre markierten Daten aufweisen.

Wie erhalte ich Vorhersagen in verschiedenen Sprachen?

Zunächst müssen Sie die mehrsprachige Option beim Erstellen Ihres Projekts aktivieren. Sie können die Option aber auch später noch auf der Seite mit den Projekteinstellungen aktivieren. Nachdem Sie Ihr Modell trainiert und bereitgestellt haben, können Sie mit der Abfrage in mehreren Sprachen beginnen. Sie können für verschiedene Sprachen unterschiedliche Ergebnisse erhalten. Um die Genauigkeit bei einer Sprache zu verbessern, fügen Sie Ihrem Projekt zusätzliche markierte Instanzen in dieser Sprache hinzu, um das trainierte Modell mit mehr Syntax dieser Sprache vertraut zu machen.

Ich habe mein Modell trainiert, kann es aber nicht testen.

Sie müssen Ihr Modell bereitstellen, bevor Sie es testen können.

Wie verwende ich mein trainiertes Modell für die Vorhersage?

Nach der Bereitstellung Ihres Modells rufen Sie die Vorhersage-API auf, indem Sie die REST-API oder Clientbibliotheken verwenden.

Datenschutz und Sicherheit

Die Erkennung benannter Entitäten (NER) fällt laut Datenschutz-Grundverordnung (DSGVO) in den Bereich „Datenverarbeitung“. In Übereinstimmung mit den DSGVO-Richtlinien haben Benutzer*innen der Erkennung benannter Entitäten die volle Kontrolle über das Anzeigen, Exportieren oder Löschen von Benutzerinhalten über Language Studio oder programmgesteuert mithilfe von REST-APIs.

Ihre Daten werden nur in Ihrem Azure Storage-Konto gespeichert. Die benutzerdefinierte Erkennung benannter Entitäten hat nur während des Trainings Lesezugriff darauf.

Wie klone ich mein Projekt?

Um Ihr Projekt zu klonen, müssen Sie die Export-API verwenden, um die Projektressourcen zu exportieren und sie dann in ein neues Projekt zu importieren. Informationen zu beiden Vorgängen finden Sie in der Referenz zur REST-API.

Freigeben über