Trainieren Ihres Modells zur benutzerdefinierten Erkennung benannter Entitäten

Artikel
12/19/2023

Das Training ist der Prozess, bei dem das Modell anhand Ihrer beschrifteten Daten lernt. Nach Abschluss des Trainings können Sie die Leistung des Modells anzeigen und ermitteln, ob Sie Ihr Modell verbessern müssen.

Um ein Modell zu trainieren, beginnen Sie mit einem Trainingsauftrag. Nur erfolgreich abgeschlossene Aufträge erstellen ein Modell. Trainingsaufträge laufen nach sieben Tagen ab, was bedeutet, dass Sie die Auftragsdetails nach diesem Zeitraum nicht mehr abrufen können. Wenn Ihr Trainingsauftrag erfolgreich abgeschlossen und ein Modell erstellt wurde, ist das Modell nicht betroffen. Es kann jeweils nur ein Trainingsauftrag ausgeführt werden, und Sie können keine anderen Aufträge im selben Projekt starten.

Die Trainingsdauer kann wenige Minuten (bei einer kleinen Anzahl von Dokumenten) oder auch mehrere Stunden (je nach Größe des Datensatzes und der Komplexität Ihres Schemas) betragen.

Voraussetzungen

Ein erfolgreich erstelltes Projekt mit einem konfigurierten Azure Blob Storage-Konto
Textdaten, die in Ihr Speicherkonto hochgeladen wurden
Gekennzeichnete Daten

Weitere Informationen finden Sie unter Lebenszyklus der Projektentwicklung.

Datenteilung

Bevor Sie den Trainingsprozess starten, werden beschriftete Dokumente in Ihrem Projekt in einen Trainingsdatensatz und einen Testdatensatz unterteilt. Beide haben unterschiedliche Funktion. Der Trainingsdatensatz wird beim Training des Modells verwendet. Aus diesem Datensatz erlernt das Modell die beschrifteten Entitäten und die Textbereiche, die als Entitäten extrahiert werden sollen. Der Testdatensatz ist ein blinder Datensatz, der nicht während des Trainings im Modell eingeführt wird, sondern erst während der Auswertung. Nachdem das Modelltraining erfolgreich abgeschlossen wurde, wird das Modell eingesetzt, um Vorhersagen aus den Dokumenten im Testdatensatz zu machen. Anhand dieser Vorhersagen werden die Auswertungsmetriken berechnet. Sie sollten sicherstellen, dass alle Ihre Entitäten sowohl im Trainings- als auch im Testdatensatz angemessen dargestellt werden.

Die benutzerdefinierte Erkennung benannter Entitäten unterstützt zwei Methoden für die Datenteilung:

Automatisches Abspalten des Testdatensatzes aus den Trainingsdaten: Das System teilt Ihre bezeichneten Daten gemäß den von Ihnen ausgewählten Prozentsätzen zwischen dem Trainings- und dem Testdatensatz auf. Empfohlen wird eine prozentuale Aufteilung von 80 Prozent für das Training und 20 Prozent für die Tests.

Hinweis

Wenn Sie die Option Automatisches Abspalten des Testdatensatzes aus den Trainingsdaten auswählen, werden nur die dem Trainingsdatensatz zugewiesenen Daten gemäß den angegebenen Prozentsätzen aufgeteilt.

Manuelle Aufteilung von Trainings- und Testdaten verwenden: Mit dieser Methode können Benutzer*innen definieren, welche beschrifteten Dokumente zu welchem Datensatz gehören sollen. Dieser Schritt ist nur aktiviert, wenn Sie während der Datenbeschriftung Dokumente zu Ihrem Testdatensatz hinzugefügt haben.

So beginnen Sie das Training Ihres Modells über Language Studio:

Wählen Sie Trainingsaufträge aus dem Menü auf der linken Seite aus.
Wählen Sie im oberen Menü Trainingsauftrag starten aus.
Wählen Sie Neues Modell trainieren aus, und geben Sie den Namen des Modells im Textfeld darunter ein. Sie können auch ein vorhandenes Modell überschreiben, indem Sie diese Option auswählen und das Modell, das Sie überschreiben möchten, im Dropdownmenü auswählen. Das Überschreiben eines trainierten Modells kann nicht rückgängig gemacht werden, wirkt sich jedoch erst auf Ihre bereitgestellten Modelle aus, wenn Sie das neue Modell bereitstellen.
Wählen Sie die Datenteilungsmethode aus. Sie können Automatisches Aufteilen des Testsatzes und der Trainingsdaten auswählen. Dabei teilt das System Ihre beschrifteten Daten gemäß den angegebenen Prozentsätzen zwischen dem Trainings- und dem Testsatz auf. Alternativ können Sie Manuelle Aufteilung von Trainings- und Testdaten verwenden nutzen. Diese Option ist nur aktiviert, wenn Sie während der Datenbeschriftung Dokumente zu Ihrem Testsatz hinzugefügt haben. Weitere Informationen zur Datenteilung finden Sie unter Trainieren eines Modells.
Wählen Sie die Schaltfläche Train (Trainieren) aus.
Wenn Sie die Trainingsauftrags-ID in der Liste auswählen, wird ein Seitenbereich angezeigt, in dem Sie den Trainingsfortschritt, den Auftragsstatus und andere Details für diesen Auftrag überprüfen können.
Hinweis
- Nur erfolgreich abgeschlossene Trainingsaufträge generieren Modelle.
- Je nach Größe Ihrer beschrifteten Daten kann das Training wenige Minuten oder mehrere Stunden dauern.
- Es kann jeweils nur ein Trainingsauftrag ausgeführt werden. Sie können keinen anderen Trainingsauftrag innerhalb desselben Projekts starten, bis der ausgeführte Auftrag abgeschlossen ist.

Starten des Trainingsauftrags

Übermitteln Sie eine POST-Anforderung mithilfe der folgenden URL, der Header und des JSON-Texts, um einen Trainingsauftrag zu senden. Ersetzen Sie die folgenden Platzhalter durch Ihre eigenen Werte.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Platzhalter	Wert	Beispiel
`{ENDPOINT}`	Der Endpunkt für die Authentifizierung Ihrer API-Anforderung.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Der Name des Projekts. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`myProject`
`{API-VERSION}`	Die Version der von Ihnen aufgerufenen API. Der hier referenzierte Wert gilt für die neueste veröffentlichte Version. Weitere Informationen zu anderen verfügbaren API-Versionen finden Sie unter Modelllebenszyklus.	`2022-05-01`

Header

Verwenden Sie den folgenden Header, um Ihre Anforderung zu authentifizieren.

Schlüssel	Wert
`Ocp-Apim-Subscription-Key`	Der Schlüssel für Ihre Ressource. Wird für die Authentifizierung Ihrer API-Anforderungen verwendet.

Anforderungstext

Verwenden Sie den folgenden JSON-Code im Anforderungstext. Das Modell wird {MODEL-NAME} benannt, nachdem das Training abgeschlossen ist. Nur erfolgreiche Trainingsaufträge generieren Modelle.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Schlüssel	Platzhalter	Wert	Beispiel
modelLabel	`{MODEL-NAME}`	Der Modellname, der Ihrem Modell nach dem erfolgreichen Training zugewiesen wird	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Dies ist die Modellversion, die zum Trainieren des Modells verwendet wird.	`2022-05-01`
evaluationOptions		Option zum Aufteilen Ihrer Daten zwischen Trainings- und Testsätzen	`{}`
kind	`percentage`	Aufteilungsmethoden Mögliche Werte sind `percentage` oder `manual`. Weitere Informationen finden Sie unter Trainieren eines Modells.	`percentage`
trainingSplitPercentage	`80`	Prozentsatz der markierten Daten, die in den Trainingssatz einbezogen werden sollen. Der empfohlene Wert ist `80`.	`80`
testingSplitPercentage	`20`	Prozentsatz der markierten Daten, die in den Testsatz einbezogen werden sollen. Der empfohlene Wert ist `20`.	`20`

Hinweis

trainingSplitPercentage und testingSplitPercentage sind nur erforderlich, wenn Kind auf percentage festgelegt ist, und die Summe beider Prozentsätze sollte 100 ergeben.

Nachdem Sie Ihre API-Anforderung gesendet haben, erhalten Sie eine Antwort vom Typ 202, die angibt, dass der Auftrag ordnungsgemäß übermittelt wurde. Extrahieren Sie in den Antwortheadern den location-Wert. Er weist das folgende Format auf:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} wird verwendet, um Ihre Anforderung zu identifizieren, da es sich um einen asynchronen Vorgang handelt. Sie können diese URL zum Abrufen des Trainingsstatus verwenden.

Abrufen des Trainingsauftragsstatus

Das Training kann je nach Größe Ihrer Trainingsdaten und der Komplexität Ihres Schemas einige Zeit dauern. Sie können die folgende Anforderung verwenden, um den Status des Trainingsauftrags bis zum erfolgreichen Abschluss abzufragen.

Verwenden Sie die folgende GET-Anforderung, um den Trainingsstatus Ihres Modells abzufragen. Ersetzen Sie die folgenden Platzhalter durch Ihre eigenen Werte.

Anfrage-URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Platzhalter	Wert	Beispiel
`{ENDPOINT}`	Der Endpunkt für die Authentifizierung Ihrer API-Anforderung.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Der Name des Projekts. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`myProject`
`{JOB-ID}`	Die ID zum Ermitteln des Trainingsstatus Ihres Modells. Dieser Wert befindet sich im `location`-Headerwert, den Sie im vorherigen Schritt erhalten haben.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Die Version der von Ihnen aufgerufenen API. Der hier referenzierte Wert gilt für die neueste veröffentlichte Version. Weitere Informationen zu anderen verfügbaren API-Versionen finden Sie unter Modelllebenszyklus.	`2022-05-01`

Header

Verwenden Sie den folgenden Header, um Ihre Anforderung zu authentifizieren.

Schlüssel	Wert
`Ocp-Apim-Subscription-Key`	Der Schlüssel für Ihre Ressource. Wird für die Authentifizierung Ihrer API-Anforderungen verwendet.

Antworttext

Nachdem Sie die Anforderung gesendet haben, erhalten Sie die folgende Antwort.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Abbrechen eines Trainingsauftrags

Language Studio
REST-APIs

Um einen Trainingsauftrag in Language Studio abzubrechen, navigieren Sie zur Seite Trainingsaufträge. Wählen Sie den Trainingsauftrag aus, den Sie abbrechen möchten, und wählen Sie im oberen Menü Abbrechen aus.

Erstellen Sie eine POST-Anforderung mithilfe der folgenden URL, der Header und des JSON-Texts, um einen Trainingsauftrag abzubrechen.

Anfrage-URL

Verwenden Sie zum Erstellen Ihrer API-Anforderung die folgende URL. Ersetzen Sie die folgenden Platzhalter durch Ihre eigenen Werte.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Platzhalter	Wert	Beispiel
`{ENDPOINT}`	Der Endpunkt für die Authentifizierung Ihrer API-Anforderung.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Der Name für Ihr Projekt. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`EmailApp`
`{JOB-ID}`	Dieser Wert ist die Trainingsauftrags-ID.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	Die Version der von Ihnen aufgerufenen API. Der referenzierte Wert entspricht der neuesten veröffentlichten Modellversion.	`2022-05-01`

Header

Verwenden Sie den folgenden Header, um Ihre Anforderung zu authentifizieren.

Schlüssel	Wert
`Ocp-Apim-Subscription-Key`	Der Schlüssel für Ihre Ressource. Wird für die Authentifizierung Ihrer API-Anforderungen verwendet.

Nachdem Sie Ihre API-Anforderung gesendet haben, wird eine „202“-Antwort mit einem Operation-Location-Header ausgegeben, die zum Überprüfen des Status des Auftrags verwendet wird.

Nächste Schritte

Nach Abschluss des Trainings können Sie die Leistung des Modells anzeigen, um Ihr Modell bei Bedarf zu verbessern. Sobald Sie mit Ihrem Modell zufrieden sind, können Sie es bereitstellen und für die Extraktion von Entitäten aus Texten zur Verfügung stellen.

Trainieren Ihres Modells zur benutzerdefinierten Erkennung benannter Entitäten

Voraussetzungen

Datenteilung

Trainieren des Modells

Abbrechen eines Trainingsauftrags

Nächste Schritte

Zusätzliche Ressourcen