Trainieren eines Modells für die benutzerdefinierte Textklassifizierung

Artikel
12/19/2023

Training ist der Prozess, bei dem das Modell anhand Ihrer beschrifteten Daten lernt. Nach Abschluss des Trainings können Sie die Leistung des Modells anzeigen und ermitteln, ob Sie Ihr Modell verbessern müssen.

Um ein Modell zu trainieren, müssen Sie einen Trainingsauftrag starten. Nur erfolgreich abgeschlossene Aufträge erstellen ein verwendbares Modell. Trainingsaufträge laufen nach sieben Tagen ab. Nach diesem Zeitraum können Sie die Auftragsdetails nicht mehr abrufen. Wenn Ihr Trainingsauftrag erfolgreich abgeschlossen und ein Modell erstellt wurde, ist es vom Auftragsablauf nicht betroffen. Es kann jeweils nur ein Trainingsauftrag ausgeführt werden, und Sie können keine anderen Aufträge im gleichen Projekt starten.

Die Trainingsdauer kann wenige Minuten (bei einer kleinen Anzahl von Dokumenten) oder auch mehrere Stunden (je nach Größe des Datensatzes und der Komplexität Ihres Schemas) betragen.

Voraussetzungen

Bevor Sie Ihr Modell trainieren, benötigen Sie Folgendes:

Ein erfolgreich erstelltes Projekt mit einem konfigurierten Azure Blob Speicherkonto,
Textdaten, die in Ihr Speicherkonto hochgeladen wurden.
Gekennzeichnete Daten

Weitere Informationen finden Sie unter Lebenszyklus der Projektentwicklung.

Datenteilung

Bevor Sie den Trainingsprozess starten, werden beschriftete Dokumente in Ihrem Projekt in einen Trainingsdatensatz und einen Testdatensatz unterteilt. Beide haben unterschiedliche Funktion. Der Trainingssatz wird beim Trainieren des Modells verwendet. Auf der Grundlage dieses Satzes lernt das Modell die Klassen, die den einzelnen Dokumenten zugewiesen sind. Der Testsatz ist ein blinder Satz, der nicht während des Trainings im Modell eingeführt wird, sondern erst während der Auswertung. Nachdem das Modell erfolgreich trainiert wurde, wird es verwendet, um Vorhersagen aus den Dokumenten im Testsatz vorzunehmen. Basierend auf diesen Vorhersagen wird die Auswertungsmetrik des Modells berechnet. Sie sollten sicherstellen, dass alle Ihre Klassen sowohl im Trainings- als auch im Testsatz angemessen dargestellt werden.

Benutzerdefinierte Textklassifizierung unterstützt zwei Methoden für die Datenteilung:

Automatisches Abspalten des Testdatensatzes aus den Trainingsdaten: Das System teilt Ihre bezeichneten Daten gemäß den von Ihnen ausgewählten Prozentsätzen zwischen dem Trainings- und dem Testdatensatz auf. Das System versucht, eine Darstellung aller Klassen in Ihrem Trainingssatz zu erhalten. Empfohlen wird eine prozentuale Aufteilung von 80 Prozent für das Training und 20 Prozent für die Tests.

Hinweis

Wenn Sie die Option Automatisches Abspalten des Testdatensatzes aus den Trainingsdaten auswählen, werden nur die dem Trainingsdatensatz zugewiesenen Daten gemäß den angegebenen Prozentsätzen aufgeteilt.

Manuelle Aufteilung von Trainings- und Testdaten verwenden: Mit dieser Methode können Benutzer*innen definieren, welche beschrifteten Dokumente zu welchem Datensatz gehören sollen. Dieser Schritt ist nur aktiviert, wenn Sie während der Datenbeschriftung Dokumente zu Ihrem Testdatensatz hinzugefügt haben.

So beginnen Sie das Training Ihres Modells über Language Studio:

Wählen Sie Trainingsaufträge aus dem Menü auf der linken Seite aus.
Wählen Sie im oberen Menü Trainingsauftrag starten aus.
Wählen Sie Neues Modell trainieren aus, und geben Sie den Namen des Modells im Textfeld darunter ein. Sie können auch ein vorhandenes Modell überschreiben, indem Sie diese Option auswählen und das Modell, das Sie überschreiben möchten, im Dropdownmenü auswählen. Das Überschreiben eines trainierten Modells kann nicht rückgängig gemacht werden, wirkt sich jedoch erst auf Ihre bereitgestellten Modelle aus, wenn Sie das neue Modell bereitstellen.
Wählen Sie die Datenteilungsmethode aus. Sie können Automatisches Aufteilen des Testsatzes und der Trainingsdaten auswählen. Dabei teilt das System Ihre beschrifteten Daten gemäß den angegebenen Prozentsätzen zwischen dem Trainings- und dem Testsatz auf. Alternativ können Sie Manuelle Aufteilung von Trainings- und Testdaten verwenden nutzen. Diese Option ist nur aktiviert, wenn Sie während der Datenbeschriftung Dokumente zu Ihrem Testsatz hinzugefügt haben. Weitere Informationen zur Datenteilung finden Sie unter Trainieren eines Modells.
Wählen Sie die Schaltfläche Train (Trainieren) aus.
Wenn Sie die Trainingsauftrags-ID in der Liste auswählen, wird ein Seitenbereich angezeigt, in dem Sie den Trainingsfortschritt, den Auftragsstatus und andere Details für diesen Auftrag überprüfen können.
Hinweis
- Nur erfolgreich abgeschlossene Trainingsaufträge generieren Modelle.
- Die Zeit zum Trainieren des Modells kann je nach Umfang Ihrer bezeichneten Daten zwischen einigen Minuten und mehreren Stunden dauern.
- Es kann jeweils nur ein Trainingsauftrag ausgeführt werden. Sie können keinen anderen Trainingsauftrag innerhalb desselben Projekts starten, bis der ausgeführte Auftrag abgeschlossen ist.

Starten des Trainingsauftrags

Übermitteln Sie eine POST-Anforderung mithilfe der folgenden URL, der Header und des JSON-Texts, um einen Trainingsauftrag zu senden. Ersetzen Sie die folgenden Platzhalter durch Ihre eigenen Werte.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Platzhalter	Wert	Beispiel
`{ENDPOINT}`	Der Endpunkt für die Authentifizierung Ihrer API-Anforderung.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Der Name des Projekts. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`myProject`
`{API-VERSION}`	Die Version der von Ihnen aufgerufenen API. Der hier referenzierte Wert gilt für die neueste veröffentlichte Version. Weitere Informationen zu anderen verfügbaren API-Versionen finden Sie hier.	`2022-05-01`

Header

Verwenden Sie den folgenden Header, um Ihre Anforderung zu authentifizieren.

Schlüssel	Wert
`Ocp-Apim-Subscription-Key`	Der Schlüssel für Ihre Ressource. Wird für die Authentifizierung Ihrer API-Anforderungen verwendet.

Anforderungstext

Verwenden Sie den folgenden JSON-Code im Anforderungstext. Das Modell wird {MODEL-NAME} benannt, nachdem das Training abgeschlossen ist. Nur erfolgreiche Trainingsaufträge generieren Modelle.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Schlüssel	Platzhalter	Wert	Beispiel
modelLabel	`{MODEL-NAME}`	Der Modellname, der Ihrem Modell nach dem erfolgreichen Training zugewiesen wird	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Dies ist die Modellversion, die zum Trainieren des Modells verwendet wird.	`2022-05-01`
evaluationOptions		Option zum Aufteilen Ihrer Daten zwischen Trainings- und Testsätzen	`{}`
kind	`percentage`	Aufteilungsmethoden Mögliche Werte sind `percentage` oder `manual`. Weitere Informationen finden Sie unter Trainieren eines Modells.	`percentage`
trainingSplitPercentage	`80`	Prozentsatz der markierten Daten, die in den Trainingssatz einbezogen werden sollen. Der empfohlene Wert ist `80`.	`80`
testingSplitPercentage	`20`	Prozentsatz der markierten Daten, die in den Testsatz einbezogen werden sollen. Der empfohlene Wert ist `20`.	`20`

Hinweis

trainingSplitPercentage und testingSplitPercentage sind nur erforderlich, wenn Kind auf percentage festgelegt ist, und die Summe beider Prozentsätze sollte 100 ergeben.

Nachdem Sie Ihre API-Anforderung gesendet haben, erhalten Sie eine Antwort vom Typ 202, die angibt, dass der Auftrag ordnungsgemäß übermittelt wurde. Extrahieren Sie in den Antwortheadern den location-Wert. Er weist das folgende Format auf:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} wird verwendet, um Ihre Anforderung zu identifizieren, da es sich um einen asynchronen Vorgang handelt. Sie können diese URL zum Abrufen des Trainingsstatus verwenden.

Abrufen des Trainingsauftragsstatus

Das Training kann je nach Größe Ihrer Trainingsdaten und der Komplexität Ihres Schemas einige Zeit dauern. Sie können die folgende Anforderung verwenden, um den Status des Trainingsauftrags bis zum erfolgreichen Abschluss abzufragen.

Verwenden Sie die folgende GET-Anforderung, um den Trainingsstatus Ihres Modells abzufragen. Ersetzen Sie die folgenden Platzhalter durch Ihre eigenen Werte.

Anfrage-URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Platzhalter	Wert	Beispiel
`{ENDPOINT}`	Der Endpunkt für die Authentifizierung Ihrer API-Anforderung.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Der Name des Projekts. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`myProject`
`{JOB-ID}`	Die ID zum Ermitteln des Trainingsstatus Ihres Modells. Dieser Wert befindet sich im `location`-Headerwert, den Sie im vorherigen Schritt erhalten haben.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Die Version der von Ihnen aufgerufenen API. Der hier referenzierte Wert gilt für die neueste veröffentlichte Version. Weitere Informationen zu anderen verfügbaren API-Versionen finden Sie unter Modelllebenszyklus.	`2022-05-01`

Header

Verwenden Sie den folgenden Header, um Ihre Anforderung zu authentifizieren.

Schlüssel	Wert
`Ocp-Apim-Subscription-Key`	Der Schlüssel für Ihre Ressource. Wird für die Authentifizierung Ihrer API-Anforderungen verwendet.

Antworttext

Nachdem Sie die Anforderung gesendet haben, erhalten Sie die folgende Antwort.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Abbrechen eines Trainingsauftrags

Language Studio
REST-APIs

Um einen Trainingsauftrag in Language Studio abzubrechen, navigieren Sie zur Seite Trainingsaufträge. Wählen Sie den Trainingsauftrag aus, den Sie abbrechen möchten, und wählen Sie im oberen Menü Abbrechen aus.

Erstellen Sie eine POST-Anforderung mithilfe der folgenden URL, der Header und des JSON-Texts, um einen Trainingsauftrag abzubrechen.

Anfrage-URL

Verwenden Sie zum Erstellen Ihrer API-Anforderung die folgende URL. Ersetzen Sie die folgenden Platzhalter durch Ihre eigenen Werte.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Platzhalter	Wert	Beispiel
`{ENDPOINT}`	Der Endpunkt für die Authentifizierung Ihrer API-Anforderung.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Der Name für Ihr Projekt. Bei diesem Wert wird die Groß-/Kleinschreibung beachtet.	`EmailApp`
`{JOB-ID}`	Dieser Wert ist die Trainingsauftrags-ID.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	Die Version der von Ihnen aufgerufenen API. Der referenzierte Wert entspricht der neuesten veröffentlichten Modellversion.	`2022-05-01`

Header

Verwenden Sie den folgenden Header, um Ihre Anforderung zu authentifizieren.

Schlüssel	Wert
`Ocp-Apim-Subscription-Key`	Der Schlüssel für Ihre Ressource. Wird für die Authentifizierung Ihrer API-Anforderungen verwendet.

Nachdem Sie Ihre API-Anforderung gesendet haben, wird eine „202“-Antwort mit einem Operation-Location-Header ausgegeben, die zum Überprüfen des Status des Auftrags verwendet wird.

Nächste Schritte

Nach Abschluss des Trainings können Sie die Leistung des Modells anzeigen, um Ihr Modell ggf. zu verbessern (optional). Sobald Sie mit Ihrem Modell zufrieden sind, können Sie es bereitstellen und für die Klassifizierung von Textzur Verfügung stellen.

Trainieren eines Modells für die benutzerdefinierte Textklassifizierung

Voraussetzungen

Datenteilung

Trainieren des Modells

Abbrechen eines Trainingsauftrags

Nächste Schritte

Zusätzliche Ressourcen