Trainieren eines Modells für die benutzerdefinierte Textklassifizierung

Training ist der Prozess, bei dem das Modell anhand Ihrer beschrifteten Daten lernt. Nach Abschluss des Trainings können Sie die Leistung des Modells anzeigen und ermitteln, ob Sie Ihr Modell verbessern müssen.

Um ein Modell zu trainieren, müssen Sie einen Trainingsauftrag starten. Nur erfolgreich abgeschlossene Aufträge erstellen ein verwendbares Modell. Trainingsaufträge laufen nach sieben Tagen ab. Nach diesem Zeitraum können Sie die Auftragsdetails nicht mehr abrufen. Wenn Ihr Trainingsauftrag erfolgreich abgeschlossen und ein Modell erstellt wurde, ist es vom Auftragsablauf nicht betroffen. Es kann jeweils nur ein Trainingsauftrag ausgeführt werden, und Sie können keine anderen Aufträge im gleichen Projekt starten.

Die Trainingsdauer kann wenige Minuten (bei einer kleinen Anzahl von Dokumenten) oder auch mehrere Stunden (je nach Größe des Datensatzes und der Komplexität Ihres Schemas) betragen.

Voraussetzungen

Bevor Sie Ihr Modell trainieren, benötigen Sie Folgendes:

Weitere Informationen finden Sie unter Lebenszyklus der Projektentwicklung.

Datenteilung

Bevor Sie den Trainingsprozess starten, werden beschriftete Dokumente in Ihrem Projekt in einen Trainingsdatensatz und einen Testdatensatz unterteilt. Beide haben unterschiedliche Funktion. Der Trainingssatz wird beim Trainieren des Modells verwendet. Auf der Grundlage dieses Satzes lernt das Modell die Klassen, die den einzelnen Dokumenten zugewiesen sind. Der Testsatz ist ein blinder Satz, der nicht während des Trainings im Modell eingeführt wird, sondern erst während der Auswertung. Nachdem das Modell erfolgreich trainiert wurde, wird es verwendet, um Vorhersagen aus den Dokumenten im Testsatz vorzunehmen. Basierend auf diesen Vorhersagen wird die Auswertungsmetrik des Modells berechnet. Sie sollten sicherstellen, dass alle Ihre Klassen sowohl im Trainings- als auch im Testsatz angemessen dargestellt werden.

Benutzerdefinierte Textklassifizierung unterstützt zwei Methoden für die Datenteilung:

  • Automatisches Abspalten des Testdatensatzes aus den Trainingsdaten: Das System teilt Ihre bezeichneten Daten gemäß den von Ihnen ausgewählten Prozentsätzen zwischen dem Trainings- und dem Testdatensatz auf. Das System versucht, eine Darstellung aller Klassen in Ihrem Trainingssatz zu erhalten. Empfohlen wird eine prozentuale Aufteilung von 80 Prozent für das Training und 20 Prozent für die Tests.

Hinweis

Wenn Sie die Option Automatisches Abspalten des Testdatensatzes aus den Trainingsdaten auswählen, werden nur die dem Trainingsdatensatz zugewiesenen Daten gemäß den angegebenen Prozentsätzen aufgeteilt.

  • Manuelle Aufteilung von Trainings- und Testdaten verwenden: Mit dieser Methode können Benutzer*innen definieren, welche beschrifteten Dokumente zu welchem Datensatz gehören sollen. Dieser Schritt ist nur aktiviert, wenn Sie während der Datenbeschriftung Dokumente zu Ihrem Testdatensatz hinzugefügt haben.

Trainieren des Modells

So beginnen Sie das Training Ihres Modells über Language Studio:

  1. Wählen Sie Trainingsaufträge aus dem Menü auf der linken Seite aus.

  2. Wählen Sie im oberen Menü Trainingsauftrag starten aus.

  3. Wählen Sie Neues Modell trainieren aus, und geben Sie den Namen des Modells im Textfeld darunter ein. Sie können auch ein vorhandenes Modell überschreiben, indem Sie diese Option auswählen und das Modell, das Sie überschreiben möchten, im Dropdownmenü auswählen. Das Überschreiben eines trainierten Modells kann nicht rückgängig gemacht werden, wirkt sich jedoch erst auf Ihre bereitgestellten Modelle aus, wenn Sie das neue Modell bereitstellen.

    Erstellen eines neuen Trainingsauftrags

  4. Wählen Sie die Datenteilungsmethode aus. Sie können Automatisches Aufteilen des Testsatzes und der Trainingsdaten auswählen. Dabei teilt das System Ihre beschrifteten Daten gemäß den angegebenen Prozentsätzen zwischen dem Trainings- und dem Testsatz auf. Alternativ können Sie Manuelle Aufteilung von Trainings- und Testdaten verwenden nutzen. Diese Option ist nur aktiviert, wenn Sie während der Datenbeschriftung Dokumente zu Ihrem Testsatz hinzugefügt haben. Weitere Informationen zur Datenteilung finden Sie unter Trainieren eines Modells.

  5. Wählen Sie die Schaltfläche Train (Trainieren) aus.

  6. Wenn Sie die Trainingsauftrags-ID in der Liste auswählen, wird ein Seitenbereich angezeigt, in dem Sie den Trainingsfortschritt, den Auftragsstatus und andere Details für diesen Auftrag überprüfen können.

    Hinweis

    • Nur erfolgreich abgeschlossene Trainingsaufträge generieren Modelle.
    • Die Zeit zum Trainieren des Modells kann je nach Umfang Ihrer bezeichneten Daten zwischen einigen Minuten und mehreren Stunden dauern.
    • Es kann jeweils nur ein Trainingsauftrag ausgeführt werden. Sie können keinen anderen Trainingsauftrag innerhalb desselben Projekts starten, bis der ausgeführte Auftrag abgeschlossen ist.

Abbrechen eines Trainingsauftrags

Um einen Trainingsauftrag in Language Studio abzubrechen, navigieren Sie zur Seite Trainingsaufträge. Wählen Sie den Trainingsauftrag aus, den Sie abbrechen möchten, und wählen Sie im oberen Menü Abbrechen aus.

Nächste Schritte

Nach Abschluss des Trainings können Sie die Leistung des Modells anzeigen, um Ihr Modell ggf. zu verbessern (optional). Sobald Sie mit Ihrem Modell zufrieden sind, können Sie es bereitstellen und für die Klassifizierung von Textzur Verfügung stellen.