Aufbereiten von Daten und Definieren eines Textklassifizierungsschemas

Artikel
12/19/2023

Zum Erstellen eines benutzerdefinierten Textklassifizierungsmodells benötigen Sie hochwertige Daten, um es zu trainieren. In diesem Artikel wird beschrieben, wie Sie Ihre Daten auswählen und aufbereiten und ein Schema definieren. Das Definieren des Schemas ist der erste Schritt im Lebenszyklus der Projektentwicklung. Dabei werden die Klassen definiert, die Sie benötigen, um Ihren Text zur Laufzeit zu klassifizieren.

Schemaentwurf

Das Schema definiert die Klassen, in die Ihr Modell Ihren Text zur Laufzeit klassifizieren muss.

Überprüfen und Bestimmen: Überprüfen Sie die Dokumente in Ihrem Dataset, um sich mit Struktur und Inhalt vertraut zu machen, und bestimmen Sie dann, wie Sie Ihre Daten klassifizieren möchten.

Wenn Sie beispielsweise Supporttickets klassifizieren, benötigen Sie möglicherweise die folgenden Klassen: Anmeldeproblem, Hardwareproblem, Konnektivitätsproblem und Anforderung neuer Geräte.
Vermeiden von Mehrdeutigkeit in Klassen: Mehrdeutigkeit entsteht, wenn die von Ihnen angegebenen Klassen eine ähnliche Bedeutung wie andere haben. Je mehrdeutiger Ihr Schema ist, desto mehr bezeichnete Daten müssen zwischen verschiedenen Klassen unterschieden werden.

Wenn Sie beispielsweise Kochrezepte klassifizieren, können diese in gewissem Umfang ähnlich sein. Zum Differenzieren zwischen Dessertrezepten und Rezepten für Hauptspeisen müssen Sie möglicherweise weitere Beispiele bezeichnen, um Ihr Modell bei der Unterscheidung der beiden Klassen zu unterstützen. Das Vermeiden von Mehrdeutigkeit spart Zeit und führt zu besseren Ergebnissen.
Daten außerhalb des Gültigkeitsbereichs: Wenn Sie Ihr Modell in der Produktion einsetzen, erwägen Sie, eine Klasse außerhalb des Gültigkeitsbereichs hinzufügen, wenn Sie Dokumente erwarten, die zu keiner Ihrer Klassen gehören. Fügen Sie anschließend Ihrem Dataset einige Dokumente hinzu, die als außerhalb des Gültigkeitsbereichs bezeichnet werden sollen. Das Modell kann lernen, irrelevante Dokumente zu erkennen und deren Bezeichnungen entsprechend vorherzusagen.

Datenauswahl

Die Qualität der Daten, mit denen Sie Ihr Modell trainieren, hat großen Einfluss auf die Leistung des Modells.

Verwenden Sie echte Daten, die den Problembereich Ihrer Domäne widerspiegeln, um Ihr Modell effektiv zu trainieren. Sie können synthetische Daten verwenden, um den anfänglichen Trainingsprozess von Modellen zu beschleunigen, aber diese unterscheiden sich wahrscheinlich von Ihren realen Daten und machen Ihr Modell bei Verwendung weniger effektiv.
Gleichen Sie Ihre Datenverteilung so weit wie möglich aus, ohne weit von der realen Verteilung abzuweichen.
Verwenden Sie nach Möglichkeit unterschiedliche Daten, um eine Überanpassung Ihres Modells zu verhindern. Eine geringere Vielfalt der Trainingsdaten kann dazu führen, dass Ihr Modell zweifelhafte Korrelationen lernt, die in realen Daten möglicherweise nicht vorhanden sind.
Vermeiden Sie das Duplizieren von Dokumenten in Ihren Daten. Doppelte Daten wirken sich negativ auf den Trainingsprozess, die Modellmetriken und die Modellleistung aus.
Berücksichtigen Sie, woher Ihre Daten stammen. Wenn Sie Daten von einer Person, aus einer Abteilung oder aus einem Teil Ihres Szenarios sammeln, fehlt ihnen wahrscheinlich die Diversität, deren Erlernen für Ihr Modell möglicherweise wichtig ist.

Hinweis

Wenn Ihre Dokumente in mehreren Sprachen vorliegen, wählen Sie während der Projekterstellung die Option Mehrere Sprachen aus, und legen Sie die Option Sprache auf die Sprache der Mehrheit Ihrer Dokumente fest.

Datenvorbereitung

Als Voraussetzung für die Erstellung eines Projekts zur benutzerdefinierten Textklassifizierung müssen Ihre Trainingsdaten in einen Blobcontainer in Ihrem Speicherkonto hochgeladen werden. Sie können Trainingsdokumente direkt aus Azure oder mithilfe des Tools Azure Storage-Explorer erstellen und hochladen. Mit dem Azure Storage-Explorer-Tool können Sie schneller mehr Daten hochladen.

Sie können nur .txt -Dokumente für benutzerdefinierten Text verwenden. Wenn Ihre Daten in einem anderen Format vorliegen, können Sie den Parse-Befehl von CLUtils verwenden, um das Dateiformat zu ändern.

Sie können ein mit Anmerkungen versehenes Dataset oder ein nicht kommentiertes Dataset hochladen und Ihre Daten in Language Studio bezeichnen.

Testsatz

Legen Sie bei der Definition des Testsatzes auch Beispieldokumente fest, die nicht im Trainingssatz enthalten sind. Die Definition des Testsatzes ist ein wichtiger Schritt zur Berechnung der Modellleistung. Stellen Sie außerdem sicher, dass der Testsatz Dokumente enthält, die alle in Ihrem Projekt verwendeten Klassen repräsentieren.

Nächste Schritte

Erstellen Sie ein benutzerdefiniertes Textklassifizierungsprojekt, sofern Sie das noch nicht getan haben. Wenn Sie die benutzerdefinierte Textklassifizierung zum ersten Mal verwenden, sollten Sie den Schnellstart in Betracht ziehen, um ein Beispielprojekt zu erstellen. Weitere Informationen zu den Voraussetzungen zum Erstellen eines Projekts finden Sie außerdem in den Projektanforderungen.