Bewährte Methoden für Sprachmodellschulungen

2025-06-09

Hinweis

Die Anpassung des Sprachmodells, einschließlich der Ausspracheschulung, ist in Video Indexer Azure-Testkonten und Ressourcen-Manager-Konten verfügbar. Klassische Konten unterstützen dieses Feature nicht. Informationen zur Verwendung der benutzerdefinierten Sprachoberfläche finden Sie unter Anpassen eines Sprachmodells.

Durch die Integration von Azure AI Video Indexer in Azure AI Speech-Dienste wird ein Universelles Sprachmodell als Basismodell verwendet, das mit Microsoft-eigenen Daten trainiert wird und häufig verwendete gesprochene Sprache widerspiegelt. Das Basismodell wird mit Dialekten und Phonemen vortrainiert, die verschiedene gängige Gebiete repräsentieren. Das Basismodell funktioniert in den meisten Spracherkennungsszenarien gut.

Manchmal behandelt die Transkription des Basismodells jedoch einige Inhalte nicht genau. In diesen Situationen kann ein angepasstes Sprachmodell verwendet werden, um die Erkennung von domänenspezifischen Vokabularen oder Aussprachen zu verbessern, die für Ihren Inhalt spezifisch sind, indem Textdaten bereitgestellt werden, um das Modell zu trainieren. Durch den Prozess der Erstellung und Anpassung von Sprachanpassungsmodellen können Ihre Inhalte ordnungsgemäß transkribiert werden. Es gibt keine zusätzlichen Kosten, um die Sprachanpassung von Azure AI Video Indexer zu verwenden.

Wann ein benutzerdefiniertes Sprachmodell verwendet werden sollte

Wenn Ihre Inhalte branchenspezifische Terminologie enthalten oder wenn Transkriptionsergebnisse Ungenauigkeiten aufweisen, können Sie ein benutzerdefiniertes Sprachmodell erstellen und trainieren. Sie kann die Begriffe erkennen und die Transkriptionsqualität verbessern. Es kann nur sinnvoll sein, ein benutzerdefiniertes Modell zu erstellen, wenn die relevanten Wörter und Namen in den Inhalten, die Sie indizieren möchten, wiederholt angezeigt werden sollen. Das Trainieren eines Modells ist manchmal ein iterativer Prozess. Möglicherweise stellen Sie fest, dass die Ergebnisse nach der ersten Schulung verbessert werden könnten und weitere Schulungen benötigen. Schauen Sie im Abschnitt "Verbessern Ihres benutzerdefinierten Modells" nach, um Hinweise zu erhalten.

Wenn bestimmte Wörter oder Namen selten in Ihren Inhalten verwendet werden, benötigen Sie kein benutzerdefiniertes Sprachmodell. Stattdessen können Sie das Transkript direkt auf der Azure AI Video Indexer-Website manuell bearbeiten und korrigieren. Für häufigere oder domänenspezifische Ausdrücke sollten Sie ein benutzerdefiniertes Sprachmodell erstellen, um die Transkriptionsgenauigkeit zu verbessern. Weitere Informationen zum Bearbeiten und Korrigieren von Transkriptionen finden Sie unter Anzeigen und Aktualisieren von Transkriptionen auf der Azure AI Video Indexer-Website.

Eine Liste der Sprachen, die benutzerdefinierte Modelle und Aussprache unterstützen, finden Sie in den Spalten "Anpassung" und "Aussprache" der Sprachunterstützungstabelle in der Sprachunterstützung in Azure AI Video Indexer.

Trainingsdatensätze

Beim Indizieren eines Videos können Sie ein angepasstes Sprachmodell verwenden, um die Transkription zu verbessern. Modelle werden trainiert, indem sie mit Datasets geladen werden, die Nur-Text-Daten und Aussprachedaten enthalten können.

Text, der zum Testen und Trainieren eines benutzerdefinierten Modells verwendet wird, sollte Beispiele aus einer Vielzahl von Inhalten und Szenarien enthalten, die Ihr Modell erkennen soll. Berücksichtigen Sie beim Erstellen und Trainieren Ihrer Datasets die folgenden Faktoren:

Fügen Sie Text ein, der die Arten von verbalen Aussagen abdeckt, die Ihre Benutzer vornehmen, wenn sie mit Ihrem Modell interagieren. Wenn Ihre Inhalte z. B. in erster Linie mit einem Sport zusammenhängen, trainieren Sie das Modell mit Inhalten, die Terminologie und Gegenstand im Zusammenhang mit dem Sport enthalten.
Alle Sprachvarianten müssen enthalten sein, die von Ihrem Modell erkannt werden sollen. Viele Faktoren können die Sprache variieren, einschließlich Akzente, Dialekte und Sprachmischungen.
Fügen Sie nur Daten hinzu, die für Inhalte relevant sind, die Sie für die Transkription planen. Das Einschließen anderer Daten kann die Erkennungsqualität insgesamt beeinträchtigen.

Arten von Datensätzen

Es gibt zwei Datasettypen, die Sie für die Anpassung verwenden können. Nutzen Sie die folgende Tabelle, um zu bestimmen, welches Dataset zum Beheben Ihrer Probleme verwendet werden soll:

Anwendungsfall	Datentyp
Verbessern der Erkennungsgenauigkeit für branchenspezifisches Vokabular und entsprechende Grammatik (z. B. aus der Medizin- oder IT-Branche).	Einfacher Text
Definieren der phonetischen und angezeigten Form eines Worts oder Begriffs mit nicht standardmäßiger Aussprache (beispielsweise Produktnamen oder Akronyme)	Aussprachedaten

Nur-Text-Daten für das Training

Ein Dataset, das Nur-Text-Sätze verwandter Texte enthält, kann verwendet werden, um die Erkennung domänenspezifischer Wörter und Ausdrücke zu verbessern. Mit passenden Textsätzen können Ersetzungsfehler reduziert werden, die sich auf die fehlerhafte Erkennung von gängigen und themenspezifischen Wörtern beziehen, indem diese im Kontext dargestellt werden. Bei themenspezifischen Wörtern kann es sich auch um ungewöhnliche oder ausgedachte Wörter handeln, aber ihre Aussprache muss eindeutig sein, damit sie erkannt werden können.

Bewährte Methoden für Nur-Text-Datasets

Stellen Sie thematisch verwandte Sätze in einer einzelnen Textdatei zur Verfügung. Statt vollständige Sätze zu verwenden, können Sie eine Liste von Wörtern hochladen. Obwohl sie dem Vokabular hinzugefügt werden, lehrt es das System nicht, wie die Wörter ordinär verwendet werden. Durch die Bereitstellung vollständiger oder teilweiser Äußerungen (Sätze oder Ausdrücke, die von Benutzern üblicherweise verwendet werden) kann das Sprachmodell die neuen Wörter und deren Verwendung lernen. Das benutzerdefinierte Sprachmodell eignet sich nicht nur gut dazu, neue Wörter dem System hinzuzufügen, sondern auch, die Wahrscheinlichkeit bekannter Wörter für Ihre Anwendung anzupassen. Vollständige Äußerungen helfen dem System, besser zu lernen.
Verwenden Sie Textdaten, die den erwarteten gesprochenen Äußerungen nahe stehen. Diese Äußerungen müssen keine vollständigen oder grammatikalisch korrekten Sätze sein. Sie müssen aber die gesprochenen Eingaben, die vom Modell erkannt werden sollen, angemessen widerspiegeln.
Versuchen Sie, jeden Satz oder Schlüsselwort in einer separaten Zeile zu verwenden.
Zum Erhöhen der Gewichtung eines Ausdrucks wie etwa eines Produktnamens fügen Sie mehrere Sätze hinzu, die den Ausdruck enthalten.
Bei gängigen Ausdrücken, die in Ihren Inhalten verwendet werden, ist die Bereitstellung vieler Beispiele nützlich, da es dem System angibt, auf diese Begriffe zu lauschen. 
Vermeiden Sie, ungewöhnliche Symbole (~, # @ % &) einzufügen, da sie verworfen werden. Die Sätze, in denen sie erscheinen, werden ebenfalls entfernt.
Vermeiden Sie zu umfangreiche Eingaben, z. B. Hunderte oder Tausende von Sätzen, weil sonst der Verstärkungseffekt abgeschwächt wird.

Verwenden Sie diese Tabelle, um sicherzustellen, dass Ihre Nur-Text-Datasetdatei das richtige Format aufweist:

Eigenschaft	Wert
Textcodierung	UTF-8 BOM
Anzahl von Äußerungen pro Zeile	1
Maximale Dateigröße	200 MB

Versuchen Sie, diese Richtlinien in Ihren Nur-Text-Dateien zu befolgen:

Vermeiden Sie es, Zeichen, Wörter oder Wortgruppen mehr als dreimal zu wiederholen, z. B. yeah yeah yeah yeah, da der Dienst Zeilen mit zu vielen Wiederholungen möglicherweise auslassen könnte.
Verwenden Sie keine Sonderzeichen oder UTF-8-Zeichen, die größer als U+00A1 sind.
URIs wurden abgelehnt.
Bei bestimmten Sprachen, wie etwa Japanisch oder Koreanisch, kann das Importieren großer Mengen von Textdaten sehr lange dauern oder ein Timeout verursachen. Teilen Sie die hochgeladenen Datasets ggf. auf mehrere Textdateien mit jeweils bis zu 20.000 Zeilen auf.

Aussprachedaten für das Training

Sie können Ihrem benutzerdefinierten Sprachmodell ein benutzerdefiniertes Aussprache-Dataset hinzufügen, um die Erkennung falsch wiedergegebener Wörter, Ausdrücke oder Namen zu verbessern.

Datensätze zur Aussprache müssen die gesprochene Form eines Wortes oder einer Phrase und die erkannte angezeigte Form enthalten. Die gesprochene Form ist die phonetische Sequenz, die geschrieben wird, zum Beispiel Triple A. Sie kann aus Buchstaben, Wörtern, Silben oder einer Kombination aus allen drei Buchstaben bestehen. Die anerkannte Darstellungsform ist, wie das Wort oder der Ausdruck in der Transkription erscheinen soll. Diese Tabelle enthält einige Beispiele:

Erkannte angezeigte Form	Gesprochene Form
3CPO	drei c p o
CNTK	c n t k
ADAC	a d a c

Sie stellen Aussprache-Datasets in einer einzelnen Textdatei bereit. Schließen Sie jeweils die gesprochene Äußerung und eine benutzerdefinierte Aussprache ein. Jede Zeile in der Datei sollte mit dem erkannten Formular, einem Tabstoppzeichen und der durch Leerzeichen getrennten phonetischen Sequenz beginnen.

3CPO    three c p o 
CNTK    c n t k 
IEEE    i triple e

Berücksichtigen Sie beim Erstellen und Trainieren von Aussprache-Datasets die folgenden Punkte:

Wir raten davon ab, benutzerdefinierte Aussprachedateien zu verwenden, um die Aussprache allgemeiner Wörter zu ändern.

Wenn es einige Variationen gibt, wie ein Wort oder Name falsch transkribiert wird, sollten Sie beim Trainieren des Aussprache-Datasets einige oder alle davon verwenden. Wenn zum Beispiel Robert fünf Mal im Video erwähnt und als Robort, Ropert und robbers transkribiert wird. Sie können versuchen, alle Variationen in der Datei wie im folgenden Beispiel einzubeziehen, aber seien Sie vorsichtig, wenn mit tatsächlichen Wörtern wie robbers trainiert wird, denn falls robbers im Video erwähnt wird, wird es als Robert transkribiert.

Robert Roport
Robert Ropert
Robert Robbers

Das Aussprachemodell ist nicht dazu gedacht, Akronyme zu adressieren. Wenn Sie z. B. möchten, dass Doctor als Dr. transkribiert wird, kann es nicht durch ein Aussprachemodell erreicht werden.

Sehen Sie sich die folgende Tabelle an, um sicherzustellen, dass Ihre Datensatzdateien zur Aussprache gültig und ordnungsgemäß formatiert sind.

Eigenschaft	Wert
Textcodierung	UTF-8 BOM (ANSI wird für Englisch ebenfalls unterstützt)
Anzahl von Aussprachen pro Zeile	1
Maximale Dateigröße	1 MB (1 KB für Free-Tarif)

Verbessern Ihrer benutzerdefinierten Modelle

Das Trainieren eines Aussprachemodells kann ein iterativer Prozess sein, da Sie nach der ersten Schulung und Auswertung der Ergebnisse Ihres Modells mehr Wissen über die Aussprache des Themas gewinnen können. Vorhandene Modelle können nicht bearbeitet oder geändert werden. Die Schulung eines Modells erfordert iterativ das Erstellen und Hochladen von Datasets mit weiteren Informationen. Das Training neuer benutzerdefinierter Modelle basierend auf den neuen Datasets ist ebenfalls erforderlich. Anschließend würden Sie die Mediendateien mit dem neuen benutzerdefinierten Sprachmodell neu indizieren.

Beispiel:

Angenommen, Sie planen die Indizierung von Sportinhalten und antizipieren Transkriptgenauigkeitsprobleme mit spezifischer Sportterminologie sowie in den Namen von Spielern und Trainern. Vor der Indizierung haben Sie ein Sprachmodell mit einem einfachen Textdatensatz erstellt. Es enthält relevante Sportterminologie und ein Aussprache-Dataset mit einigen Namen des Spielers und Trainers. Sie indizieren einige Videos mit dem benutzerdefinierten Sprachmodell und stellen bei der Überprüfung des generierten Transkripts fest, dass zwar die Terminologie korrekt transkribiert wurde, viele Namen jedoch nicht. Sie können die folgenden Schritte ausführen, um die Leistung in Zukunft zu verbessern:

Überprüfen Sie das Transkript und notieren Sie alle falsch transkribierten Namen. Sie könnten in zwei Gruppen fallen:
- Namen, die nicht in der Aussprachedatei enthalten sind.
- Die Namen sind in der Aussprache-Datei enthalten, werden jedoch weiterhin falsch transkribiert.
Erstellen Sie eine neue Datasetdatei. Laden Sie entweder die Aussprache-Datasetdatei herunter, oder ändern Sie das lokal gespeicherte Original. Für Gruppe A fügen Sie die neuen Namen so in die Datei ein, wie sie falsch transkribiert wurden (Michael Mikel). Fügen Sie für Gruppe B weitere Zeilen hinzu, die jeweils den richtigen Namen aufweisen, und ein eindeutiges Beispiel dafür, wie sie falsch transkribiert wurde. Zum Beispiel:

Stephen Steven
Stephen Steafan
Stephen Steevan
Laden Sie diese Datei als neue Datasetdatei hoch.
Erstellen Sie ein neues Sprachmodell, und fügen Sie das ursprüngliche Nur-Text-Dataset und die neue Aussprache-Datasetdatei hinzu.
Indizieren Sie das Video mit dem neuen Sprachmodell neu.
Wiederholen Sie bei Bedarf die Schritte 1 bis 5, bis die Ergebnisse zufriedenstellend sind.

Anpassen eines Sprachmodells

Freigeben über