Trainings- und Testdatasets

Artikel
01/19/2024

In einem Custom Speech-Projekt können Sie Datasets für das Training sowie für qualitative Untersuchung und quantitative Messung hochladen. In diesem Artikel werden die Arten von Trainings- und Testdaten behandelt, die Sie für Custom Speech verwenden können.

Text- und Audiodaten zum Testen und Trainieren eines benutzerdefinierten Modells sollten Beispiele von unterschiedlichen Sprechern sowie Szenarien umfassen, die von Ihrem Modell erkannt werden sollen. Berücksichtigen Sie beim Sammeln von Daten für das Testen und Trainieren benutzerdefinierter Modelle die folgenden Faktoren:

Text- und Audiodaten müssen alle Arten von verbalen Aussagen abdecken, die von Ihren Benutzer*innen bei der Interaktion mit Ihrem Modell verwendet werden. Beispielsweise muss ein Modell zum Erhöhen und Verringern der Temperatur mit Aussagen trainiert werden, die von Personen verwendet werden können, um entsprechende Änderungen anzufordern.
Alle Sprachvarianten müssen enthalten sein, die von Ihrem Modell erkannt werden sollen. Viele Faktoren können die Sprache verändern, einschließlich Akzenten, Dialekten, Sprachmischung, Alter, Geschlecht, Sprachwiedergabe, Belastung und Tageszeit.
Schließen Sie Beispiele aus unterschiedlichen Umgebungen (Innen-, Außen- und Straßenlärm) ein, in denen das Modell verwendet wird.
Zeichnen Sie Audiodaten mit Hardwaregeräten auf, die vom Produktionssystem verwendet werden. Wenn Ihr Modell Sprache identifizieren muss, die mithilfe von Geräten unterschiedlicher Qualität aufgezeichnet wird, müssen die zum Trainieren des Modells bereitgestellten Audiodaten diese verschiedenen Szenarien ebenfalls widerspiegeln.
Halten Sie das Dataset vielschichtig und für Ihre Projektanforderungen repräsentativ. Sie können Ihrem Modell später weitere Daten hinzufügen.
Schließen Sie daher nur Daten ein, die das Modell transkribieren soll. Das Einschließen von Daten, die nicht zu den Erkennungsanforderungen Ihres benutzerdefinierten Modells gehören, kann die allgemeine Erkennungsqualität beeinträchtigen.

Datentypen

Die folgende Tabelle enthält die zulässigen Datentypen sowie Angaben zur Verwendung des jeweiligen Datentyps und zur empfohlenen Menge. Nicht jeder Datentyp ist zum Erstellen eines Modells erforderlich. Die Datenanforderungen unterscheiden sich je nachdem, ob Sie einen Test erstellen oder ein Modell trainieren.

Datentyp	Zum Testen verwendet	Empfohlen für Tests	Für Training verwendet	Empfohlen für das Training
Nur Audio	Ja (visuelle Prüfung)	Mindestens 5 Audiodateien	Ja (Vorschauversion für `en-US`)	1–20 Stunden Audiodaten
Audio + menschenmarkierte Transkripte	Ja (Bewertung der Genauigkeit)	0,5 – 5 Stunden Audio	Ja	1–20 Stunden Audiodaten
Nur-Text	Nein	Nicht zutreffend	Ja	1 – 200 MB zugehöriger Text
Strukturierter Text	Nein	Nicht zutreffend	Ja	Bis zu zehn Klassen mit bis zu 4.000 Elementen und bis zu 50.000 Trainingssätzen
Aussprache	Nein	Nicht zutreffend	Ja	Aussprachetext mit einer Größe von 1 KB bis 1 MB
Anzeigeformat	Nein	Nicht zutreffend	Ja	Bis zu 200 Zeilen für ITN, 1.000 Zeilen fürs Umschreiben, 1.000 Zeilen für den Filter für anstößige Ausdrücke

Das Training mit Nur-Text oder strukturiertem Text kann in der Regel innerhalb weniger Minuten abgeschlossen werden.

Tipp

Beginnen Sie mit Nur-Text-Daten oder strukturierten Textdaten. Diese Daten verbessern das Erkennen von speziellen Begriffen und Ausdrücken. Das Trainieren mit Textdaten ist deutlich schneller als das Trainieren mit Audiodaten (Minuten im Vergleich zu Tagen).

Beginnen Sie mit kleinen Beispieldaten, die der Sprache, der Akustik und Hardware Ihres Modells entsprechen. Kleine Datasets mit repräsentativen Daten können Probleme offenbaren, bevor Sie mit dem Sammeln umfangreicherer Trainingsdatasets beginnen. Beispieldaten für Custom Speech finden Sie in diesem GitHub-Repository.

Wenn Sie ein benutzerdefiniertes Modell mit Audiodaten trainieren, wählen Sie eine Sprachressourcenregion mit dedizierter Hardware für das Trainieren mit Audiodaten aus. Weitere Informationen finden Sie in den Fußnoten der Tabelle Regionen. In Regionen mit dedizierter Hardware für das Custom Speech-Training verwendet der Speech-Dienst bis zu 20 Stunden Ihrer Audiotrainingsdaten und kann etwa zehn Stunden an Daten pro Tag verarbeiten. In anderen Regionen verwendet der Speech-Dienst bis zu 8 Stunden Ihrer Audiodaten und kann ca. 1 Stunde Daten pro Tag verarbeiten. Nachdem das Modell trainiert wurde, können Sie das Modell nach Bedarf mit der REST-API Models_CopyTo in eine andere Region kopieren.

Berücksichtigen von Datasets nach Szenario

Ein Modell, das für eine Teilmenge von Szenarios trainiert wurde, funktioniert nur in diesen Szenarios gut. Wählen Sie die Daten sorgfältig aus, um sämtliche Szenarien abzudecken, die von Ihrem benutzerdefinierten Modell erkannt werden sollen. In der folgenden Tabelle sind Datasets aufgeführt, die für einige Spracherkennungsszenarien berücksichtigt werden sollen:

Szenario	Nur-Textdaten und strukturierte Textdaten	Audio + menschenmarkierte Transkripte	Neue Wörter mit besonderer Aussprache
Callcenter	Marketingdokumente, Website, Produktbewertungen in Bezug auf Callcenteraktivitäten	Callcenteranrufe mit Humantranskription	Begriffe mit mehrdeutiger Aussprache (siehe Xbox-Beispiel im vorherigen Abschnitt)
Sprachassistent	Listen von Sätzen, die verschiedene Kombinationen von Befehlen und Entitäten verwenden	Aufgezeichnete Stimmen, die Befehle in das Gerät sprechen, die in Text transkribiert werden	Namen (Filme, Songs, Produkte) mit besonderer Aussprache
Diktieren	Eingaben in Schriftform, z. B. Sofortnachrichten oder E-Mails	Ähnlich wie in den vorherigen Beispielen	Ähnlich wie in den vorherigen Beispielen
Untertitelung für Videos	Skripts von TV-Sendungen, Filme, Marketinginhalte, Videozusammenfassungen	Genaue Transkripts von Videos	Ähnlich wie in den vorherigen Beispielen

Nutzen Sie die folgende Tabelle, um zu bestimmen, welches Dataset zum Beheben Ihrer Probleme verwendet werden soll:

Anwendungsfall	Datentyp
Verbessern der Erkennungsgenauigkeit für branchenspezifisches Vokabular und entsprechende Grammatik (z. B. aus der Medizin- oder IT-Branche).	Nur-Text oder strukturierte Textdaten
Definieren der phonetischen und angezeigten Form eines Worts oder Begriffs mit nicht standardmäßiger Aussprache (beispielsweise Produktnamen oder Akronyme)	Aussprache-Daten oder phonetische Aussprache in strukturiertem Text
Verbessern der Erkennungsgenauigkeit für Sprechweisen, Akzente oder bestimmte Hintergrundgeräusche.	Audio + menschenmarkierte Transkripte

Audio- und Humantranskriptionsdaten für Training oder Tests

Audiodaten und von Menschen bezeichnete Transkriptionsdaten können sowohl zu Trainings- als auch zu Testzwecken verwendet werden. Humantranskriptionen (Wort für Wort) müssen zum Vergleich bereitgestellt werden:

Zur Verbesserung akustischer Aspekte wie geringfügigen Akzenten, Sprechweisen und Hintergrundgeräuschen
Um die Genauigkeit der Spracherkennung von Microsoft bei der Verarbeitung Ihrer Audiodateien zu messen

Eine Liste mit Basismodellen, die das Trainieren mit Audiodaten unterstützen, finden Sie unter Sprachunterstützung. Selbst wenn ein Basismodell das Training mit Audiodaten unterstützt, verwendet der Dienst möglicherweise nur einen Teil der Audiodaten. Es verwendet trotzdem alle Transkripte.

Wichtig

Wenn ein Basismodell die Anpassung mit Audiodaten nicht unterstützt, wird nur der Transkriptionstext zum Training verwendet. Wenn Sie zu einem Basismodell wechseln, das die Anpassung mit Audiodaten unterstützt, kann sich die Trainingsdauer von mehreren Stunden auf mehrere Tage verlängern. Die Änderung der Trainingsdauer wäre beim Wechsel zu einem Basismodell in einer Region ohne dedizierte Hardware für das Training am deutlichsten spürbar. Wenn die Audiodaten nicht erforderlich sind, sollten Sie sie entfernen, um die Trainingsdauer zu verringern.

Audiodaten mit menschenmarkierten Transkripts ermöglichen die größten Verbesserungen bei der Genauigkeit, sofern die Audiodaten aus dem Zielanwendungsfall stammen. Beispiele müssen den vollständigen Sprachbereich abdecken. Ein Callcenter für ein Einzelhandelsgeschäft erhält z. B. die meisten Anrufe zu Badebekleidung und Sonnenbrillen in den Sommermonaten. Stellen Sie sicher, dass Ihr Beispiel den vollständigen Sprachbereich abdeckt, der erkannt werden soll.

Berücksichtigen Sie Folgendes:

Das Training mit Audiodaten bietet den größten Nutzen, wenn das Audiomaterial auch für Menschen schwer zu verstehen ist. In den meisten Fällen sollten Sie mit dem Training beginnen, indem Sie nur verwandten Text verwenden.
Wenn Sie eine der am häufigsten verwendeten Sprachen verwenden, z. B. Englisch (USA), ist es unwahrscheinlich, dass Sie mit Audiodaten trainieren müssen. Bei diesen Sprachen liefern die Basismodelle in den meisten Szenarios bereits gute Erkennungsergebnisse. Es ist deshalb wahrscheinlich ausreichend, sie mit verwandtem Text zu trainieren.
Custom Speech kann den Wortkontext nur erfassen, um Ersetzungsfehler und keine Einfüge- oder Löschfehler zu reduzieren.
Vermeiden Sie Beispiele, die Transkriptionsfehler enthalten, aber verwenden Sie unterschiedliche Audioqualitäten.
Vermeiden Sie Sätze, die sich nicht auf Ihren Problembereich beziehen. Sätze dieser Art können das Modell beeinträchtigen.
Wenn die Transkriptqualität variiert, können Sie besonders gute Sätze – wie etwa hervorragende Transkriptionen mit wichtigen Ausdrücken – duplizieren, um ihre Gewichtung zu erhöhen.
Der Speech-Dienst verwendet die Transkriptionen automatisch, um die Erkennung von themenspezifischen Wörtern und Ausdrücken zu verbessern, als wären sie als verwandter Text hinzugefügt worden.
Der Abschluss eines Trainingsvorgangs kann mehrere Tage in Anspruch nehmen. Achten Sie zur Verbesserung der Trainingsgeschwindigkeit darauf, Ihr Speech-Dienstabonnement in einer Region mit dedizierter Hardware für das Training zu erstellen.

Ein großer Trainingsdatensatz ist erforderlich, um die Erkennung zu verbessern. Im Allgemeinen wird empfohlen, wortwörtliche Transkriptionen für mindestens eine und bis zu 20 Stunden an Audiodaten bereitzustellen. Aber auch schon 30 Minuten können zur Verbesserung der Erkennungsergebnisse beitragen. Obwohl das Erstellen der Humantranskription Zeit in Anspruch nehmen kann, sind die Verbesserungen bei der Erkennung lediglich so gut wie die von Ihnen bereitgestellten Daten. Sie sollten nur hochwertige Transkripte hochladen.

Audiodateien können am Anfang und am Ende der Aufzeichnung Stille aufweisen. Schließen Sie nach Möglichkeit in jeder Beispieldatei mindestens eine halbe Sekunde Stille vor und nach Sprache ein. Obwohl Audiodaten mit geringer Aufnahmelautstärke oder störenden Hintergrundgeräuschen nicht hilfreich sind, sollte das benutzerdefinierte Modell dadurch nicht eingeschränkt oder beeinträchtigt werden. Sie sollten immer ein Upgrade Ihrer Mikrofone und Signalverarbeitungshardware in Erwägung ziehen, bevor Sie Audiostichproben sammeln.

Wichtig

Weitere Informationen zu den bewährten Methoden zum Vorbereiten von Humantranskripten finden Sie unter Humantranskription mit Audio.

Custom Speech-Projekte erfordern Audiodateien mit diesen Eigenschaften:

Wichtig

Dies sind die Anforderungen für das Trainieren und Testen von Audiodaten + von Menschen bezeichnetes Transkript. Sie unterscheiden sich von denen für das reine Trainieren und Testen von Audiodaten. Weitere Informationen zur reinen Verwendung von Training und Tests für Audiodaten finden Sie in diesem Abschnitt.

Eigenschaft	Wert
Dateiformat	RIFF (WAV)
Samplingrate	8\.000 Hz oder 16.000 Hz
Kanäle	1 (Mono)
Maximale Länge pro Audioaufnahme	Zwei Stunden (Testen) bzw. 60 Sek. (Training) Für das Training mit Audio gilt eine maximale Audiolänge von 60 Sekunden pro Datei. Bei Audiodateien, die länger als 60 Sekunden sind, werden lediglich die entsprechenden Transkriptionsdateien für das Training verwendet. Wenn alle Audiodateien länger als 60 Sekunden sind, schlägt das Training fehl.
Beispielformat	PCM, 16 Bit
Archivierungsformat	.zip
Maximale ZIP-Dateigröße	2 GB oder 10.000 Dateien

Nur-Text-Daten für das Training

Sie können Sätze verwandter Texte als Nur-Text hinzufügen, um die Erkennung themenspezifischer Wörter und Ausdrücke zu verbessern. Mit passenden Textsätzen können Ersetzungsfehler reduziert werden, die sich auf die fehlerhafte Erkennung von gängigen und themenspezifischen Wörtern beziehen, indem diese im Kontext dargestellt werden. Bei themenspezifischen Wörtern kann es sich auch um ungewöhnliche oder ausgedachte Wörter handeln, aber ihre Aussprache muss eindeutig sein, damit sie erkannt werden können.

Stellen Sie thematisch verwandte Sätze in einer einzelnen Textdatei zur Verfügung. Verwenden Sie Textdaten, die nahe an den erwarteten gesprochenen Äußerungen liegen. Diese Äußerungen müssen keine vollständigen oder grammatikalisch korrekten Sätze sein. Sie müssen aber die gesprochenen Eingaben, die vom Modell erkannt werden sollen, angemessen widerspiegeln. Versuchen Sie nach Möglichkeit, einen Satz oder ein Schlüsselwort auf einer separaten Zeile einzufügen. Zum Erhöhen der Gewichtung eines Ausdrucks wie etwa eines Produktnamens fügen Sie mehrere Sätze hinzu, die den Ausdruck enthalten. Kopieren Sie jedoch nicht zu viel, da sich dies auf die Gesamterkennungsrate auswirken kann.

Hinweis

Vermeiden Sie Textsätze, die „Rauschen“ enthalten, z. B. nicht zu erkennende Buchstaben oder Wörter.

Verwenden Sie diese Tabelle, um sicherzustellen, dass Ihre Nur-Text-Datasetdatei das richtige Format aufweist:

Eigenschaft	Wert
Textcodierung	UTF-8 BOM
Anzahl von Äußerungen pro Zeile	1
Maximale Dateigröße	200 MB

Sie müssen ferner die folgenden Einschränkungen einhalten:

Vermeiden Sie es, mehr als dreimal Zeichen, Wörter oder Wortgruppen zu wiederholen. Beispiel: Verwenden Sie nicht „aaaa“, „ja, ja, ja, ja“ oder „das ist es, das ist es, das ist es, das ist es“. Der Sprachdienst kann Zeilen mit zu vielen Wiederholungen löschen.
Verwenden Sie keine Sonderzeichen oder UTF-8-Zeichen über U+00A1.
URIs werden zurückgewiesen.
Bei bestimmten Sprachen, wie etwa Japanisch oder Koreanisch, kann das Importieren großer Mengen von Textdaten sehr lange dauern oder ein Timeout verursachen. Teilen Sie die hochgeladenen Datasets ggf. auf mehrere Textdateien mit jeweils bis zu 20.000 Zeilen auf.

Strukturierte Textdaten für das Training

Hinweis

Strukturierte Textdaten für das Training sind als Public Preview verfügbar.

Verwenden Sie strukturierte Textdaten, wenn Ihre Daten einem bestimmten Muster in bestimmten Äußerungen folgen, die sich nur in Wörtern oder Formulierungen von einer Liste unterscheiden. Zum Vereinfachen der Erstellung von Trainingsdaten und Ermöglichen einer besseren Modellierung innerhalb des benutzerdefinierten Sprachmodells können Sie einen strukturierten Text im Markdownformat verwenden, um Listen mit Elementen und der phonetischen Aussprache von Wörtern zu definieren. Anschließend können Sie innerhalb Ihrer Trainingsäußerungen auf diese Listen verweisen.

Die erwarteten Äußerungen folgen häufig einem bestimmten Muster. Ein gängiges Muster ist beispielsweise, dass Äußerungen sich nur durch bestimmte Wörter oder Ausdrücke aus einer Liste unterscheiden. Beispiele für dieses Muster wären etwa:

„Ich habe eine Frage zu product.“, wobei product eine Liste möglicher Produkte ist
„Färbe objectcolor.“, wobei object eine Liste geometrischer Formen und color eine Liste mit Farben ist

Eine Liste der unterstützten Basismodelle und Gebietsschemas für das Training mit strukturiertem Text finden Sie unter Sprachunterstützung. Für diese Gebietsschemas muss das neueste Basismodell verwendet werden. Für Gebietsschemas, die das Trainieren mit strukturiertem Text nicht unterstützen, akzeptiert der Dienst alle Trainingssätze, die im Rahmen des Trainings mit Nur-Text-Daten auf keine Klassen verweisen.

Die strukturierte Textdatei muss die Erweiterung „.md“ tragen. Die maximale Dateigröße beträgt 200 MB, und die Textcodierung muss UTF-8 BOM sein. Die Markdownsyntax ist mit der Syntax der Language Understanding-Modelle identisch. Das gilt insbesondere für Listenentitäten und Beispieläußerungen. Weitere Informationen zur vollständigen Markdownsyntax finden Sie im Artikel zum Language Understanding-Markdown.

Hier sehen Sie wichtige Details zum unterstützten Markdown-Format:

Eigenschaft	BESCHREIBUNG	Einschränkungen
`@list`	Eine Liste von Elementen, auf die in einem Beispielsatz Bezug genommen werden kann.	Maximal 20 Listen. Maximal 35.000 Elemente pro Liste.
`speech:phoneticlexicon`	Eine Liste der phonetischen Aussprachen gemäß dem universellen Phonemsatz. Die Aussprache wird für jede Instanz angepasst, in der das Wort in einer Liste oder einem Trainingssatz vorkommt. Wenn Sie etwa bei einem Wort, das wie „cat“ klingt, die Aussprache zu „k ae t“ anpassen möchten, fügen Sie der `speech:phoneticlexicon`-Liste `- cat/k ae t` hinzu.	Maximal 15.000 Einträge. Maximal zwei Äußerungen pro Wort
`#ExampleSentences`	Ein Gattersymbol (`#`) begrenzt einen Abschnitt von Beispielsätzen. Die Abschnittsüberschrift darf nur Buchstaben, Ziffern und Unterstriche enthalten. Die Beispielsätze sollten die sprachliche Bandbreite widerspiegeln, mit der Ihr Modell rechnen muss. Ein Trainingssatz kann sich mithilfe von umschließenden linken und rechten geschweiften Klammern (`{@list name}`) auf Elemente unter einer `@list` beziehen. Sie können sich innerhalb eines Trainingssatzes auf mehrere Listen oder auf überhaupt keine beziehen.	Maximale Dateigröße: 200 MB
`//`	Kommentare folgen auf einen doppelten Schrägstrich (`//`).	Nicht zutreffend

Hier sehen Sie ein Beispiel für eine strukturierte Textdatei:

// This is a comment because it follows a double slash (`//`).

// Here are three separate lists of items that can be referenced in an example sentence. You can have up to 10 of these.
@ list food =
- pizza
- burger
- ice cream
- soda

@ list pet =
- cat
- dog
- fish

@ list sports =
- soccer
- tennis
- cricket
- basketball
- baseball
- football

// List of phonetic pronunciations
@ speech:phoneticlexicon
- cat/k ae t
- fish/f ih sh

// Here are two sections of training sentences. 
#TrainingSentences_Section1
- you can include sentences without a class reference
- what {@pet} do you have
- I like eating {@food} and playing {@sports}
- my {@pet} likes {@food}

#TrainingSentences_Section2
- you can include more sentences without a class reference
- or more sentences that have a class reference like {@pet}

Aussprachedaten für das Training

Spezielle oder erdachte Wörter können eine einzigartige Aussprache haben. Ein Wort dieser Art kann erkannt werden, wenn es zum Aussprechen in kleinere Wörter unterteilt werden kann. Sprechen Sie „Xbox“ beispielsweise deutlich als „X Box“ aus, damit das Wort erkannt wird. Dieser Ansatz erhöht nicht die Gesamtgenauigkeit, kann aber die Erkennung dieser und anderer Schlüsselwörter verbessern.

Sie können eine benutzerdefinierte Aussprachedatei zur Verfügung stellen, um die Erkennung zu verbessern. Verwenden Sie keine benutzerdefinierte Aussprachedateien, um die Aussprache gebräuchlicher Wörter zu ändern. Eine Liste der Sprachen, die benutzerdefinierte Aussprache unterstützen, finden Sie unter Sprachunterstützung.

Hinweis

Sie können eine Aussprachedatei zusammen mit jedem anderen Trainingsdatensatz verwenden, außer mit strukturierten Text-Trainingsdaten. Um Aussprachedaten mit strukturiertem Text zu verwenden, müssen sie sich in einer strukturierten Textdatei befinden.

Die gesprochene Form ist die jeweilige Lautfolge. Sie besteht aus Buchstaben, Wörtern, Silben oder aus einer Kombination dieser drei Elemente. Diese Tabelle enthält einige Beispiele:

Erkannte angezeigte Form	Gesprochene Form
3CPO	drei c p o
CNTK	c n t k
IEEE	i doppel e

Sie stellen die Aussprache in einer einzelnen Textdatei bereit. Schließen Sie jeweils die gesprochene Äußerung und eine benutzerdefinierte Aussprache ein. Jede Zeile in der Datei sollte mit dem erkannten Formular, einem Tabstoppzeichen und der durch Leerzeichen getrennten phonetischen Sequenz beginnen.

3CPO    three c p o
CNTK    c n t k
IEEE    i triple e

Weitere Informationen finden Sie in der folgenden Tabelle, um sicherzustellen, dass Ihre Datasetdateien für die Aussprache gültig und ordnungsgemäß formatiert sind.

Eigenschaft	Wert
Textcodierung	UTF-8 BOM (ANSI wird für Englisch ebenfalls unterstützt)
Anzahl von Aussprachen pro Zeile	1
Maximale Dateigröße	1 MB (1 KB für Free-Tarif)

Audiodaten für Training oder Tests

Audiodaten eignen sich optimal, um die Genauigkeit des Microsoft-Basismodells für die Spracherkennung oder eines benutzerdefinierten Modells zu testen. Denken Sie daran, dass Audiodaten verwendet werden, um die Genauigkeit der Spracherkennung in Hinblick auf die Leistung eines bestimmten Modells zu überprüfen. Wenn Sie die Genauigkeit eines Modells bemessen möchten, verwenden Sie Audio- und Humantranskriptionsdaten.

Hinweis

Reine Audiodaten für das Training sind für das Gebietsschema en-US als Vorschauversion verfügbar. Für andere Gebietsschemas müssen Sie zum Trainieren mit Audiodaten außerdem menschenmarkierte Transkripte zur Verfügung stellen.

Custom Speech-Projekte erfordern Audiodateien mit diesen Eigenschaften:

Wichtig

Dies sind die Anforderungen für das reine Trainieren und Testen von Audiodaten. Sie unterscheiden sich von denen für das Trainieren und Testen von Audiodaten + von Menschen bezeichnetes Transkript. Weitere Informationen zur Verwendung von Training und Tests für Audiodaten + von Menschen bezeichnetes Transkript finden Sie in diesem Abschnitt.

Eigenschaft	Wert
Dateiformat	RIFF (WAV)
Samplingrate	8\.000 Hz oder 16.000 Hz
Kanäle	1 (Mono)
Maximale Länge pro Audioaufnahme	Zwei Stunden
Beispielformat	PCM, 16 Bit
Archivierungsformat	.zip
Maximale Archivgröße	2 GB oder 10.000 Dateien

Hinweis

Beim Hochladen von Trainings- und Testdaten darf die ZIP-Datei maximal 2 GB groß sein. Sollten Sie mehr Daten zum Trainieren benötigen, teilen Sie sie auf mehrere ZIP-Dateien auf, und laden Sie sie separat hoch. Später können Sie auswählen, dass Sie mehrere Datasets zum Trainieren verwenden möchten. Für Tests kann jedoch nur ein einzelnes Dataset verwendet werden.

Verwenden Sie SoX, um Audioeigenschaften zu überprüfen oder vorhandene Audiodaten in die entsprechenden Formate zu konvertieren. Hier finden Sie einige SoX-Beispielbefehle:

Aktivität	SoX-Befehl
Überprüfen des Dateiformats der Audiodaten	`sox --i <filename>`
Konvertieren der Audiodatei in einen einzelnen Kanal mit 16 Bit und 16 kHz	`sox <input> -b 16 -e signed-integer -c 1 -r 16k -t wav <output>.wav`

Benutzerdefinierte Anzeigetextformatierungsdaten zu Trainingszwecken

Erfahren Sie mehr über das Vorbereiten von Anzeigetextformatierungsdaten und Anzeigen von Textformatierungen mit der Spracherkennung.

Das Anzeigeformat der automatischen Spracherkennung ist für nachgelagerte Aufgaben wichtig, und es gibt keine Universalgröße. Durch das Hinzufügen von Regeln für das benutzerdefinierte Anzeigeformat können Benutzer*innen ihre eigenen Formatregeln für die Anzeige lexikalischen Texts definieren, um die Qualität des Spracherkennungsdiensts zu verbessern, der auf dem Custom Speech-Dienst von Microsoft Azure aufbaut.

Dadurch können Sie Anzeigeausgaben vollständig anpassen. Sie können beispielsweise Umschreiberegeln hinzufügen, um bestimmte Wörter großzuschreiben und umzuformulieren, anstößige Wörter hinzufügen und in der Ausgabe maskieren, erweiterte ITN-Regeln für bestimmte Muster wie Zahlen, Datumsangaben oder E-Mail-Adressen definieren oder einige Ausdrücke schützen und von Anzeigeprozessen ausschließen.

Beispiel:

Benutzerdefinierte Formatierung	Anzeigetext
Keine	Meine Finanznummer von contoso ist 8BEV3.
„Contoso“ großschreiben (über die Regel `#rewrite`) Finanznummer formatieren (über die Regel `#itn`)	Meine Finanznummer von Contoso ist 8B-EV-3.

Eine Liste der unterstützten Basismodelle und Gebietsschemas für das Training mit strukturiertem Text finden Sie unter Sprachunterstützung. Die Anzeigeformatdatei muss die Erweiterung „.md“ haben. Die maximale Dateigröße beträgt 10 MB, und die Textcodierung muss UTF-8 BOM sein. Weitere Informationen zum Anpassen von Anzeigeformatregeln finden Sie in der bewährten Methode für Anzeigeformatregeln.

Eigenschaft	BESCHREIBUNG	Grenzwerte
#ITN	Eine Liste mit Regeln für die umgekehrte Textnormalisierung (Inverse Text Normalization, ITN) zum Definieren bestimmter Anzeigemuster wie Zahlen, Adressen und Datumsangaben.	Maximal 200 Zeilen
#rewrite	Eine Liste mit Änderungspaaren, um bestimmte Wörter zu ersetzen (beispielsweise, um sie großzuschreiben oder ihre Schreibweise zu korrigieren).	Maximal 1.000 Zeilen
#profanity	Eine Liste mit unerwünschten Wörtern, die in der Anzeigeausgabe und in der maskierten Ausgabe als `******` maskiert werden (zusätzlich zu den integrierten Listen mit anstößigen Wörtern von Microsoft).	Maximal 1.000 Zeilen
#test	Eine Liste mit Komponententestfällen, um zu überprüfen, ob die Anzeigeregeln wie erwartet funktionieren – einschließlich der lexikalischen Formateingabe und der erwarteten Anzeigeformatausgabe.	Maximale Dateigröße: 10 MB

Hier ist ein Beispiel für eine Anzeigeformatdatei:

// this is a comment line
// each section must start with a '#' character
#itn
// list of ITN pattern rules, one rule for each line
\d-\d-\d
\d-\l-\l-\d
#rewrite
// list of rewrite rules, each rule has two phrases, separated by a tab character
old phrase	new phrase
# profanity
// list of profanity phrases to be tagged/removed/masked, one line one phrase
fakeprofanity
#test
// list of test cases, each test case has two sentences, input lexical and expected display output
// the two sentences are separated by a tab character
// the expected sentence is the display output of DPP+CDPP models
Mask the fakeprofanity word	Mask the ************* word

Trainings- und Testdatasets

Datentypen

Berücksichtigen von Datasets nach Szenario

Audio- und Humantranskriptionsdaten für Training oder Tests

Nur-Text-Daten für das Training

Strukturierte Textdaten für das Training

Aussprachedaten für das Training

Audiodaten für Training oder Tests

Benutzerdefinierte Anzeigetextformatierungsdaten zu Trainingszwecken

Nächste Schritte

Zusätzliche Ressourcen