Erstellen eines Custom Speech-Projekts
Custom Speech-Projekte enthalten Modelle, Trainings- und Testdatasets sowie Bereitstellungsendpunkte. Jedes Projekt ist für ein Gebietsschema spezifisch. Sie können beispielsweise ein Projekt für das Englisch in den USA erstellen.
Erstellen eines Projekts
Befolgen Sie diese Schritte, um ein Custom Speech-Projekt zu erstellen:
Melden Sie sich in Speech Studio an.
Wählen Sie das Abonnement und die Speech-Ressource aus, mit denen Sie arbeiten möchten.
Wichtig
Wenn Sie ein benutzerdefiniertes Modell mit Audiodaten trainieren, wählen Sie eine Sprachressourcen-Region mit dedizierter Hardware für das Trainieren mit Audiodaten aus. Weitere Informationen finden Sie in den Fußnoten der Tabelle Regionen.
Klicken Sie auf Custom Speech>Neues Projekt erstellen.
Folgen Sie den Anweisungen des Assistenten, um Ihr Projekt zu erstellen.
Wählen Sie das neue Projekt nach Name aus, oder klicken Sie auf Zum Projekt wechseln. Im linken Bereich werden die folgenden Menüelemente angezeigt: Speech-Datasets, Benutzerdefinierte Modelle trainieren, Modelle testen und Modelle bereitstellen.
Verwenden Sie zum Erstellen eines Projekts den Befehl spx csr project create
. Erstellen Sie die Anforderungsparameter gemäß den folgenden Anweisungen:
- Legen Sie den erforderlichen
language
-Parameter fest. Das Gebietsschema des Projekts und die enthaltenen Datasets sollten übereinstimmen. Das Gebietsschema können Sie später nicht mehr ändern. Der Parameterlanguage
der Speech-Befehlszeilenschnittstelle entspricht derlocale
-Eigenschaft in der JSON-Anforderung und -Antwort. - Legen Sie den erforderlichen
name
-Parameter fest. Dieser Name wird in Speech Studio angezeigt. Der Parametername
der Speech-Befehlszeilenschnittstelle entspricht derdisplayName
-Eigenschaft in der JSON-Anforderung und -Antwort.
Hier ist ein beispielhafter Befehl der Speech-Befehlszeilenschnittstelle, der ein Projekt erstellt:
spx csr project create --api-version v3.2 --name "My Project" --description "My Project Description" --language "en-US"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
"links": {
"evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
"datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
"models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
"endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
"transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
},
"properties": {
"datasetCount": 0,
"evaluationCount": 0,
"modelCount": 0,
"transcriptionCount": 0,
"endpointCount": 0
},
"createdDateTime": "2024-07-14T17:15:55Z",
"locale": "en-US",
"displayName": "My Project",
"description": "My Project Description"
}
Die oberste self
-Eigenschaft im Antworttext ist der URI des Projekts. Verwenden Sie diesen URI, um Details zu den Auswertungen, Datasets, Modellen, Endpunkten und Transkriptionen des Projekts abzurufen. Sie verwenden diesen URI auch, um ein Projekt zu aktualisieren oder zu löschen.
Führen Sie den folgenden Befehl aus, um Hilfe für die Speech-Befehlszeilenschnittstelle bei Projekten zu erhalten:
spx help csr project
Verwenden Sie zum Erstellen eines Projekts den Projects_Create-Vorgang der Spracherkennungs-REST-API. Erstellen Sie den Anforderungstext gemäß den folgenden Anweisungen:
- Legen Sie die erforderliche
locale
-Eigenschaft fest. Dies sollte das Gebietsschema der enthaltenen Datasets sein. Das Gebietsschema können Sie später nicht mehr ändern. - Legen Sie die erforderliche
displayName
-Eigenschaft fest. Das ist der Projektname, der in Speech Studio angezeigt wird.
Erstellen Sie eine HTTP POST-Anforderung mithilfe des URI, wie im folgenden Beispiel mit Projects_Create gezeigt. Ersetzen Sie YourSubscriptionKey
durch Ihren Speech-Ressourcenschlüssel, ersetzen Sie YourServiceRegion
durch die Region der Speech-Ressource, und legen Sie die Anforderungstexteigenschaften wie zuvor beschrieben fest.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"displayName": "My Project",
"description": "My Project Description",
"locale": "en-US"
} ' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/projects"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
"links": {
"evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
"datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
"models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
"endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
"transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
},
"properties": {
"datasetCount": 0,
"evaluationCount": 0,
"modelCount": 0,
"transcriptionCount": 0,
"endpointCount": 0
},
"createdDateTime": "2024-07-14T17:15:55Z",
"locale": "en-US",
"displayName": "My Project",
"description": "My Project Description"
}
Die oberste self
-Eigenschaft im Antworttext ist der URI des Projekts. Verwenden Sie diesen URI, um Details zu den Auswertungen, Datasets, Modellen, Endpunkten und Transkriptionen des Projekts abzurufen. Sie verwenden diesen URI außerdem, um ein Projekt zu aktualisieren oder zu löschen.
Auswählen Ihres Modells
Für die Verwendung von Custom Speech-Modellen gibt es verschiedene Ansätze:
- Das Basismodell bietet eine genaue, vorkonfigurierte Spracherkennung für verschiedene Szenarien. Basismodelle werden regelmäßig aktualisiert, um Genauigkeit und Qualität zu verbessern. Es wird empfohlen, für Basismodelle die neuesten Standardbasismodelle zu verwenden. Wenn eine erforderliche Anpassungsfunktion nur mit einem älteren Modell verfügbar ist, können Sie ein älteres Basismodell auswählen.
- Ein benutzerdefiniertes Modell erweitert das Basismodell um das domänenspezifische Vokabular aller Fachgebiete der benutzerdefinierten Domäne.
- Mehrere benutzerdefinierte Modelle können verwendet werden, wenn die benutzerdefinierte Domäne mehrere Bereiche enthält, die jeweils einen bestimmten Fachwortschatz aufweisen.
Um herauszufinden, ob das Basismodell ausreicht, wird empfohlen, die Transkription zu analysieren, die aus dem Basismodell erzeugt wurde, und diese mit einem von Menschen generierten Transkript für dieselbe Audiodatei zu vergleichen. Sie können die Transkripts vergleichen und eine Bewertung der Wortfehlerrate (WER) erhalten. Wenn die WER-Bewertung hoch ist, wird das Trainieren eines benutzerdefinierten Modells zum Erkennen der falsch identifizierten Wörter empfohlen.
Mehrere Modelle werden empfohlen, wenn das Vokabular zwischen den Domänenbereichen variiert. Kommentator*innen der Olympischen Spiele berichten beispielsweise in ihrem jeweils eigenen Vokabular über verschiedene Ereignisse. Da jedes Vokabular der Olympischen Spiele sich erheblich von den anderen unterscheidet, erhöht sich die Genauigkeit beim Erstellen eines benutzerdefinierten, ereignisspezifischen Modells, wenn die Aussagedaten in Bezug auf dieses bestimmte Ereignis eingeschränkt werden. Das Modell muss dann keine zusammenhangslosen Daten durchsuchen, um eine Übereinstimmung zu finden. Unabhängig davon erfordert das Training weiterhin eine ausreichende Menge an Trainingsdaten. Schließen Sie Audioaufnahmen verschiedener Kommentator*innen ein, die unterschiedliche Akzente, Geschlechter, Alter usw. haben.
Modellstabilität und Lebenszyklus
Ein Basismodell oder benutzerdefiniertes Modell, das an einem Endpunkt mit Custom Speech bereitgestellt wird, bleibt unverändert, bis Sie es aktualisieren. Die Genauigkeit und Qualität der Spracherkennung bleiben konsistent, auch wenn ein neues Basismodell veröffentlicht wird. Dadurch können Sie das Verhalten eines bestimmten Modells sperren, bis Sie sich entscheiden, ein neueres Modell zu verwenden.
Unabhängig davon, ob Sie Ihr eigenes Modell trainieren oder eine Momentaufnahme eines Basismodells verwenden, können Sie das Modell für begrenzte Zeit verwenden. Weitere Informationen finden Sie unter Modell- und Endpunktlebenszyklus.