Erstellen einer Batch-Transkription
Mit Batchtranskriptionen übermitteln Sie Audiodaten in einem Batch. Der Dienst transkribiert die Audiodaten und speichert die Ergebnisse in einem Speichercontainer. Anschließend können Sie die Ergebnisse aus dem Speichercontainer abrufen.
Wichtig
Für die Batchtranskription mithilfe der Spracherkennungs-REST-API v3.2 gelten neue Preise. Weitere Informationen hierzu finden Sie in der Preisübersicht.
Voraussetzungen
Sie benötigen eine Standard-Sprachressource (S0). Kostenlose Ressourcen (F0) werden nicht unterstützt.
Erstellen eines Transkriptionsauftrags
Verwenden Sie zum Erstellen eines Batchtranskriptionsauftrags den Vorgang Transcriptions_Create der Spracherkennungs-REST-API. Erstellen Sie den Anforderungstext gemäß den folgenden Anweisungen:
- Legen Sie entweder die Option
contentContainerUrl
odercontentUrls
fest. Weitere Informationen zum Azure-Blobspeicher für die Batchtranskription finden Sie unter Suchen nach Audiodateien für die Batch-Transkription. - Legen Sie die erforderliche
locale
-Eigenschaft fest. Dieser Wert sollte mit dem erwarteten Gebietsschema der Audiodaten übereinstimmen, die Sie transkribieren möchten. Sie können das Gebietsschema später nicht ändern. - Legen Sie die erforderliche
displayName
-Eigenschaft fest. Wählen Sie einen Transkriptionsnamen aus, auf den Sie später verweisen können. Der Transkriptionsname muss nicht eindeutig sein und kann später noch geändert werden. - Wenn Sie ein anderes Modell als das Basismodell verwenden möchten, legen Sie die Eigenschaft
model
auf die Modell-ID fest. Weitere Informationen finden Sie unter Verwenden eines benutzerdefinierten Modells und Verwenden eines Whisper-Modells. - Legen Sie optional die Eigenschaft
wordLevelTimestampsEnabled
auftrue
fest, um Zeitstempel auf Wortebene in den Transkriptionsergebnissen zu aktivieren. Der Standardwert istfalse
. Legen Sie für Whisper-Modelle stattdessen diedisplayFormWordLevelTimestampsEnabled
-Eigenschaft fest. Das Whisper-Modell ist ein reines Anzeigemodell, weshalb das lexikalische Feld in der Transkription nicht ausgefüllt wird. - Legen Sie optional die
languageIdentification
-Eigenschaft fest. Bei der Sprachidentifikation werden anhand einer Liste unterstützter Sprachen die in der Audioquelle gesprochenen Sprachen identifiziert. Wenn Sie dielanguageIdentification
-Eigenschaft festlegen, müssen Sie auchlanguageIdentification.candidateLocales
mit Kandidatengebietsschemas festlegen.
Weitere Informationen finden Sie unter Anfordern von Konfigurationsoptionen.
Erstellen Sie, wie im folgenden Beispiel mit Transcriptions_Create gezeigt, eine HTTP POST-Anforderung mithilfe des URI.
- Ersetzen Sie
YourSubscriptionKey
durch Ihren Speech-Ressourcenschlüssel. - Ersetzen Sie
YourServiceRegion
durch Ihre Sprachressourcenregion. - Legen Sie die Eigenschaften des Anforderungstexts wie zuvor beschrieben fest.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"contentUrls": [
"https://crbn.us/hello.wav",
"https://crbn.us/whatstheweatherlike.wav"
],
"locale": "en-US",
"displayName": "My Transcription",
"model": null,
"properties": {
"wordLevelTimestampsEnabled": true,
"languageIdentification": {
"candidateLocales": [
"en-US", "de-DE", "es-ES"
],
}
},
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/db474955-ab85-4c6c-ba6e-3bfe63d041ba",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/db474955-ab85-4c6c-ba6e-3bfe63d041ba/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": true,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked",
"languageIdentification": {
"candidateLocales": [
"en-US",
"de-DE",
"es-ES"
]
}
},
"lastActionDateTime": "2024-05-21T14:18:06Z",
"status": "NotStarted",
"createdDateTime": "2024-05-21T14:18:06Z",
"locale": "en-US",
"displayName": "My Transcription"
}
Die oberste self
-Eigenschaft im Antworttext ist der URI der Transkription. Verwenden Sie diesen URI, um Details wie den URI der Transkriptions- und Transkriptionsberichtsdateien abzurufen. Mit diesem URI können Sie eine Transkription auch aktualisieren oder löschen.
Sie können den Status Ihrer Transkriptionen mit dem Vorgang Transcriptions_Get abfragen.
Rufen Sie Transcriptions_Delete regelmäßig aus dem Dienst auf, nachdem Sie die Ergebnisse abgerufen haben. Alternativ können Sie die timeToLive
-Eigenschaft so festlegen, dass schließlich eine Löschung der Ergebnisse sichergestellt ist.
Tipp
Sie können auch die Batchtranskriptions-API mit Python, C# oder Node.js auf GitHub ausprobieren.
Verwenden Sie den Befehl spx batch transcription create
, um eine Transkription zu erstellen. Erstellen Sie die Anforderungsparameter gemäß den folgenden Anweisungen:
- Legen Sie den erforderlichen
content
-Parameter fest. Sie können eine durch Kommas getrennte Liste der einzelnen Dateien oder die URL für einen ganzen Container angeben. Weitere Informationen zum Azure-Blobspeicher für die Batchtranskription finden Sie unter Suchen nach Audiodateien für die Batch-Transkription. - Legen Sie die erforderliche
language
-Eigenschaft fest. Dieser Wert sollte mit dem erwarteten Gebietsschema der Audiodaten übereinstimmen, die Sie transkribieren möchten. Sie können das Gebietsschema später nicht ändern. Der Parameterlanguage
der Speech-Befehlszeilenschnittstelle entspricht derlocale
-Eigenschaft in der JSON-Anforderung und -Antwort. - Legen Sie die erforderliche
name
-Eigenschaft fest. Wählen Sie einen Transkriptionsnamen aus, auf den Sie später verweisen können. Der Transkriptionsname muss nicht eindeutig sein und kann später noch geändert werden. Der Parametername
der Speech-Befehlszeilenschnittstelle entspricht derdisplayName
-Eigenschaft in der JSON-Anforderung und -Antwort.
Mit dem folgenden Speech-CLI-Befehl können Sie beispielsweise einen Transkriptionsauftrag erstellen:
spx batch transcription create --name "My Transcription" --language "en-US" --content https://crbn.us/hello.wav,https://crbn.us/whatstheweatherlike.wav
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/7f4232d5-9873-47a7-a6f7-4a3f00d00dc0",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
},
"links": {
"files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions/7f4232d5-9873-47a7-a6f7-4a3f00d00dc0/files"
},
"properties": {
"diarizationEnabled": false,
"wordLevelTimestampsEnabled": false,
"channels": [
0,
1
],
"punctuationMode": "DictatedAndAutomatic",
"profanityFilterMode": "Masked"
},
"lastActionDateTime": "2024-05-21T14:21:59Z",
"status": "NotStarted",
"createdDateTime": "2024-05-21T14:21:59Z",
"locale": "en-US",
"displayName": "My Transcription",
"description": ""
}
Die oberste self
-Eigenschaft im Antworttext ist der URI der Transkription. Verwenden Sie diesen URI, um Details wie den URI der Transkriptions- und Transkriptionsberichtsdateien abzurufen. Mit diesem URI können Sie eine Transkription auch aktualisieren oder löschen.
Führen Sie den folgenden Befehl aus, um die Hilfe der Speech-CLI zu Transkriptionen anzuzeigen:
spx help batch transcription
Konfigurationsoptionen für Anforderungen
Die finden Sie einige Eigenschaften zur Konfiguration einer Transkription, wenn Sie den Vorgang Transcriptions_Create aufrufen. Weitere Beispiele finden Sie auf derselben Seite, z. B. Erstellen einer Transkription mit Sprachidentifikation.
Eigenschaft | BESCHREIBUNG |
---|---|
channels |
Ein Array der zu verarbeitenden Kanalnummern. Die Kanäle 0 und 1 werden standardmäßig transkribiert. |
contentContainerUrl |
Sie können einzelne Audiodateien oder einen ganzen Speichercontainer übermitteln. Geben Sie den Speicherort der Audiodaten über die Eigenschaft contentContainerUrl oder contentUrls an. Weitere Informationen zum Azure-Blobspeicher für die Batchtranskription finden Sie unter Suchen nach Audiodateien für die Batch-Transkription.Diese Eigenschaft wird in der Antwort nicht zurückgegeben. |
contentUrls |
Sie können einzelne Audiodateien oder einen ganzen Speichercontainer übermitteln. Geben Sie den Speicherort der Audiodaten über die Eigenschaft contentContainerUrl oder contentUrls an. Weitere Informationen finden Sie unter Suchen nach Audiodateien für die Batch-Transkription.Diese Eigenschaft wird in der Antwort nicht zurückgegeben. |
destinationContainerUrl |
Das Ergebnis kann in einem Azure-Container gespeichert werden. Wenn Sie keinen Container angeben, speichert der Spracherkennungsdienst die Ergebnisse in einem von Microsoft verwalteten Container. Wird der Transkriptionsauftrag gelöscht, werden auch die Daten des Transkriptionsergebnisses gelöscht. Weitere Informationen wie die unterstützten Sicherheitsszenarien finden Sie unter Zielcontainer-URL. |
diarization |
Gibt an, dass der Sprachdienst eine Diarisierungsanalyse für die Eingabe ausführen soll, wobei erwartet wird, dass es sich um einen Monokanal handelt, der mehrere Stimmen enthält. Das Feature ist nicht für Stereoaufzeichnungen verfügbar. Diarisierung ist der Vorgang, bei dem Sprecher*innen in Audiodaten voneinander getrennt werden. Die Batchpipeline kann mehrere Sprecher*innen in Monokanalaufnahmen erkennen und trennen. Geben Sie die Mindest- und Höchstanzahl der möglichen Sprecher*innen an. Legen Sie zudem die Eigenschaft diarizationEnabled auf true fest. Die Transkriptionsdatei enthält einen speaker -Eintrag für jeden transkribierten Ausdruck.Diese Eigenschaft muss verwendet werden, wenn Sie mindestens drei Sprecher erwarten. Bei zwei Sprechern reicht es aus, die Eigenschaft diarizationEnabled auf true festzulegen. Ein Beispiel für die Eigenschaftsnutzung finden Sie unter Transcriptions_Create.Die maximale Anzahl von Sprechern für Diarisierung muss kleiner als 36 und größer als oder gleich der Eigenschaft minSpeakers sein. Ein Beispiel finden Sie unter Transcriptions_Create.Bei Verwendung dieser Eigenschaft darf das Quellaudio pro Datei maximal 240 Minuten lang sein. Hinweis: Diese Eigenschaft ist erst ab Version 3.1 der Spracherkennungs-REST-API verfügbar. Wenn Sie diese Eigenschaft mit einer früheren Version, z. B. Version 3.0, festlegen, wird sie ignoriert, und nur zwei Sprecher werden identifiziert. |
diarizationEnabled |
Gibt an, dass der Sprachdienst eine Diarisierungsanalyse für die Eingabe ausführen soll. Hierbei wird erwartet, dass es sich um einen Monokanal handelt, der zwei Stimmen enthält. Der Standardwert ist false .Für drei oder mehr Stimmen müssen Sie auch die Eigenschaft diarization verwenden. Wird nur mit Spracherkennung für REST-API, Version 3.1 und höher, verwendet.Bei Verwendung dieser Eigenschaft darf das Quellaudio pro Datei maximal 240 Minuten lang sein. |
displayName |
Der Name der Batchtranskription. Wählen Sie einen Namen, auf den Sie später verweisen können. Der Anzeigename muss nicht eindeutig sein. Diese Eigenschaft ist obligatorisch. |
displayFormWordLevelTimestampsEnabled |
Gibt an, ob Zeitstempel auf Wortebene in die Anzeige der Transkriptionsergebnisse eingeschlossen werden sollen. Die Ergebnisse werden in der displayWords -Eigenschaft der Transkriptionsdatei zurückgegeben. Der Standardwert ist false .Hinweis: Diese Eigenschaft ist erst ab Version 3.1 der Spracherkennungs-REST-API verfügbar. |
languageIdentification |
Bei der Sprachidentifikation werden anhand einer Liste unterstützter Sprachen die in der Audioquelle gesprochenen Sprachen identifiziert. Wenn Sie die languageIdentification -Eigenschaft festlegen, müssen Sie auch die eingeschlossene candidateLocales -Eigenschaft festlegen. |
languageIdentification.candidateLocales |
Die Kandidatengebietsschemata für die Sprachidentifikation, z. B. "properties": { "languageIdentification": { "candidateLocales": ["en-US", "de-DE", "es-ES"]}} . Es werden mindestens zwei und maximal zehn Kandidatengebietsschemata unterstützt, einschließlich des Hauptgebietsschemas für die Transkription. |
locale |
Das Gebietsschema der Batchtranskription. Dieser Wert sollte mit dem erwarteten Gebietsschema der Audiodaten übereinstimmen, die Sie transkribieren möchten. Das Gebietsschema können Sie später nicht mehr ändern. Diese Eigenschaft ist obligatorisch. |
model |
Sie können die Eigenschaft model festlegen, um ein bestimmtes Basismodell oder ein Custom Speech-Modell zu verwenden. Wenn Sie das model nicht angeben, wird das Standardbasismodell für das Gebietsschema verwendet. Weitere Informationen finden Sie unter Verwenden eines benutzerdefinierten Modells und Verwenden eines Whisper-Modells. |
profanityFilterMode |
Gibt den Umgang mit Obszönitäten in Erkennungsergebnissen an. Zulässige Werte sind: None (deaktiviert den Obszönitätenfilter), Masked (Obszönitäten werden durch Sternchen ersetzt), Removed (Obszönitäten werden aus dem Ergebnis entfernt) und Tags (fügt Tags für Obszönitäten ein). Standardwert: Masked . |
punctuationMode |
Gibt den Umgang mit Satzzeichen in Erkennungsergebnissen an. Zulässige Werte sind: None (deaktiviert die Interpunktion), Dictated (impliziert explizite (gesprochene) Interpunktion), Automatic (überlässt dem Decoder die Interpunktion) oder DictatedAndAutomatic (verwendet diktierte und automatische Interpunktion). Der Standardwert ist DictatedAndAutomatic .Diese Eigenschaft ist nicht auf Whisper-Modelle anwendbar. |
timeToLive |
Es wird eine Dauer für das automatische Löschen der Transkriptionsergebnisse nach dem Transkriptionsauftrag erstellt. Der Wert ist eine gemäß ISO 8601 codierte Dauer. Geben Sie z. B. PT12H für 12 Stunden an. Alternativ können Sie regelmäßig den Vorgang Transcriptions_Delete aufrufen, nachdem Sie die Transkriptionsergebnisse abgerufen haben. |
wordLevelTimestampsEnabled |
Gibt an, ob die Ausgabe Zeitstempel auf Wortebene enthalten soll. Der Standardwert ist false .Diese Eigenschaft ist nicht auf Whisper-Modelle anwendbar. Das Whisper-Modell ist ein reines Anzeigemodell, weshalb das lexikalische Feld in der Transkription nicht ausgefüllt wird. |
Führen Sie den folgenden Befehl aus, um die Hilfe der Speech-CLI zu Konfigurationsoptionen für Transkriptionen anzuzeigen:
spx help batch transcription create advanced
Verwenden eines benutzerdefinierten Modells
Für die Batchtranskription wird das Standardbasismodell für das von Ihnen angegebene Gebietsschema verwendet. Wenn Sie das Standardbasismodell nutzen möchten, müssen Sie keine Eigenschaften festlegen.
Optional können Sie das vorherige Beispiel für die Transkriptionserstellung ändern, indem Sie die Eigenschaft model
so festlegen, dass ein bestimmtes Basismodell oder ein Custom Speech-Modell verwendet wird.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"contentUrls": [
"https://crbn.us/hello.wav",
"https://crbn.us/whatstheweatherlike.wav"
],
"locale": "en-US",
"displayName": "My Transcription",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
},
"properties": {
"wordLevelTimestampsEnabled": true,
},
}' "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions"
spx batch transcription create --name "My Transcription" --language "en-US" --content https://crbn.us/hello.wav,https://crbn.us/whatstheweatherlike.wav --model "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/5988d691-0893-472c-851e-8e36a0fe7aaf"
Wenn Sie für die Batchtranskription ein Custom Speech-Modell nutzen möchten, benötigen Sie den URI des Modells. Die oberste self
-Eigenschaft im Antworttext ist der URI des Modells. Der Modellspeicherort lässt sich beim Erstellen oder Abrufen eines Modells ermitteln. Weitere Informationen finden Sie im JSON-Antwortbeispiel in Modell erstellen.
Tipp
Ein gehosteter Bereitstellungsendpunkt ist nicht erforderlich, um Custom Speech mit dem Batch-Transkriptionsdienst zu verwenden. Sie können Ressourcen sparen, wenn Sie das Custom Speech-Modell nur für die Batchtranskription verwenden.
Batch-Transkriptionsanforderungen für abgelaufene Modelle führen zu einem 4xx-Fehler. Legen Sie die model
-Eigenschaft auf ein Basismodell oder ein benutzerdefiniertes Modell fest, das nicht abgelaufen ist. Schließen Sie andernfalls die model
-Eigenschaft nicht ein, dann wird immer das neueste Basismodell verwendet. Weitere Informationen finden Sie unter Auswählen eines Modells und Lebenszyklus eines Custom Speech-Modells.
Verwenden eines Whisper-Modells
Azure KI Speech unterstützt das Whisper-Modell von OpenAI über die Batchtranskriptions-API. Sie können das Whisper-Modell für die Batchtranskription verwenden.
Hinweis
Azure OpenAI Service unterstützt mit einer synchronen REST-API ebenfalls das OpenAI-Whisper-Modell für die Spracherkennung. Weitere Informationen finden Sie unter Spracherkennung mit dem Azure OpenAI Whisper-Modell. Weitere Informationen zur Verwendung von Azure KI Speech vs. Azure OpenAI Service, finden Sie in Was ist das Whisper-Modell?
Um ein Whisper-Modell für die Batchtranskription zu verwenden, müssen Sie die model
-Eigenschaft festlegen. Das Whisper-Modell ist ein reines Anzeigemodell, weshalb das lexikalische Feld in der Antwort nicht ausgefüllt wird.
Wichtig
Sie sollten immer die Version 3.2 der Spracherkennungs-API für Whisper-Modelle verwenden.
Die Batchtranskription mit Whisper-Modellen wird in den folgenden Regionen unterstützt: „Asien, Südosten“, „Australien, Osten“, „Europa, Westen“ „USA, Mitte“, „USA, Norden-Mitte“, „USA, Osten“ und „USA, Süden-Mitte“.
Sie können eine Models_ListBaseModels-Anforderung erstellen, um verfügbare Basismodelle für alle Gebietsschemas abzurufen.
Führen Sie eine HTTP GET-Anforderung aus, wie im folgenden Beispiel für die Region eastus
gezeigt. Ersetzen Sie YourSubscriptionKey
durch Ihren Speech-Ressourcenschlüssel. Ersetzen Sie eastus
, wenn Sie eine andere Region verwenden.
curl -v -X GET "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"
Standardmäßig werden nur die 100 ältesten Basismodelle zurückgegeben. Verwenden Sie die skip
- und top
-Abfrageparameter, um die Ergebnisse zu durchlaufen. Die folgende Anforderung gibt beispielsweise die nächsten 100 Basismodelle nach den ersten 100 zurück.
curl -v -X GET "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base?skip=100&top=100" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"
Stellen Sie sicher, dass Sie die Konfigurationsvariablen für eine Speech-Ressource in einer der unterstützten Regionen festlegen. Sie können den Befehl spx csr list --base
ausführen, um verfügbare Basismodelle für alle Gebietsschemas abzurufen.
spx csr list --base --api-version v3.2
Die displayName
-Eigenschaft eines Whisper-Modells enthält den Wert „Whisper“, wie in diesem Beispiel gezeigt. Das Whisper-Modell ist ein reines Anzeigemodell, weshalb das lexikalische Feld in der Transkription nicht ausgefüllt wird.
{
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/e418c4a9-9937-4db7-b2c9-8afbff72d950",
"links": {
"manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/e418c4a9-9937-4db7-b2c9-8afbff72d950/manifest"
},
"properties": {
"deprecationDates": {
"adaptationDateTime": "2025-04-15T00:00:00Z",
"transcriptionDateTime": "2026-04-15T00:00:00Z"
},
"features": {
"supportsTranscriptions": true,
"supportsEndpoints": false,
"supportsTranscriptionsOnSpeechContainers": false,
"supportsAdaptationsWith": [
"Acoustic"
],
"supportedOutputFormats": [
"Display"
]
},
"chargeForAdaptation": true
},
"lastActionDateTime": "2024-02-29T15:53:28Z",
"status": "Succeeded",
"createdDateTime": "2024-02-29T15:46:07Z",
"locale": "en-US",
"displayName": "20240228 Whisper Large V2",
"description": "OpenAI Whisper Model in Azure AI Speech (Whisper v2-large)"
},
Sie legen den vollständigen Modell-URI fest, wie in diesem Beispiel für die Region eastus
gezeigt. Ersetzen Sie YourSubscriptionKey
durch Ihren Speech-Ressourcenschlüssel. Ersetzen Sie eastus
, wenn Sie eine andere Region verwenden.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
"contentUrls": [
"https://crbn.us/hello.wav",
"https://crbn.us/whatstheweatherlike.wav"
],
"locale": "en-US",
"displayName": "My Transcription",
"model": {
"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/e418c4a9-9937-4db7-b2c9-8afbff72d950"
},
"properties": {
"wordLevelTimestampsEnabled": true,
},
}' "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/transcriptions"
Sie legen den vollständigen Modell-URI fest, wie in diesem Beispiel für die Region eastus
gezeigt. Ersetzen Sie eastus
, wenn Sie eine andere Region verwenden.
spx batch transcription create --name "My Transcription" --language "en-US" --content https://crbn.us/hello.wav,https://crbn.us/whatstheweatherlike.wav --model "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/models/base/e418c4a9-9937-4db7-b2c9-8afbff72d950" --api-version v3.2
Angeben einer Zielcontainer-URL
Das Transkriptionsergebnis kann in einem Azure-Container gespeichert werden. Wenn Sie keinen Container angeben, speichert der Spracherkennungsdienst die Ergebnisse in einem von Microsoft verwalteten Container. Wird der Transkriptionsauftrag gelöscht, werden in diesem Fall auch die Daten des Transkriptionsergebnisses gelöscht.
Sie können die Ergebnisse einer Batchtranskription in einen schreibbaren Azure Blob Storage-Container speichern, indem Sie die Option destinationContainerUrl
in der Anforderung zur Erstellung einer Batchtranskription verwenden. Diese Option verwendet nur einen Ad-hoc-SAS-URI und unterstützt keinen Sicherheitsmechanismus für vertrauenswürdige Azure-Dienste. Diese Option unterstützt auch keine zugriffsrichtlinienbasierte SAS-Authentifizierung. Die Speicherkontoressource des Zielcontainers muss den gesamten externen Datenverkehr zulassen.
Wenn Sie die Transkription in einem Azure Blob Storage-Container speichern möchten, indem Sie den Sicherheitsmechanismus für vertrauenswürdige Azure-Dienste verwenden, sollten Sie Bring-your-own-Storage (BYOS) verwenden. Weitere Informationen finden Sie unter Verwenden der BYOS-Sprachressource für Spracherkennung.