Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Hinweis
Dieses Feature ist zurzeit als öffentliche Preview verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
In diesem Artikel erfahren Sie, wie Sie die Videoübersetzung mit Azure AI Speech im Azure AI Foundry-Portal verwenden.
Tipp
Testen Sie die Videoübersetzung im Azure AI Foundry-Portal , bevor Sie die API verwenden. Verwenden Sie die REST-API für die Videoübersetzung , um die Videoübersetzung in Ihre Anwendungen zu integrieren. Weitere Informationen zur API finden Sie unter REST-API für Videoübersetzungen.
Voraussetzungen
- Ein Azure-Abonnement. Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.
- eine AI Foundry-Ressource für Sprache in einer unterstützten Region. Wenn Sie über keine Sprachressource verfügen, erstellen Sie eine im Azure-Portal.
- Ein Azure Blob Storage-Konto.
- Sie benötigen eine Videodatei im .mp4 Format, weniger als 5 GB und kürzer als 4 Stunden. Für Testzwecke können Sie das von Microsoft bereitgestellte Beispielvideo unter https://ai.azure.com/speechassetscache/ttsvoice/VideoTranslation/PublicDoc/SampleData/es-ES-TryOutOriginal.mp4 verwenden.
- Stellen Sie sicher, dass die Videoübersetzung Ihre Quell- und Zielsprache unterstützt.
Testen der Videoübersetzung
Führen Sie die folgenden Schritte aus, um die Videoübersetzungsdemo auszuprobieren:
Wechseln Sie zum Modellkatalog im Azure AI Foundry-Portal.
Geben Sie "Azure-AI-Speech" in das Katalogsuchfeld ein und suchen Sie danach.
Wählen Sie Azure-AI-Speech aus, und Sie gelangen zur Seite "Azure-AI-Speech testen".
Wählen Sie Sprachfähigkeiten nach Szenario>Videoübersetzung aus.
Wählen Sie unter der Option "Beispiel" auf der rechten Seite persönliche oder Standardstimme aus.
Wählen Sie die Schaltfläche " Wiedergeben " aus, um die übersetzte Audiowiedergabe zu hören. Wählen Sie die ursprüngliche Videoregisterkarte aus, um das Originalaudio wiederzugeben.
Die Sprachtypoptionen sind:
- Standardstimme: Der Dienst wählt automatisch die am besten geeignete Standardstimme aus, indem er die Stimme des Sprechers im Video mit Standardstimme abgleicht.
- Persönliche Stimme: Verwenden Sie die persönliche Stimme, die der Stimme der Lautsprecher im Video entspricht.
Hinweis
Um persönliche VoIP über die API zu verwenden, müssen Sie sich für den Zugriff bewerben.
Erstellen eines Videoübersetzungsprojekts
Führen Sie die folgenden Schritte aus, um ein Videoübersetzungsprojekt zu erstellen:
Wechseln Sie zum Modellkatalog im Azure AI Foundry-Portal.
Geben Sie "Azure-AI-Speech" in das Katalogsuchfeld ein und suchen Sie danach.
Wählen Sie Azure-AI-Speech aus, und Sie gelangen zur Seite "Azure-AI-Speech testen".
Wählen Sie Sprachfähigkeiten nach Szenario>Videoübersetzung aus.
Wählen Sie "Gehe zum Spracherkennungs-Playground" aus.
Wählen Sie "Meine Videos>hochladen" aus.
Wählen Sie auf der Seite "Video hochladen" einen Sprachtyp aus.
Die Sprachtypoptionen sind:
- Standardstimme: Der Dienst wählt automatisch die am besten geeignete Standardstimme aus, indem er die Stimme des Sprechers im Video mit Standardstimme abgleicht.
- Persönliche Stimme: Verwenden Sie die persönliche Stimme, die der Stimme der Lautsprecher im Video entspricht.
Hinweis
Um die persönliche Stimme zu nutzen, müssen Sie Zugriff beantragen.
Laden Sie Ihre Videodatei hoch, indem Sie diese ziehen und ablegen oder manuell auswählen. Das Video muss .mp4 Format, weniger als 5 GB und kürzer als 4 Stunden sein.
Geben Sie die Werte für Anzahl der Sprecher, Sprache des Videos und Übersetzen in Sprache an.
Wählen Sie die Felder aus, um die Preisinformationen und verhaltensregeln zu bestätigen.
Wählen Sie "Weiter" aus: Erweiterte Einstellungen , wenn Sie die erweiterten Einstellungen anpassen möchten.
Optional können Sie die folgenden Einstellungen anpassen:
- Lexicon-Datei: Mit dieser Option können Sie benutzerdefinierte Wörter oder Ausdrücke hinzufügen, die vom System richtig erkannt und wiedergegeben werden sollen. Sie können eine Lexicondatei im Audioinhaltserstellungstool im Speech Studio erstellen und hier auswählen.
- Untertitel brennen: Mit dieser Option können Sie dem Video Untertitel hinzufügen. Die Untertiteldatei kann im WebVTT- oder JSON-Format vorliegen. Sie können eine WebVTT-Beispieldatei für Ihre Referenz herunterladen, indem Sie die Beispiel-VTT-Datei herunterladen.
Wenn Sie Ihre eigenen Untertiteldateien verwenden möchten, wählen Sie "Untertitel>hochladen" aus. Sie können entweder die Quelluntertiteldatei oder die Zieluntertiteldatei hochladen.
- Automatische Untertitel: Führt sowohl zu Quell- als auch Zielsprachuntertiteln.
- Hochladen von Untertiteln der Quellsprache: Ergebnisse sowohl für Quell- als auch für Zielsprachuntertitel.
- Untertitel der Zielsprache hochladen: Führt nur zu Zielsprachuntertiteln.
Klicken Sie auf Erstellen.
Sobald der Upload in Azure Blob Storage abgeschlossen ist, können Sie den Verarbeitungsstatus auf der Registerkarte "Projekt" überprüfen.
Nachdem das Projekt erstellt wurde, können Sie das Projekt auswählen, um detaillierte Einstellungen zu überprüfen und Anpassungen entsprechend Ihren Wünschen vorzunehmen.
Überprüfen und Anpassen von Stimmeinstellungen
Wählen Sie "Meine Videos" aus, und Es sollte ein Video mit dem Status "Erfolgreich " angezeigt werden.
Wählen Sie das Video aus, um die Registerkarten "Übersetzt " und " Original " unter "Video" anzuzeigen. Sie können die ursprünglichen und übersetzten Videos vergleichen, indem Sie die entsprechende Registerkarte auswählen. Das übersetzte Video wird automatisch generiert, und Sie können es wiedergeben, um die Übersetzungsqualität zu überprüfen.
Rechts neben dem Video können Sie sowohl das ursprüngliche Skript als auch das übersetzte Skript anzeigen. Wenn Sie auf die einzelnen Teile des ursprünglichen Skripts zeigen, springt das Video automatisch zum entsprechenden Segment des ursprünglichen Videos, während beim Draufzeigen auf die einzelnen Teile des übersetzten Skripts das Video zum entsprechenden übersetzten Segment springt.
Sie können mehrere Änderungen am Video vornehmen, z. B. die Spracheinstellungen anpassen, Segmente hinzufügen oder entfernen und den Zeitrahmen der Skripts ändern. Sie werden erst belastet, nachdem Sie " Änderungen anwenden " ausgewählt haben, um Ihre Änderungen anzuwenden. Sie können " Speichern" auswählen, um arbeit in Bearbeitung zu speichern, ohne dass Gebühren anfallen.
Wenn Sie auf Segmente mit einem „nicht identifizierten“ Stimmnamen stoßen, könnte dies daran liegen, dass das System die Stimme nicht genau erkennen konnte, insbesondere in Situationen, in denen sich die Sprecherstimmen überschneiden. In solchen Fällen ist es ratsam, den Stimmnamen manuell zu ändern.
In eine andere Sprache übersetzen
Sie können das aktuelle Übersetzungsprojekt beibehalten und das ursprüngliche Video in eine andere Sprache übersetzen.
- Wählen Sie "Meine Videos" und dann die Kachel für Ihre Videoübersetzung aus.
- Wählen Sie +Neue Sprache aus.
- Wählen Sie auf der angezeigten neuen Seite "In neue Sprache übersetzen " eine neue Übersetzungssprache und einen neuen Sprachtyp aus. Sobald das Video übersetzt wurde, wird automatisch ein neues Projekt erstellt.
Zugehöriger Inhalt
In diesem Artikel erfahren Sie, wie Sie die Videoübersetzung mit Azure AI Speech im Speech Studio verwenden.
Voraussetzungen
- Ein Azure-Abonnement. Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.
- Eine Sprachressource in einer unterstützten Region. Wenn Sie über keine Sprachressource verfügen, erstellen Sie eine im Azure-Portal.
- Ein Azure Blob Storage-Konto.
- Sie benötigen eine Videodatei im .mp4 Format, weniger als 5 GB und kürzer als 4 Stunden. Für Testzwecke können Sie das von Microsoft bereitgestellte Beispielvideo unter https://ai.azure.com/speechassetscache/ttsvoice/VideoTranslation/PublicDoc/SampleData/es-ES-TryOutOriginal.mp4 verwenden.
- Stellen Sie sicher, dass die Videoübersetzung Ihre Quell- und Zielsprache unterstützt.
Erstellen eines Videoübersetzungsprojekts
Führen Sie die folgenden Schritte aus, um ein Videoübersetzungsprojekt zu erstellen:
Melden Sie sich in Speech Studio an.
Wählen Sie das Abonnement und die Speech-Ressource aus, mit denen Sie arbeiten möchten.
Wählen Sie Videoübersetzung aus.
Wählen Sie auf der Seite Projekte erstellen und verwalten die Option Projekt erstellen aus.
Wählen Sie auf der Seite "Neues Projekt" einen Stimmtyp aus.
Die Sprachtypoptionen sind:
- Standardstimme: Der Dienst wählt automatisch die am besten geeignete Standardstimme aus, indem er die Stimme des Sprechers im Video mit Standardstimme abgleicht.
- Persönliche Stimme: Verwenden Sie die persönliche Stimme, die der Stimme der Lautsprecher im Video entspricht.
Hinweis
Um die persönliche Stimme zu nutzen, müssen Sie Zugriff beantragen.
Laden Sie Ihre Videodatei hoch, indem Sie diese ziehen und ablegen oder manuell auswählen. Das Video muss .mp4 Format, weniger als 5 GB und kürzer als 4 Stunden sein.
Geben Sie den Projektnamen, die Anzahl der Lautsprecher, die Sprache des Videos und "In Sprache übersetzen" an.
Wählen Sie die Felder aus, um die Preisinformationen und verhaltensregeln zu bestätigen.
Wählen Sie "Weiter" aus: Erweiterte Einstellungen , wenn Sie die erweiterten Einstellungen anpassen möchten.
Optional können Sie die folgenden Einstellungen anpassen:
- Lexicon-Datei: Mit dieser Option können Sie benutzerdefinierte Wörter oder Ausdrücke hinzufügen, die vom System richtig erkannt und wiedergegeben werden sollen. Sie können eine Lexicondatei im Audioinhaltserstellungstool im Speech Studio erstellen und hier auswählen.
- Untertitel brennen: Mit dieser Option können Sie dem Video Untertitel hinzufügen. Die Untertiteldatei kann im WebVTT- oder JSON-Format vorliegen. Sie können eine WebVTT-Beispieldatei für Ihre Referenz herunterladen, indem Sie die Beispiel-VTT-Datei herunterladen.
Wenn Sie Ihre eigenen Untertiteldateien verwenden möchten, wählen Sie "Untertitel>hochladen" aus. Sie können entweder die Quelluntertiteldatei oder die Zieluntertiteldatei hochladen.
- Automatische Untertitel: Führt sowohl zu Quell- als auch Zielsprachuntertiteln.
- Hochladen von Untertiteln der Quellsprache: Ergebnisse sowohl für Quell- als auch für Zielsprachuntertitel.
- Untertitel der Zielsprache hochladen: Führt nur zu Zielsprachuntertiteln.
Klicken Sie auf Erstellen.
Sobald der Upload in Azure Blob Storage abgeschlossen ist, können Sie den Verarbeitungsstatus auf der Registerkarte "Projekt" überprüfen.
Nachdem das Projekt erstellt wurde, können Sie das Projekt auswählen, um detaillierte Einstellungen zu überprüfen und Anpassungen entsprechend Ihren Wünschen vorzunehmen.
Überprüfen und Anpassen von Stimmeinstellungen
Auf der Projektdetailseite können Sie die Registerkarten "Übersetzt " und " Original " unter "Video" sehen. Sie können die ursprünglichen und übersetzten Videos vergleichen, indem Sie die entsprechende Registerkarte auswählen. Das übersetzte Video wird automatisch generiert, und Sie können es wiedergeben, um die Übersetzungsqualität zu überprüfen.
Rechts neben dem Video können Sie sowohl das ursprüngliche Skript als auch das übersetzte Skript anzeigen. Wenn Sie auf die einzelnen Teile des ursprünglichen Skripts zeigen, springt das Video automatisch zum entsprechenden Segment des ursprünglichen Videos, während beim Draufzeigen auf die einzelnen Teile des übersetzten Skripts das Video zum entsprechenden übersetzten Segment springt.
Sie können bei Bedarf auch Segmente hinzufügen oder entfernen. Wenn Sie ein Segment hinzufügen möchten, stellen Sie sicher, dass der neue Segmentzeitstempel nicht mit dem vorherigen und nächsten Segment überlappt, und die Endzeit des Segments sollte größer sein als die Startzeit. Das richtige Format des Zeitstempels wäre hh:mm:ss.ms
. Andernfalls können Sie die Änderungen nicht anwenden.
Sie können den Zeitrahmen der Skripts direkt mithilfe der Audiowellenform unterhalb des Videos anpassen. Die Anpassungen werden angewendet, nachdem Sie "Änderungen übernehmen" ausgewählt haben.
Wenn Sie auf Segmente mit einem „nicht identifizierten“ Stimmnamen stoßen, könnte dies daran liegen, dass das System die Stimme nicht genau erkennen konnte, insbesondere in Situationen, in denen sich die Sprecherstimmen überschneiden. In solchen Fällen ist es ratsam, den Stimmnamen manuell zu ändern.
Wenn Sie die Stimme anpassen möchten, wählen Sie Stimmeinstellungen aus, um einige Änderungen vorzunehmen. Auf der Seite Stimmeinstellungen können Sie den Stimmtyp, das Geschlecht und die Stimme anpassen. Wählen Sie das Stimmbeispiel rechts neben Stimme aus, um Ihre Stimmauswahl zu treffen. Wenn Sie feststellen, dass keine Stimme vorhanden ist, können Sie den neuen Sprachnamen hinzufügen, indem Sie "Lautsprecher hinzufügen" auswählen. Nachdem Sie die Einstellungen geändert haben, wählen Sie Aktualisieren aus.
Sie können mehrere Änderungen am Video vornehmen, z. B. die Spracheinstellungen anpassen, Segmente hinzufügen oder entfernen und den Zeitrahmen der Skripts ändern. Sie werden erst belastet, nachdem Sie " Änderungen anwenden " ausgewählt haben, um Ihre Änderungen anzuwenden. Sie können " Speichern" auswählen, um arbeit in Bearbeitung zu speichern, ohne dass Gebühren anfallen.
In eine andere Sprache übersetzen
Sie können das aktuelle Übersetzungsprojekt beibehalten und das ursprüngliche Video in eine andere Sprache übersetzen.
- Öffnen Sie Ihr Projekt.
- Wählen Sie +Neue Sprache aus.
- Wählen Sie auf der angezeigten neuen Seite "Übersetzen " eine neue übersetzte Sprache und einen Neuen Sprachtyp aus. Sobald das Video übersetzt wurde, wird automatisch ein neues Projekt erstellt.
Zugehöriger Inhalt
Die REST-API für die Videoübersetzung erleichtert die nahtlose Integration von Videoübersetzungen in Ihre Anwendungen. Sie unterstützt das Hochladen, Verwalten und Verfeinern von Videoübersetzungen mit mehreren Iterationen für die ständige Verbesserung. In diesem Artikel erfahren Sie, wie Sie die Videoübersetzung mithilfe der REST-API nutzen.
Voraussetzungen
- Ein Azure-Abonnement. Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.
- eine AI Foundry-Ressource für Sprache in einer unterstützten Region. Wenn Sie über keine Sprachressource verfügen, erstellen Sie eine im Azure-Portal.
- Ein Azure Blob Storage-Konto.
- Sie benötigen eine Videodatei im .mp4 Format, weniger als 5 GB und kürzer als 4 Stunden. Für Testzwecke können Sie das von Microsoft bereitgestellte Beispielvideo unter https://ai.azure.com/speechassetscache/ttsvoice/VideoTranslation/PublicDoc/SampleData/es-ES-TryOutOriginal.mp4 verwenden.
- Stellen Sie sicher, dass die Videoübersetzung Ihre Quell- und Zielsprache unterstützt.
Tipp
Bevor Sie beginnen, sehen Sie sich die Übersicht über die Videoübersetzung an, um den End-to-End-Prozess der Videoübersetzung zu verstehen.
Arbeitsablauf
Hier sind die Schritte zum Abrufen eines übersetzten Videos mithilfe der REST-API:
- Erstellen Sie ein Übersetzungsobjekt. Überprüfen Sie den Status des Vorgangs in regelmäßigen Abständen, bis
Succeeded
oderFailed
erreicht wird. - Erstellen Sie eine Iteration , um den Übersetzungsprozess zu starten. Überprüfen Sie den Status der Iteration in regelmäßigen Abständen, bis
Succeeded
oderFailed
erreicht wird. - Laden Sie das übersetzte Video und die Untertitel herunter.
- Erstellen Sie optional zusätzliche Iterationen, um die Übersetzungsqualität zu verbessern.
Schritt 1: Erstellen einer Übersetzung
Wichtig
Durch das Erstellen einer Übersetzung, wie in diesem Abschnitt beschrieben, wird der Übersetzungsprozess nicht initiiert. Sie können mit der Übersetzung des Videos beginnen, indem Sie eine Iteration erstellen. Übersetzungen und Iterationen, die über die REST-API erstellt wurden, werden nicht mit dem Portal synchronisiert und umgekehrt.
Zum Erstellen einer Videoübersetzung müssen Sie einen HTTP PUT-Anforderungspfad und -Text gemäß den folgenden Anweisungen erstellen:
Geben Sie
displayName
an: Anzeigename der Übersetzung Dies ist ein benutzerfreundlicher Name, mit dem Sie die Übersetzung identifizieren können.Geben Sie folgendes an
description
: Eine kurze Beschreibung der Übersetzung. Dies ist optional, kann aber für Dokumentationszwecke hilfreich sein.Geben Sie folgendes
sourceLocale
an: Die Sprache des ursprünglichen Videos. Dies ist die Sprache, die in der Videodatei gesprochen wird.Geben Sie folgendes
targetLocale
an: Die Sprache, in die Sie das Video übersetzen möchten. Dies ist die Zielsprache für die Übersetzung.Geben Sie folgendes an
voiceKind
: Der Sprachtyp, den Sie für die Übersetzung verwenden möchten. Sie können zwischenPlatformVoice
undPersonalVoice
wählen. FürPlatformVoice
, wählt das System automatisch die am besten geeignete Standardstimme aus, indem es die Stimme des Sprechers im Video mit Standardstimmen abgleicht. FürPersonalVoice
bietet das System ein Modell, das in wenigen Sekunden eine qualitativ hochwertige Stimmreplikation generiert.Hinweis
Um die persönliche Stimme zu nutzen, müssen Sie Zugriff beantragen.
Geben Sie an
speakerCount
: Die Anzahl der Lautsprecher im Video. Dies ist ein optionaler Parameter, und Sie können ihn auf 1 festlegen, wenn Sie nicht sicher sind.Angeben
subtitleMaxCharCountPerSegment
: Die maximale Anzahl zulässiger Zeichen pro Untertitelsegment. Dies ist ein optionaler Parameter, und Sie können ihn auf 30 festlegen, wenn Sie nicht sicher sind.Angeben
exportSubtitleInVideo
: Ein boolescher Wert, der angibt, ob Untertitel im Video exportiert werden sollen. Dies ist ein optionaler Parameter, und Sie können ihntrue
festlegen, wenn Sie Untertitel in das Video einschließen möchten.Geben Sie die
videoFileUrl
URL der Videodatei an, die Sie übersetzen möchten. Das Video muss .mp4 Format, weniger als 5 GB und kürzer als 4 Stunden sein. Sie können das Video in Azure Blob Storage hochladen und die BLOB-URL verwenden. Für Testzwecke können Sie das von Microsoft bereitgestellte Beispielvideo unter https://ai.azure.com/speechassetscache/ttsvoice/VideoTranslation/PublicDoc/SampleData/es-ES-TryOutOriginal.mp4 verwenden.
Für Authentifizierung und Autorisierung müssen Sie die folgenden Header und Pfad-IDs in Ihre Anforderung einschließen:
- Legen Sie den
Operation-Id
Header fest: DerOperation-Id
muss für jeden Vorgang eindeutig sein, z. B. für die Generierung jeder Iteration. Ersetzen SieYour-Operation-Id
durch eine eindeutige ID für diesen Vorgang. - Ersetzen Sie
Your-Translation-Id
im Pfad. Die Übersetzungs-ID muss bei allen Übersetzungen für die Sprachressource eindeutig sein. Ersetzen Sie sieYour-Translation-Id
durch eine Übersetzungs-ID Ihrer Wahl. Sie verwenden diese ID, um in nachfolgenden API-Aufrufen auf die Übersetzung zu verweisen. - Ersetzen Sie
YourSpeechResourceKey
durch den Schlüssel Ihrer Speech-Ressource undYourSpeechResourceRegion
durch die Region Ihrer Speech-Ressource.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" -H "Operation-Id: Your-Operation-Id-1" -H "Content-Type: application/json" -d '{
"displayName": "My translation object",
"description": "My translation object for video translation iterations",
"input": {
"sourceLocale": "es-ES",
"targetLocale": "en-US",
"voiceKind": "PlatformVoice",
"speakerCount": 1,
"subtitleMaxCharCountPerSegment": 50,
"exportSubtitleInVideo": false,
"enableLipSync": false,
"videoFileUrl": "https://ai.azure.com/speechassetscache/ttsvoice/VideoTranslation/PublicDoc/SampleData/es-ES-TryOutOriginal.mp4"
}
}' "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id?api-version=2024-05-20"
Wichtig
Wenn Sie versuchen, eine vorhandene Übersetzungs-ID mit unterschiedlichen Einstellungen zu verwenden, gibt die API einen Fehler zurück. Die Übersetzungs-ID muss für jede Übersetzung eindeutig sein. Sie können Änderungen an einer vorhandenen Übersetzung vornehmen, indem Sie eine Iteration erstellen.
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"input": {
"sourceLocale": "es-ES",
"targetLocale": "en-US",
"voiceKind": "PlatformVoice",
"speakerCount": 1,
"subtitleMaxCharCountPerSegment": 50,
"exportSubtitleInVideo": false,
"enableLipSync": false
},
"status": "NotStarted",
"lastActionDateTime": "2025-03-06T19:13:35.669Z",
"id": "Your-Translation-Id",
"displayName": "My translation object",
"description": "My translation object for video translation iterations",
"createdDateTime": "2025-03-06T19:13:35.669Z"
}
Sie können die angegebene Vorgangs-ID verwenden und den Get-Vorgang nach Vorgangs-ID-API regelmäßig verwenden, bis der zurückgegebene Status ist Succeeded
oder Failed
. Mit diesem Vorgang können Sie den Fortschritt der Erstellung des Iterationsprozesses überwachen. Die Statuseigenschaft sollte von NotStarted
zu Running
fortschreiten und schließlich zu Succeeded
oder Failed
gelangen.
Schritt 2: Erstellen einer Iteration
Um mit der Übersetzung Ihres Videos zu beginnen oder eine Iteration für eine vorhandene Übersetzung zu aktualisieren, müssen Sie einen HTTP PUT-Anforderungspfad und -text gemäß den folgenden Anweisungen erstellen:
- Festlegen der erforderlichen Eingabe: Schließen Sie Details wie
speakerCount
,subtitleMaxCharCountPerSegment
,exportSubtitleInVideo
oderwebvttFile
ein. Standardmäßig sind keine Untertitel in das Ausgabevideo eingebettet. Wenn Sie beim Erstellen einer Iteration bereits die optionalen ParameterspeakerCount
subtitleMaxCharCountPerSegment
angegeben haben, undexportSubtitleInVideo
beim Erstellen der Übersetzung müssen Sie sie nicht erneut angeben. Die Werte stammen aus den Übersetzungseinstellungen. Sobald diese Parameter beim Erstellen einer Iteration definiert wurden, überschreiben die neuen Werte die ursprünglichen Einstellungen. - Optional können Sie eine WebVTT-Datei mit Untertiteln für Ihr originales Video angeben. Der
webvttFile
Eingabeparameter ist beim Erstellen der ersten Iteration nicht erforderlich. Ab der zweiten Iteration müssen Sie jedoch denwebvttFile
Parameter im Iterationsprozess angeben.
Für Authentifizierung und Autorisierung müssen Sie die folgenden Header und Pfad-IDs in Ihre Anforderung einschließen:
- Legen Sie den
Operation-Id
Header fest: DerOperation-Id
muss für jeden Vorgang eindeutig sein, z. B. für die Generierung jeder Iteration. Ersetzen SieYour-Operation-Id
durch eine eindeutige ID für diesen Vorgang. - Ersetzen Sie
Your-Translation-Id
im Pfad. Verwenden Sie dieselbe Übersetzungs-ID, die Sie beim Erstellen der Übersetzung angegeben haben. Die Übersetzungs-ID bleibt unverändert. - Geben Sie einen neuen Wert für
iterationId
im Pfad an. Die Iterations-ID muss für jeden Vorgang eindeutig sein. Ersetzen SieYour-Iteration-Id-1
durch eine Iterations-ID Ihrer Wahl. - Ersetzen Sie
YourSpeechResourceKey
durch den Schlüssel Ihrer Speech-Ressource undYourSpeechResourceRegion
durch die Region Ihrer Speech-Ressource.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" \
-H "Operation-Id: Your-Operation-Id" \
-H "Content-Type: application/json" \
-d '{
"input": {
"subtitleMaxCharCountPerSegment": 30,
"exportSubtitleInVideo": true
}
}' "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id/iterations/Your-Iteration-Id-1?api-version=2024-05-20"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"input": {
"subtitleMaxCharCountPerSegment": 30,
"exportSubtitleInVideo": true
},
"status": "NotStarted",
"lastActionDateTime": "2025-03-06T19:15:38.722Z",
"id": "Your-Iteration-Id",
"createdDateTime": "2025-03-06T19:15:38.722Z"
}
Sie können die angegebene Vorgangs-ID verwenden und den Get-Vorgang nach Vorgangs-ID-API regelmäßig verwenden, bis der zurückgegebene Status ist Succeeded
oder Failed
. Mit diesem Vorgang können Sie den Fortschritt der Erstellung des Iterationsprozesses überwachen. Die Statuseigenschaft sollte von NotStarted
zu Running
fortschreiten und schließlich zu Succeeded
oder Failed
gelangen.
Schritt 3: Herunterladen des übersetzten Videos und Untertitels
Sie können das übersetzte Video und Untertitel herunterladen, sobald der Iterationsstatus ist Succeeded
. Das übersetzte Video und die Untertitel sind im Antworttext der API zum Abrufen einer Iteration anhand der Iterations-ID verfügbar.
Verwenden Sie die HTTP GET-Anforderung, um Details einer bestimmten Iteration anhand ihrer ID abzurufen. Ersetzen Sie YourSpeechResourceKey
durch Ihren Sprachressourcenschlüssel, YourSpeechResourceRegion
durch Ihren Sprachressourcenbereich, und Your-Translation-Id
durch die Übersetzungs-ID, die Sie überprüfen möchten, und Your-Iteration-Id
durch die Iterations-ID, die Sie überprüfen möchten.
curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id/iterations/Your-Iteration-Id?api-version=2024-05-20"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"input": {
"speakerCount": 1,
"subtitleMaxCharCountPerSegment": 30,
"exportSubtitleInVideo": true
},
"result": {
"translatedVideoFileUrl": "https://cvoiceprodeus.blob.core.windows.net/YourTranslatedVideoFileUrl",
"sourceLocaleSubtitleWebvttFileUrl": "https://cvoiceprodeus.blob.core.windows.net/YourSourceLocaleSubtitleWebvttFileUrl",
"targetLocaleSubtitleWebvttFileUrl": "https://cvoiceprodeus.blob.core.windows.net/YourTargetLocaleSubtitleWebvttFileUrl",
"metadataJsonWebvttFileUrl": "https://cvoiceprodeus.blob.core.windows.net/YourMetadataJsonWebvttFileUrl",
},
"status": "Succeeded",
"lastActionDateTime": "2025-03-06T19:17:06.270Z",
"id": "Your-Iteration-Id-7",
"createdDateTime": "2025-03-06T19:15:38.723Z"
}
Herunterladen aus den Ergebnis-URLs
Der Antworttext enthält die folgenden URLs zum Herunterladen des übersetzten Videos und Untertitels:
translatedVideoFileUrl
: Die URL der übersetzten Videodatei. Sie können das übersetzte Video von dieser URL herunterladen.sourceLocaleSubtitleWebvttFileUrl
: Die URL der WebVTT-Datei für das Quellgebietsschema Sie können die WebVTT-Datei von dieser URL herunterladen.targetLocaleSubtitleWebvttFileUrl
: Die URL der WebVTT-Datei für das Zielgebietsschema Sie können die WebVTT-Datei von dieser URL herunterladen.metadataJsonWebvttFileUrl
: Die URL der JSON-WebVTT-Metadatendatei. Sie können die JSON-WebVTT-Metadatendatei aus dieser URL herunterladen.
Hier sind Beispiele für die Formate für die Untertiteldateien:
sourceLocaleSubtitleWebvttFileUrl
WEBVTT
00:00:00.320 --> 00:00:03.880
Microsoft ha estado 25 años comprometido con El Salvador.
00:00:03.960 --> 00:00:08.440
Microsoft es hablar de innovación y es hablar del presente y futuro del Salvador.
00:00:09.080 --> 00:00:15.840
Son 25 años y contando los que como marca Microsoft ha logrado cumplir con cada 1 de sus objetivos en El País.
00:00:16.040 --> 00:00:23.400
Nos apoyamos muchísimo en su liderazgo, en su tecnología de punta y en su innovación continua.
00:00:23.800 --> 00:00:29.760
Microsoft le permite a Nico ser parte de un ecosistema tecnológico a nivel mundial más que un aliado para nosotros,
00:00:29.760 --> 00:00:33.880
más que un socio, realmente es un amigo, un amigo estratégico,
00:00:34.840 --> 00:00:39.800
incondicional, teniendo en cuenta y como principal razón de ser nuestra misión y visión,
00:00:40.080 --> 00:00:45.400
permitiendo que los salvadoreños puedan percatarse de su potencial. 25 años de experiencia.
00:00:45.680 --> 00:00:50.480
25 años impulsando, innovando y mejorando en cada una de nuestras facetas.
00:00:50.880 --> 00:00:58.080
Nuestra misión sigue intacta, empoderar a todas las personas y organizaciones del planeta a lograr más felices.
00:00:58.080 --> 00:01:01.240
25, Microsoft felices. 25, El Salvador.
00:01:01.480 --> 00:01:05.920
Juntos seguiremos innovando y progresando un mejor bienestar con tecnología.
WebVTT mit JSON-Eigenschaften
Die WebVTT-Datei mit JSON-Eigenschaften enthält Metadaten zum Übersetzungsprozess. Jedes Untertitelsegment enthält Eigenschaften, die zusätzliche Informationen zur Übersetzung bereitstellen. Hier ist eine Aufschlüsselung der Eigenschaften:
globalMetadata
: Dieser Abschnitt enthält Metadaten zu den Lautsprechern im Video. Die Eigenschaft „speakers“ ist ein Objekt, das Informationen zu jedem Sprecher enthält. Jeder Lautsprecher wird durch eine eindeutige ID (z. B. "Speaker0") identifiziert. Die Eigenschaft "defaultSsmlProperties" enthält die SSML-Standardeigenschaften für die Stimme des Sprechers.id
: Dies ist ein eindeutiger Bezeichner für jedes Untertitelsegment. Sie hilft dabei, das bestimmte Textsegment in der WebVTT-Datei zu identifizieren.speakerId
: Diese Eigenschaft gibt die ID des Lautsprechers für das entsprechende Untertitelsegment an. Sie sollte mit der sprecher-ID übereinstimmen, die im Abschnitt "globalMetadata" definiert ist.ssmlProperties
: Dieser Abschnitt enthält Eigenschaften im Zusammenhang mit der Stimme des Sprechers. Sie kann Eigenschaften wie "voiceName" und "voiceKind" enthalten. Der "voiceName" ist der Name der für die Synthese verwendeten Stimme, und das "voiceKind" gibt an, ob es sich um eine Plattformstimme oder eine persönliche Stimme handelt.sourceLocaleText
: Diese Eigenschaft enthält den ursprünglichen Text in der Quellsprache. Wenn Sie nur Änderungen ansourceLocaleText
vornehmen, wird das System die aktualisiertesourceLocaleText
übersetzen und diese für die Synthese verwenden. Wenn Sie Änderungen ansourceLocaleText
undtranslatedText
vornehmen, ignoriert das System die Änderungen ansourceLocaleText
und verwendet das aktualisiertetranslatedText
für die Synthese.translatedText
: Diese Eigenschaft enthält den übersetzten Text in der Zielsprache. Er stellt den Text dar, der im übersetzten Video synthetisiert wird. Wenn Sie nurtranslatedText
ändern, verwendet das System den aktualisierten übersetzten Text für die Synthese.
Schritt 4: Erstellen zusätzlicher Iterationen (optional)
Sie können zusätzliche Iterationen erstellen, um die Übersetzungsqualität zu verbessern. Der Prozess ähnelt dem Erstellen der ersten Iteration.
Der Parameter webvttFile
ist beim Erstellen der ersten Iteration nicht erforderlich. Ab der zweiten Iteration müssen Sie jedoch den Parameter webvttFile
im Iterationsprozess angeben. Sie müssen die WebVTT-Datei herunterladen, die erforderlichen Änderungen vornehmen und dann in Ihren Azure Blob Storage hochladen. Sie müssen die BLOB-URL angeben.
Um mit der Übersetzung Ihres Videos zu beginnen oder eine Iteration für eine vorhandene Übersetzung zu aktualisieren, müssen Sie einen HTTP PUT-Anforderungspfad und -text gemäß den folgenden Anweisungen erstellen:
- Geben Sie den erforderlichen
webvttFile
Eingabeparameter an. DerwebvttFile
Parameter ist ab der zweiten Iteration erforderlich. Sie müssen die neueste Webvtt-Datei herunterladen, die gewünschten Änderungen vornehmen und dann in Ihren Azure Blob Storage hochladen. Sie müssen die BLOB-URL angeben. Die Untertiteldatei kann im WebVTT- oder JSON-Format vorliegen. - Optional können Sie neue Einstellungen für die neue Iteration angeben, z. B.
speakerCount
,subtitleMaxCharCountPerSegment
undexportSubtitleInVideo
.
Für Authentifizierung und Autorisierung müssen Sie die folgenden Header und Pfad-IDs in Ihre Anforderung einschließen:
- Legen Sie den
Operation-Id
Header fest: DerOperation-Id
muss für jeden Vorgang eindeutig sein, z. B. für die Generierung jeder Iteration. Ersetzen SieYour-Operation-Id
durch eine eindeutige ID für diesen Vorgang. - Ersetzen Sie
Your-Translation-Id
im Pfad. Verwenden Sie dieselbe Übersetzungs-ID, die Sie beim Erstellen der Übersetzung angegeben haben. Die Übersetzungs-ID bleibt unverändert. - Geben Sie einen neuen Wert für
iterationId
im Pfad an. Die Iterations-ID muss für jeden Vorgang eindeutig sein. Ersetzen SieYour-Iteration-Id-2
durch eine Iterations-ID Ihrer Wahl. - Ersetzen Sie
YourSpeechResourceKey
durch den Schlüssel Ihrer Speech-Ressource undYourSpeechResourceRegion
durch die Region Ihrer Speech-Ressource.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" \
-H "Operation-Id: Your-Operation-Id" \
-H "Content-Type: application/json" \
-d '{
"input": {
"webvttFile": {
"url": "https://YourBlobStorageUrl/YourWebVTTFile.vtt"
}
}
}' "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id/iterations/Your-Iteration-Id-2?api-version=2024-05-20"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"input": {
"webvttFile": {
"url": "https://YourBlobStorageUrl/YourWebVTTFile.vtt"
}
},
"status": "NotStarted",
"lastActionDateTime": "2025-03-06T19:15:38.722Z",
"id": "Your-Iteration-Id-2",
"createdDateTime": "2025-03-06T19:15:38.722Z"
}
Sie können die angegebene Vorgangs-ID verwenden und den Get-Vorgang nach Vorgangs-ID-API regelmäßig verwenden, bis der zurückgegebene Status ist Succeeded
oder Failed
. Mit diesem Vorgang können Sie den Fortschritt der Erstellung des Iterationsprozesses überwachen. Die Statuseigenschaft sollte von NotStarted
zu Running
fortschreiten und schließlich zu Succeeded
oder Failed
gelangen.
Abrufen eines Vorgangs anhand einer Vorgangs-ID
Überprüfen Sie den Status eines Vorgangs mithilfe der Vorgangs-ID. Die Vorgangs-ID ist für jeden Vorgang eindeutig, sodass Sie jeden Vorgang separat nachverfolgen können. Die Vorgangs-ID ist gültig, bis die Übersetzung gelöscht wird.
- Geben Sie denselben Wert für
Operation-Id
an, den Sie beim Erstellen der Übersetzung verwendet haben. Im BeispielYour-Operation-Id-1
wird verwendet. Ersetzen SieYour-Operation-Id-1
durch eine Vorgangs-ID Ihrer Wahl. - Ersetzen Sie
YourSpeechResourceKey
durch den Schlüssel Ihrer Speech-Ressource undYourSpeechResourceRegion
durch die Region Ihrer Speech-Ressource.
curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/operations/Your-Operation-Id-1?api-version=2024-05-20"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"id": "Your-Operation-Id-1",
"status": "Running"
}
Löschen einer Übersetzung anhand einer Übersetzungs-ID
Entfernen Sie eine bestimmte Übersetzung, die anhand von translationId
identifiziert wird. Mit diesem Vorgang werden auch alle Iterationen entfernt, die dieser Übersetzung zugeordnet sind.
Ersetzen Sie YourSpeechResourceKey
durch Ihren Sprachressourcenschlüssel, YourSpeechResourceRegion
durch Ihren Sprachressourcenbereich, und Your-Translation-Id
durch die Übersetzungs-ID, die Sie löschen möchten. Wenn sie nicht manuell gelöscht werden, behält der Dienst den Übersetzungsverlauf für bis zu 31 Tage bei.
curl -v -X DELETE -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id?api-version=2024-05-20"
Die Antwortheader enthalten HTTP/1.1 204 No Content
, wenn die Löschanforderung erfolgreich war.
REST-API-Vorgänge
Sie können die folgenden REST-API-Vorgänge für die Videoübersetzung verwenden:
Vorgang | Methode | REST-API-Aufruf |
---|---|---|
Erstellen einer Übersetzung | PUT |
/translations/{translationId} |
Übersetzungen auflisten | GET |
/translations |
Abrufen einer Übersetzung anhand einer Übersetzungs-ID | GET |
/translations/{translationId} |
Erstellen einer Iteration | PUT |
/translations/{translationId}/iterations/{iterationId} |
Auflisten von Iterationen | GET |
/translations/{translationId}/iterations |
Abrufen einer Iteration anhand einer Iterations-ID | GET |
/translations/{translationId}/iterations/{iterationId} |
Abrufen eines Vorgangs anhand einer Vorgangs-ID | GET |
/operations/{operationId} |
Löschen einer Übersetzung anhand einer Übersetzungs-ID | DELETE |
/translations/{translationId} |
Codebeispiele finden Sie auf GitHub.
Dieser Abschnitt enthält Beispiele für andere Videoübersetzungs-API-Aufrufe, die zuvor nicht ausführlich beschrieben werden.
Übersetzungen anzeigen
Wenn Sie alle Videoübersetzungen auflisten möchten, die in Ihrem Ressourcenkonto hochgeladen und verarbeitet werden, erstellen Sie eine HTTP GET-Anforderung, wie im folgenden Beispiel gezeigt. Ersetzen Sie YourSpeechResourceKey
durch den Schlüssel Ihrer Speech-Ressource und YourSpeechResourceRegion
durch die Region Ihrer Speech-Ressource.
curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations?api-version=2024-05-20"
Abrufen einer Übersetzung anhand einer Übersetzungs-ID
Dieser Vorgang ruft detaillierte Informationen zu einer bestimmten Übersetzung ab, die anhand ihrer eindeutigen translationId
identifiziert wird. Ersetzen Sie YourSpeechResourceKey
durch Ihren Sprachressourcenschlüssel, YourSpeechResourceRegion
durch Ihren Sprachressourcenbereich, und Your-Translation-Id
durch die Übersetzungs-ID, die Sie überprüfen möchten.
curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id?api-version=2024-05-20"
Auflisten von Iterationen
Listen Sie alle Iterationen für eine bestimmte Übersetzung auf. Diese Anforderung listet alle Iterationen ohne detaillierte Informationen auf. Ersetzen Sie YourSpeechResourceKey
durch Ihren Sprachressourcenschlüssel, YourSpeechResourceRegion
durch Ihren Sprachressourcenbereich, und Your-Translation-Id
durch die Übersetzungs-ID, die Sie überprüfen möchten.
curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id/iterations?api-version=2024-05-20"
HTTP-Statuscodes
Im Abschnitt werden die HTTP-Antwortcodes und -Nachrichten aus der REST-API der Videoübersetzung erläutert.
HTTP 200 OK
„HTTP 200 OK“ gibt an, dass die Anforderung erfolgreich war.
HTTP-Fehler 204
Ein HTTP-Fehler 204 gibt an, dass die Anforderung erfolgreich war, die Ressource aber nicht vorhanden ist. Zum Beispiel:
- Sie haben versucht, eine nicht vorhandene Übersetzung abzurufen oder zu löschen.
- Sie haben eine Übersetzung erfolgreich gelöscht.
HTTP-Fehler 400
Hier sehen Sie Beispiele, die zum Fehler 400 führen können:
- Das angegebene Quell- oder Zielgebietsschema gehört nicht zu den unterstützten Gebietsschemas.
- Sie haben versucht, eine F0-Speech-Ressource zu verwenden, die Region unterstützt aber nur den Tarif Standard für Speech-Ressourcen.
HTTP-Fehler 500
Der interne Serverfehler HTTP 500 gibt an, dass bei der Anforderung ein Fehler aufgetreten ist. Der Antworttext enthält die Fehlermeldung.