Freigeben über


Wie man die Videoübersetzung verwendet

Hinweis

Dieses Feature ist zurzeit als öffentliche Preview verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

In diesem Artikel erfahren Sie, wie Sie die Videoübersetzung mit Azure AI Speech im Azure AI Foundry-Portal verwenden.

Tipp

Testen Sie die Videoübersetzung im Azure AI Foundry-Portal , bevor Sie die API verwenden. Verwenden Sie die REST-API für die Videoübersetzung , um die Videoübersetzung in Ihre Anwendungen zu integrieren. Weitere Informationen zur API finden Sie unter REST-API für Videoübersetzungen.

Voraussetzungen

Testen der Videoübersetzung

Führen Sie die folgenden Schritte aus, um die Videoübersetzungsdemo auszuprobieren:

  1. Wechseln Sie zum Modellkatalog im Azure AI Foundry-Portal.

  2. Geben Sie "Azure-AI-Speech" in das Katalogsuchfeld ein und suchen Sie danach.

    Screenshot des Modellkatalogs im Azure AI Foundry-Portal.

  3. Wählen Sie Azure-AI-Speech aus, und Sie gelangen zur Seite "Azure-AI-Speech testen".

  4. Wählen Sie Sprachfähigkeiten nach Szenario>Videoübersetzung aus.

    Screenshot der Filterung von Sprachdienstfunktionen nach Szenario.

  5. Wählen Sie unter der Option "Beispiel" auf der rechten Seite persönliche oder Standardstimme aus.

  6. Wählen Sie die Schaltfläche " Wiedergeben " aus, um die übersetzte Audiowiedergabe zu hören. Wählen Sie die ursprüngliche Videoregisterkarte aus, um das Originalaudio wiederzugeben.

    Screenshot der Auswahl eines Sprachtyps auf der neuen Projektseite.

    Die Sprachtypoptionen sind:

    • Standardstimme: Der Dienst wählt automatisch die am besten geeignete Standardstimme aus, indem er die Stimme des Sprechers im Video mit Standardstimme abgleicht.
    • Persönliche Stimme: Verwenden Sie die persönliche Stimme, die der Stimme der Lautsprecher im Video entspricht.

    Hinweis

    Um persönliche VoIP über die API zu verwenden, müssen Sie sich für den Zugriff bewerben.

Erstellen eines Videoübersetzungsprojekts

Führen Sie die folgenden Schritte aus, um ein Videoübersetzungsprojekt zu erstellen:

  1. Wechseln Sie zum Modellkatalog im Azure AI Foundry-Portal.

  2. Geben Sie "Azure-AI-Speech" in das Katalogsuchfeld ein und suchen Sie danach.

    Screenshot des Modellkatalogs im Azure AI Foundry-Portal.

  3. Wählen Sie Azure-AI-Speech aus, und Sie gelangen zur Seite "Azure-AI-Speech testen".

  4. Wählen Sie Sprachfähigkeiten nach Szenario>Videoübersetzung aus.

    Screenshot der Filterung von Sprachdienstfunktionen nach Szenario.

  5. Wählen Sie "Gehe zum Spracherkennungs-Playground" aus.

  6. Wählen Sie "Meine Videos>hochladen" aus.

    Screenshot der Auswahl der Schaltfläche

  7. Wählen Sie auf der Seite "Video hochladen" einen Sprachtyp aus.

    Screenshot der Auswahl eines Sprachtyps auf der neuen Projektseite.

    Die Sprachtypoptionen sind:

    • Standardstimme: Der Dienst wählt automatisch die am besten geeignete Standardstimme aus, indem er die Stimme des Sprechers im Video mit Standardstimme abgleicht.
    • Persönliche Stimme: Verwenden Sie die persönliche Stimme, die der Stimme der Lautsprecher im Video entspricht.

    Hinweis

    Um die persönliche Stimme zu nutzen, müssen Sie Zugriff beantragen.

  8. Laden Sie Ihre Videodatei hoch, indem Sie diese ziehen und ablegen oder manuell auswählen. Das Video muss .mp4 Format, weniger als 5 GB und kürzer als 4 Stunden sein.

  9. Geben Sie die Werte für Anzahl der Sprecher, Sprache des Videos und Übersetzen in Sprache an.

  10. Wählen Sie die Felder aus, um die Preisinformationen und verhaltensregeln zu bestätigen.

  11. Wählen Sie "Weiter" aus: Erweiterte Einstellungen , wenn Sie die erweiterten Einstellungen anpassen möchten.

    Screenshot der Bereitstellung von Videoinformationen auf der neuen Projektseite.

  12. Optional können Sie die folgenden Einstellungen anpassen:

    • Lexicon-Datei: Mit dieser Option können Sie benutzerdefinierte Wörter oder Ausdrücke hinzufügen, die vom System richtig erkannt und wiedergegeben werden sollen. Sie können eine Lexicondatei im Audioinhaltserstellungstool im Speech Studio erstellen und hier auswählen.
    • Untertitel brennen: Mit dieser Option können Sie dem Video Untertitel hinzufügen. Die Untertiteldatei kann im WebVTT- oder JSON-Format vorliegen. Sie können eine WebVTT-Beispieldatei für Ihre Referenz herunterladen, indem Sie die Beispiel-VTT-Datei herunterladen.

    Screenshot der Bereitstellung von Lexikal- und Untertitelinformationen beim Erstellen eines neuen Projekts.

    Wenn Sie Ihre eigenen Untertiteldateien verwenden möchten, wählen Sie "Untertitel>hochladen" aus. Sie können entweder die Quelluntertiteldatei oder die Zieluntertiteldatei hochladen.

    • Automatische Untertitel: Führt sowohl zu Quell- als auch Zielsprachuntertiteln.
    • Hochladen von Untertiteln der Quellsprache: Ergebnisse sowohl für Quell- als auch für Zielsprachuntertitel.
    • Untertitel der Zielsprache hochladen: Führt nur zu Zielsprachuntertiteln.
  13. Klicken Sie auf Erstellen.

Sobald der Upload in Azure Blob Storage abgeschlossen ist, können Sie den Verarbeitungsstatus auf der Registerkarte "Projekt" überprüfen.

Nachdem das Projekt erstellt wurde, können Sie das Projekt auswählen, um detaillierte Einstellungen zu überprüfen und Anpassungen entsprechend Ihren Wünschen vorzunehmen.

Überprüfen und Anpassen von Stimmeinstellungen

Wählen Sie "Meine Videos" aus, und Es sollte ein Video mit dem Status "Erfolgreich " angezeigt werden.

Screenshot der Auswahl eines erfolgreich übersetzten Videos.

Wählen Sie das Video aus, um die Registerkarten "Übersetzt " und " Original " unter "Video" anzuzeigen. Sie können die ursprünglichen und übersetzten Videos vergleichen, indem Sie die entsprechende Registerkarte auswählen. Das übersetzte Video wird automatisch generiert, und Sie können es wiedergeben, um die Übersetzungsqualität zu überprüfen.

Screenshot der Überprüfung der Details des übersetzten Videos.

Rechts neben dem Video können Sie sowohl das ursprüngliche Skript als auch das übersetzte Skript anzeigen. Wenn Sie auf die einzelnen Teile des ursprünglichen Skripts zeigen, springt das Video automatisch zum entsprechenden Segment des ursprünglichen Videos, während beim Draufzeigen auf die einzelnen Teile des übersetzten Skripts das Video zum entsprechenden übersetzten Segment springt.

Sie können mehrere Änderungen am Video vornehmen, z. B. die Spracheinstellungen anpassen, Segmente hinzufügen oder entfernen und den Zeitrahmen der Skripts ändern. Sie werden erst belastet, nachdem Sie " Änderungen anwenden " ausgewählt haben, um Ihre Änderungen anzuwenden. Sie können " Speichern" auswählen, um arbeit in Bearbeitung zu speichern, ohne dass Gebühren anfallen.

Wenn Sie auf Segmente mit einem „nicht identifizierten“ Stimmnamen stoßen, könnte dies daran liegen, dass das System die Stimme nicht genau erkennen konnte, insbesondere in Situationen, in denen sich die Sprecherstimmen überschneiden. In solchen Fällen ist es ratsam, den Stimmnamen manuell zu ändern.

Screenshot eines Segments mit nicht identifiziertem Sprachnamen.

In eine andere Sprache übersetzen

Sie können das aktuelle Übersetzungsprojekt beibehalten und das ursprüngliche Video in eine andere Sprache übersetzen.

  1. Wählen Sie "Meine Videos" und dann die Kachel für Ihre Videoübersetzung aus.
  2. Wählen Sie +Neue Sprache aus.
  3. Wählen Sie auf der angezeigten neuen Seite "In neue Sprache übersetzen " eine neue Übersetzungssprache und einen neuen Sprachtyp aus. Sobald das Video übersetzt wurde, wird automatisch ein neues Projekt erstellt.

In diesem Artikel erfahren Sie, wie Sie die Videoübersetzung mit Azure AI Speech im Speech Studio verwenden.

Voraussetzungen

Erstellen eines Videoübersetzungsprojekts

Führen Sie die folgenden Schritte aus, um ein Videoübersetzungsprojekt zu erstellen:

  1. Melden Sie sich in Speech Studio an.

  2. Wählen Sie das Abonnement und die Speech-Ressource aus, mit denen Sie arbeiten möchten.

  3. Wählen Sie Videoübersetzung aus.

  4. Wählen Sie auf der Seite Projekte erstellen und verwalten die Option Projekt erstellen aus.

  5. Wählen Sie auf der Seite "Neues Projekt" einen Stimmtyp aus.

    Screenshot der Auswahl eines Sprachtyps auf der neuen Projektseite.

    Die Sprachtypoptionen sind:

    • Standardstimme: Der Dienst wählt automatisch die am besten geeignete Standardstimme aus, indem er die Stimme des Sprechers im Video mit Standardstimme abgleicht.
    • Persönliche Stimme: Verwenden Sie die persönliche Stimme, die der Stimme der Lautsprecher im Video entspricht.

    Hinweis

    Um die persönliche Stimme zu nutzen, müssen Sie Zugriff beantragen.

  6. Laden Sie Ihre Videodatei hoch, indem Sie diese ziehen und ablegen oder manuell auswählen. Das Video muss .mp4 Format, weniger als 5 GB und kürzer als 4 Stunden sein.

  7. Geben Sie den Projektnamen, die Anzahl der Lautsprecher, die Sprache des Videos und "In Sprache übersetzen" an.

  8. Wählen Sie die Felder aus, um die Preisinformationen und verhaltensregeln zu bestätigen.

  9. Wählen Sie "Weiter" aus: Erweiterte Einstellungen , wenn Sie die erweiterten Einstellungen anpassen möchten.

    Screenshot der Bereitstellung von Videoinformationen auf der neuen Projektseite.

  10. Optional können Sie die folgenden Einstellungen anpassen:

    • Lexicon-Datei: Mit dieser Option können Sie benutzerdefinierte Wörter oder Ausdrücke hinzufügen, die vom System richtig erkannt und wiedergegeben werden sollen. Sie können eine Lexicondatei im Audioinhaltserstellungstool im Speech Studio erstellen und hier auswählen.
    • Untertitel brennen: Mit dieser Option können Sie dem Video Untertitel hinzufügen. Die Untertiteldatei kann im WebVTT- oder JSON-Format vorliegen. Sie können eine WebVTT-Beispieldatei für Ihre Referenz herunterladen, indem Sie die Beispiel-VTT-Datei herunterladen.

    Screenshot der Bereitstellung von Lexikal- und Untertitelinformationen beim Erstellen eines neuen Projekts.

    Wenn Sie Ihre eigenen Untertiteldateien verwenden möchten, wählen Sie "Untertitel>hochladen" aus. Sie können entweder die Quelluntertiteldatei oder die Zieluntertiteldatei hochladen.

    • Automatische Untertitel: Führt sowohl zu Quell- als auch Zielsprachuntertiteln.
    • Hochladen von Untertiteln der Quellsprache: Ergebnisse sowohl für Quell- als auch für Zielsprachuntertitel.
    • Untertitel der Zielsprache hochladen: Führt nur zu Zielsprachuntertiteln.
  11. Klicken Sie auf Erstellen.

Sobald der Upload in Azure Blob Storage abgeschlossen ist, können Sie den Verarbeitungsstatus auf der Registerkarte "Projekt" überprüfen.

Nachdem das Projekt erstellt wurde, können Sie das Projekt auswählen, um detaillierte Einstellungen zu überprüfen und Anpassungen entsprechend Ihren Wünschen vorzunehmen.

Überprüfen und Anpassen von Stimmeinstellungen

Auf der Projektdetailseite können Sie die Registerkarten "Übersetzt " und " Original " unter "Video" sehen. Sie können die ursprünglichen und übersetzten Videos vergleichen, indem Sie die entsprechende Registerkarte auswählen. Das übersetzte Video wird automatisch generiert, und Sie können es wiedergeben, um die Übersetzungsqualität zu überprüfen.

Rechts neben dem Video können Sie sowohl das ursprüngliche Skript als auch das übersetzte Skript anzeigen. Wenn Sie auf die einzelnen Teile des ursprünglichen Skripts zeigen, springt das Video automatisch zum entsprechenden Segment des ursprünglichen Videos, während beim Draufzeigen auf die einzelnen Teile des übersetzten Skripts das Video zum entsprechenden übersetzten Segment springt.

Sie können bei Bedarf auch Segmente hinzufügen oder entfernen. Wenn Sie ein Segment hinzufügen möchten, stellen Sie sicher, dass der neue Segmentzeitstempel nicht mit dem vorherigen und nächsten Segment überlappt, und die Endzeit des Segments sollte größer sein als die Startzeit. Das richtige Format des Zeitstempels wäre hh:mm:ss.ms. Andernfalls können Sie die Änderungen nicht anwenden.

Sie können den Zeitrahmen der Skripts direkt mithilfe der Audiowellenform unterhalb des Videos anpassen. Die Anpassungen werden angewendet, nachdem Sie "Änderungen übernehmen" ausgewählt haben.

Wenn Sie auf Segmente mit einem „nicht identifizierten“ Stimmnamen stoßen, könnte dies daran liegen, dass das System die Stimme nicht genau erkennen konnte, insbesondere in Situationen, in denen sich die Sprecherstimmen überschneiden. In solchen Fällen ist es ratsam, den Stimmnamen manuell zu ändern.

Screenshot eines Segments mit nicht identifiziertem Sprachnamen.

Wenn Sie die Stimme anpassen möchten, wählen Sie Stimmeinstellungen aus, um einige Änderungen vorzunehmen. Auf der Seite Stimmeinstellungen können Sie den Stimmtyp, das Geschlecht und die Stimme anpassen. Wählen Sie das Stimmbeispiel rechts neben Stimme aus, um Ihre Stimmauswahl zu treffen. Wenn Sie feststellen, dass keine Stimme vorhanden ist, können Sie den neuen Sprachnamen hinzufügen, indem Sie "Lautsprecher hinzufügen" auswählen. Nachdem Sie die Einstellungen geändert haben, wählen Sie Aktualisieren aus.

Screenshot der Anpassung der Spracheinstellungen auf der Seite

Sie können mehrere Änderungen am Video vornehmen, z. B. die Spracheinstellungen anpassen, Segmente hinzufügen oder entfernen und den Zeitrahmen der Skripts ändern. Sie werden erst belastet, nachdem Sie " Änderungen anwenden " ausgewählt haben, um Ihre Änderungen anzuwenden. Sie können " Speichern" auswählen, um arbeit in Bearbeitung zu speichern, ohne dass Gebühren anfallen.

Screenshot der Schaltfläche

In eine andere Sprache übersetzen

Sie können das aktuelle Übersetzungsprojekt beibehalten und das ursprüngliche Video in eine andere Sprache übersetzen.

  1. Öffnen Sie Ihr Projekt.
  2. Wählen Sie +Neue Sprache aus.
  3. Wählen Sie auf der angezeigten neuen Seite "Übersetzen " eine neue übersetzte Sprache und einen Neuen Sprachtyp aus. Sobald das Video übersetzt wurde, wird automatisch ein neues Projekt erstellt.

Die REST-API für die Videoübersetzung erleichtert die nahtlose Integration von Videoübersetzungen in Ihre Anwendungen. Sie unterstützt das Hochladen, Verwalten und Verfeinern von Videoübersetzungen mit mehreren Iterationen für die ständige Verbesserung. In diesem Artikel erfahren Sie, wie Sie die Videoübersetzung mithilfe der REST-API nutzen.

Voraussetzungen

Tipp

Bevor Sie beginnen, sehen Sie sich die Übersicht über die Videoübersetzung an, um den End-to-End-Prozess der Videoübersetzung zu verstehen.

Arbeitsablauf

Hier sind die Schritte zum Abrufen eines übersetzten Videos mithilfe der REST-API:

  1. Erstellen Sie ein Übersetzungsobjekt. Überprüfen Sie den Status des Vorgangs in regelmäßigen Abständen, bis Succeeded oder Failed erreicht wird.
  2. Erstellen Sie eine Iteration , um den Übersetzungsprozess zu starten. Überprüfen Sie den Status der Iteration in regelmäßigen Abständen, bis Succeeded oder Failed erreicht wird.
  3. Laden Sie das übersetzte Video und die Untertitel herunter.
  4. Erstellen Sie optional zusätzliche Iterationen, um die Übersetzungsqualität zu verbessern.

Schritt 1: Erstellen einer Übersetzung

Wichtig

Durch das Erstellen einer Übersetzung, wie in diesem Abschnitt beschrieben, wird der Übersetzungsprozess nicht initiiert. Sie können mit der Übersetzung des Videos beginnen, indem Sie eine Iteration erstellen. Übersetzungen und Iterationen, die über die REST-API erstellt wurden, werden nicht mit dem Portal synchronisiert und umgekehrt.

Zum Erstellen einer Videoübersetzung müssen Sie einen HTTP PUT-Anforderungspfad und -Text gemäß den folgenden Anweisungen erstellen:

  • Geben Sie displayName an: Anzeigename der Übersetzung Dies ist ein benutzerfreundlicher Name, mit dem Sie die Übersetzung identifizieren können.

  • Geben Sie folgendes an description: Eine kurze Beschreibung der Übersetzung. Dies ist optional, kann aber für Dokumentationszwecke hilfreich sein.

  • Geben Sie folgendes sourceLocalean: Die Sprache des ursprünglichen Videos. Dies ist die Sprache, die in der Videodatei gesprochen wird.

  • Geben Sie folgendes targetLocalean: Die Sprache, in die Sie das Video übersetzen möchten. Dies ist die Zielsprache für die Übersetzung.

  • Geben Sie folgendes an voiceKind: Der Sprachtyp, den Sie für die Übersetzung verwenden möchten. Sie können zwischen PlatformVoice und PersonalVoice wählen. Für PlatformVoice, wählt das System automatisch die am besten geeignete Standardstimme aus, indem es die Stimme des Sprechers im Video mit Standardstimmen abgleicht. Für PersonalVoice bietet das System ein Modell, das in wenigen Sekunden eine qualitativ hochwertige Stimmreplikation generiert.

    Hinweis

    Um die persönliche Stimme zu nutzen, müssen Sie Zugriff beantragen.

  • Geben Sie an speakerCount: Die Anzahl der Lautsprecher im Video. Dies ist ein optionaler Parameter, und Sie können ihn auf 1 festlegen, wenn Sie nicht sicher sind.

  • Angeben subtitleMaxCharCountPerSegment: Die maximale Anzahl zulässiger Zeichen pro Untertitelsegment. Dies ist ein optionaler Parameter, und Sie können ihn auf 30 festlegen, wenn Sie nicht sicher sind.

  • Angeben exportSubtitleInVideo: Ein boolescher Wert, der angibt, ob Untertitel im Video exportiert werden sollen. Dies ist ein optionaler Parameter, und Sie können ihn true festlegen, wenn Sie Untertitel in das Video einschließen möchten.

  • Geben Sie die videoFileUrlURL der Videodatei an, die Sie übersetzen möchten. Das Video muss .mp4 Format, weniger als 5 GB und kürzer als 4 Stunden sein. Sie können das Video in Azure Blob Storage hochladen und die BLOB-URL verwenden. Für Testzwecke können Sie das von Microsoft bereitgestellte Beispielvideo unter https://ai.azure.com/speechassetscache/ttsvoice/VideoTranslation/PublicDoc/SampleData/es-ES-TryOutOriginal.mp4 verwenden.

Für Authentifizierung und Autorisierung müssen Sie die folgenden Header und Pfad-IDs in Ihre Anforderung einschließen:

  • Legen Sie den Operation-Id Header fest: Der Operation-Id muss für jeden Vorgang eindeutig sein, z. B. für die Generierung jeder Iteration. Ersetzen Sie Your-Operation-Id durch eine eindeutige ID für diesen Vorgang.
  • Ersetzen Sie Your-Translation-Id im Pfad. Die Übersetzungs-ID muss bei allen Übersetzungen für die Sprachressource eindeutig sein. Ersetzen Sie sie Your-Translation-Id durch eine Übersetzungs-ID Ihrer Wahl. Sie verwenden diese ID, um in nachfolgenden API-Aufrufen auf die Übersetzung zu verweisen.
  • Ersetzen Sie YourSpeechResourceKey durch den Schlüssel Ihrer Speech-Ressource und YourSpeechResourceRegion durch die Region Ihrer Speech-Ressource.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" -H "Operation-Id: Your-Operation-Id-1" -H "Content-Type: application/json" -d '{
  "displayName": "My translation object",
  "description": "My translation object for video translation iterations",
  "input": {
    "sourceLocale": "es-ES",
    "targetLocale": "en-US",
    "voiceKind": "PlatformVoice",
    "speakerCount": 1,
    "subtitleMaxCharCountPerSegment": 50,
    "exportSubtitleInVideo": false,
    "enableLipSync": false,
    "videoFileUrl": "https://ai.azure.com/speechassetscache/ttsvoice/VideoTranslation/PublicDoc/SampleData/es-ES-TryOutOriginal.mp4"
  }
}' "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id?api-version=2024-05-20"

Wichtig

Wenn Sie versuchen, eine vorhandene Übersetzungs-ID mit unterschiedlichen Einstellungen zu verwenden, gibt die API einen Fehler zurück. Die Übersetzungs-ID muss für jede Übersetzung eindeutig sein. Sie können Änderungen an einer vorhandenen Übersetzung vornehmen, indem Sie eine Iteration erstellen.

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "input": {
    "sourceLocale": "es-ES",
    "targetLocale": "en-US",
    "voiceKind": "PlatformVoice",
    "speakerCount": 1,
    "subtitleMaxCharCountPerSegment": 50,
    "exportSubtitleInVideo": false,
    "enableLipSync": false
  },
  "status": "NotStarted",
  "lastActionDateTime": "2025-03-06T19:13:35.669Z",
  "id": "Your-Translation-Id",
  "displayName": "My translation object",
  "description": "My translation object for video translation iterations",
  "createdDateTime": "2025-03-06T19:13:35.669Z"
}

Sie können die angegebene Vorgangs-ID verwenden und den Get-Vorgang nach Vorgangs-ID-API regelmäßig verwenden, bis der zurückgegebene Status ist Succeeded oder Failed. Mit diesem Vorgang können Sie den Fortschritt der Erstellung des Iterationsprozesses überwachen. Die Statuseigenschaft sollte von NotStarted zu Running fortschreiten und schließlich zu Succeeded oder Failed gelangen.

Schritt 2: Erstellen einer Iteration

Um mit der Übersetzung Ihres Videos zu beginnen oder eine Iteration für eine vorhandene Übersetzung zu aktualisieren, müssen Sie einen HTTP PUT-Anforderungspfad und -text gemäß den folgenden Anweisungen erstellen:

  • Festlegen der erforderlichen Eingabe: Schließen Sie Details wie speakerCount, subtitleMaxCharCountPerSegment, exportSubtitleInVideo oder webvttFile ein. Standardmäßig sind keine Untertitel in das Ausgabevideo eingebettet. Wenn Sie beim Erstellen einer Iteration bereits die optionalen Parameter speakerCountsubtitleMaxCharCountPerSegmentangegeben haben, und exportSubtitleInVideo beim Erstellen der Übersetzung müssen Sie sie nicht erneut angeben. Die Werte stammen aus den Übersetzungseinstellungen. Sobald diese Parameter beim Erstellen einer Iteration definiert wurden, überschreiben die neuen Werte die ursprünglichen Einstellungen.
  • Optional können Sie eine WebVTT-Datei mit Untertiteln für Ihr originales Video angeben. Der webvttFile Eingabeparameter ist beim Erstellen der ersten Iteration nicht erforderlich. Ab der zweiten Iteration müssen Sie jedoch den webvttFile Parameter im Iterationsprozess angeben.

Für Authentifizierung und Autorisierung müssen Sie die folgenden Header und Pfad-IDs in Ihre Anforderung einschließen:

  • Legen Sie den Operation-Id Header fest: Der Operation-Id muss für jeden Vorgang eindeutig sein, z. B. für die Generierung jeder Iteration. Ersetzen Sie Your-Operation-Id durch eine eindeutige ID für diesen Vorgang.
  • Ersetzen Sie Your-Translation-Id im Pfad. Verwenden Sie dieselbe Übersetzungs-ID, die Sie beim Erstellen der Übersetzung angegeben haben. Die Übersetzungs-ID bleibt unverändert.
  • Geben Sie einen neuen Wert für iterationId im Pfad an. Die Iterations-ID muss für jeden Vorgang eindeutig sein. Ersetzen Sie Your-Iteration-Id-1 durch eine Iterations-ID Ihrer Wahl.
  • Ersetzen Sie YourSpeechResourceKey durch den Schlüssel Ihrer Speech-Ressource und YourSpeechResourceRegion durch die Region Ihrer Speech-Ressource.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" \
-H "Operation-Id: Your-Operation-Id" \
-H "Content-Type: application/json" \
-d '{
  "input": {
    "subtitleMaxCharCountPerSegment": 30,
    "exportSubtitleInVideo": true
  }
}' "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id/iterations/Your-Iteration-Id-1?api-version=2024-05-20"

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "input": {
    "subtitleMaxCharCountPerSegment": 30,
    "exportSubtitleInVideo": true
  },
  "status": "NotStarted",
  "lastActionDateTime": "2025-03-06T19:15:38.722Z",
  "id": "Your-Iteration-Id",
  "createdDateTime": "2025-03-06T19:15:38.722Z"
}

Sie können die angegebene Vorgangs-ID verwenden und den Get-Vorgang nach Vorgangs-ID-API regelmäßig verwenden, bis der zurückgegebene Status ist Succeeded oder Failed. Mit diesem Vorgang können Sie den Fortschritt der Erstellung des Iterationsprozesses überwachen. Die Statuseigenschaft sollte von NotStarted zu Running fortschreiten und schließlich zu Succeeded oder Failed gelangen.

Schritt 3: Herunterladen des übersetzten Videos und Untertitels

Sie können das übersetzte Video und Untertitel herunterladen, sobald der Iterationsstatus ist Succeeded. Das übersetzte Video und die Untertitel sind im Antworttext der API zum Abrufen einer Iteration anhand der Iterations-ID verfügbar.

Verwenden Sie die HTTP GET-Anforderung, um Details einer bestimmten Iteration anhand ihrer ID abzurufen. Ersetzen Sie YourSpeechResourceKey durch Ihren Sprachressourcenschlüssel, YourSpeechResourceRegion durch Ihren Sprachressourcenbereich, und Your-Translation-Id durch die Übersetzungs-ID, die Sie überprüfen möchten, und Your-Iteration-Id durch die Iterations-ID, die Sie überprüfen möchten.

curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id/iterations/Your-Iteration-Id?api-version=2024-05-20"  

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "input": {
    "speakerCount": 1,
    "subtitleMaxCharCountPerSegment": 30,
    "exportSubtitleInVideo": true
  },
  "result": {
    "translatedVideoFileUrl": "https://cvoiceprodeus.blob.core.windows.net/YourTranslatedVideoFileUrl",
    "sourceLocaleSubtitleWebvttFileUrl": "https://cvoiceprodeus.blob.core.windows.net/YourSourceLocaleSubtitleWebvttFileUrl",
    "targetLocaleSubtitleWebvttFileUrl": "https://cvoiceprodeus.blob.core.windows.net/YourTargetLocaleSubtitleWebvttFileUrl",
    "metadataJsonWebvttFileUrl": "https://cvoiceprodeus.blob.core.windows.net/YourMetadataJsonWebvttFileUrl",
  },
  "status": "Succeeded",
  "lastActionDateTime": "2025-03-06T19:17:06.270Z",
  "id": "Your-Iteration-Id-7",
  "createdDateTime": "2025-03-06T19:15:38.723Z"
}

Herunterladen aus den Ergebnis-URLs

Der Antworttext enthält die folgenden URLs zum Herunterladen des übersetzten Videos und Untertitels:

  • translatedVideoFileUrl: Die URL der übersetzten Videodatei. Sie können das übersetzte Video von dieser URL herunterladen.
  • sourceLocaleSubtitleWebvttFileUrl: Die URL der WebVTT-Datei für das Quellgebietsschema Sie können die WebVTT-Datei von dieser URL herunterladen.
  • targetLocaleSubtitleWebvttFileUrl: Die URL der WebVTT-Datei für das Zielgebietsschema Sie können die WebVTT-Datei von dieser URL herunterladen.
  • metadataJsonWebvttFileUrl: Die URL der JSON-WebVTT-Metadatendatei. Sie können die JSON-WebVTT-Metadatendatei aus dieser URL herunterladen.

Hier sind Beispiele für die Formate für die Untertiteldateien:

sourceLocaleSubtitleWebvttFileUrl

WEBVTT

00:00:00.320 --> 00:00:03.880
Microsoft ha estado 25 años comprometido con El Salvador.

00:00:03.960 --> 00:00:08.440
Microsoft es hablar de innovación y es hablar del presente y futuro del Salvador.

00:00:09.080 --> 00:00:15.840
Son 25 años y contando los que como marca Microsoft ha logrado cumplir con cada 1 de sus objetivos en El País.

00:00:16.040 --> 00:00:23.400
Nos apoyamos muchísimo en su liderazgo, en su tecnología de punta y en su innovación continua.

00:00:23.800 --> 00:00:29.760
Microsoft le permite a Nico ser parte de un ecosistema tecnológico a nivel mundial más que un aliado para nosotros,

00:00:29.760 --> 00:00:33.880
más que un socio, realmente es un amigo, un amigo estratégico,

00:00:34.840 --> 00:00:39.800
incondicional, teniendo en cuenta y como principal razón de ser nuestra misión y visión,

00:00:40.080 --> 00:00:45.400
permitiendo que los salvadoreños puedan percatarse de su potencial. 25 años de experiencia.

00:00:45.680 --> 00:00:50.480
25 años impulsando, innovando y mejorando en cada una de nuestras facetas.

00:00:50.880 --> 00:00:58.080
Nuestra misión sigue intacta, empoderar a todas las personas y organizaciones del planeta a lograr más felices.

00:00:58.080 --> 00:01:01.240
25, Microsoft felices. 25, El Salvador.

00:01:01.480 --> 00:01:05.920
Juntos seguiremos innovando y progresando un mejor bienestar con tecnología.

WebVTT mit JSON-Eigenschaften

Die WebVTT-Datei mit JSON-Eigenschaften enthält Metadaten zum Übersetzungsprozess. Jedes Untertitelsegment enthält Eigenschaften, die zusätzliche Informationen zur Übersetzung bereitstellen. Hier ist eine Aufschlüsselung der Eigenschaften:

  • globalMetadata: Dieser Abschnitt enthält Metadaten zu den Lautsprechern im Video. Die Eigenschaft „speakers“ ist ein Objekt, das Informationen zu jedem Sprecher enthält. Jeder Lautsprecher wird durch eine eindeutige ID (z. B. "Speaker0") identifiziert. Die Eigenschaft "defaultSsmlProperties" enthält die SSML-Standardeigenschaften für die Stimme des Sprechers.
  • id: Dies ist ein eindeutiger Bezeichner für jedes Untertitelsegment. Sie hilft dabei, das bestimmte Textsegment in der WebVTT-Datei zu identifizieren.
  • speakerId: Diese Eigenschaft gibt die ID des Lautsprechers für das entsprechende Untertitelsegment an. Sie sollte mit der sprecher-ID übereinstimmen, die im Abschnitt "globalMetadata" definiert ist.
  • ssmlProperties: Dieser Abschnitt enthält Eigenschaften im Zusammenhang mit der Stimme des Sprechers. Sie kann Eigenschaften wie "voiceName" und "voiceKind" enthalten. Der "voiceName" ist der Name der für die Synthese verwendeten Stimme, und das "voiceKind" gibt an, ob es sich um eine Plattformstimme oder eine persönliche Stimme handelt.
  • sourceLocaleText: Diese Eigenschaft enthält den ursprünglichen Text in der Quellsprache. Wenn Sie nur Änderungen an sourceLocaleText vornehmen, wird das System die aktualisierte sourceLocaleText übersetzen und diese für die Synthese verwenden. Wenn Sie Änderungen an sourceLocaleText und translatedText vornehmen, ignoriert das System die Änderungen an sourceLocaleText und verwendet das aktualisierte translatedText für die Synthese.
  • translatedText: Diese Eigenschaft enthält den übersetzten Text in der Zielsprache. Er stellt den Text dar, der im übersetzten Video synthetisiert wird. Wenn Sie nur translatedText ändern, verwendet das System den aktualisierten übersetzten Text für die Synthese.

Schritt 4: Erstellen zusätzlicher Iterationen (optional)

Sie können zusätzliche Iterationen erstellen, um die Übersetzungsqualität zu verbessern. Der Prozess ähnelt dem Erstellen der ersten Iteration.

Der Parameter webvttFile ist beim Erstellen der ersten Iteration nicht erforderlich. Ab der zweiten Iteration müssen Sie jedoch den Parameter webvttFile im Iterationsprozess angeben. Sie müssen die WebVTT-Datei herunterladen, die erforderlichen Änderungen vornehmen und dann in Ihren Azure Blob Storage hochladen. Sie müssen die BLOB-URL angeben.

Um mit der Übersetzung Ihres Videos zu beginnen oder eine Iteration für eine vorhandene Übersetzung zu aktualisieren, müssen Sie einen HTTP PUT-Anforderungspfad und -text gemäß den folgenden Anweisungen erstellen:

  • Geben Sie den erforderlichen webvttFile Eingabeparameter an. Der webvttFile Parameter ist ab der zweiten Iteration erforderlich. Sie müssen die neueste Webvtt-Datei herunterladen, die gewünschten Änderungen vornehmen und dann in Ihren Azure Blob Storage hochladen. Sie müssen die BLOB-URL angeben. Die Untertiteldatei kann im WebVTT- oder JSON-Format vorliegen.
  • Optional können Sie neue Einstellungen für die neue Iteration angeben, z. B. speakerCount, subtitleMaxCharCountPerSegment und exportSubtitleInVideo.

Für Authentifizierung und Autorisierung müssen Sie die folgenden Header und Pfad-IDs in Ihre Anforderung einschließen:

  • Legen Sie den Operation-Id Header fest: Der Operation-Id muss für jeden Vorgang eindeutig sein, z. B. für die Generierung jeder Iteration. Ersetzen Sie Your-Operation-Id durch eine eindeutige ID für diesen Vorgang.
  • Ersetzen Sie Your-Translation-Id im Pfad. Verwenden Sie dieselbe Übersetzungs-ID, die Sie beim Erstellen der Übersetzung angegeben haben. Die Übersetzungs-ID bleibt unverändert.
  • Geben Sie einen neuen Wert für iterationId im Pfad an. Die Iterations-ID muss für jeden Vorgang eindeutig sein. Ersetzen Sie Your-Iteration-Id-2 durch eine Iterations-ID Ihrer Wahl.
  • Ersetzen Sie YourSpeechResourceKey durch den Schlüssel Ihrer Speech-Ressource und YourSpeechResourceRegion durch die Region Ihrer Speech-Ressource.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" \
-H "Operation-Id: Your-Operation-Id" \
-H "Content-Type: application/json" \
-d '{
  "input": {
    "webvttFile": {
      "url": "https://YourBlobStorageUrl/YourWebVTTFile.vtt"
    }
  }
}' "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id/iterations/Your-Iteration-Id-2?api-version=2024-05-20"

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "input": {
    "webvttFile": {
      "url": "https://YourBlobStorageUrl/YourWebVTTFile.vtt"
    }
  },
  "status": "NotStarted",
  "lastActionDateTime": "2025-03-06T19:15:38.722Z",
  "id": "Your-Iteration-Id-2",
  "createdDateTime": "2025-03-06T19:15:38.722Z"
}

Sie können die angegebene Vorgangs-ID verwenden und den Get-Vorgang nach Vorgangs-ID-API regelmäßig verwenden, bis der zurückgegebene Status ist Succeeded oder Failed. Mit diesem Vorgang können Sie den Fortschritt der Erstellung des Iterationsprozesses überwachen. Die Statuseigenschaft sollte von NotStarted zu Running fortschreiten und schließlich zu Succeeded oder Failed gelangen.

Abrufen eines Vorgangs anhand einer Vorgangs-ID

Überprüfen Sie den Status eines Vorgangs mithilfe der Vorgangs-ID. Die Vorgangs-ID ist für jeden Vorgang eindeutig, sodass Sie jeden Vorgang separat nachverfolgen können. Die Vorgangs-ID ist gültig, bis die Übersetzung gelöscht wird.

  • Geben Sie denselben Wert für Operation-Id an, den Sie beim Erstellen der Übersetzung verwendet haben. Im Beispiel Your-Operation-Id-1 wird verwendet. Ersetzen Sie Your-Operation-Id-1 durch eine Vorgangs-ID Ihrer Wahl.
  • Ersetzen Sie YourSpeechResourceKey durch den Schlüssel Ihrer Speech-Ressource und YourSpeechResourceRegion durch die Region Ihrer Speech-Ressource.
curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/operations/Your-Operation-Id-1?api-version=2024-05-20" 

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "id": "Your-Operation-Id-1",
  "status": "Running"
}

Löschen einer Übersetzung anhand einer Übersetzungs-ID

Entfernen Sie eine bestimmte Übersetzung, die anhand von translationId identifiziert wird. Mit diesem Vorgang werden auch alle Iterationen entfernt, die dieser Übersetzung zugeordnet sind.

Ersetzen Sie YourSpeechResourceKey durch Ihren Sprachressourcenschlüssel, YourSpeechResourceRegion durch Ihren Sprachressourcenbereich, und Your-Translation-Id durch die Übersetzungs-ID, die Sie löschen möchten. Wenn sie nicht manuell gelöscht werden, behält der Dienst den Übersetzungsverlauf für bis zu 31 Tage bei.

curl -v -X DELETE -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id?api-version=2024-05-20" 

Die Antwortheader enthalten HTTP/1.1 204 No Content, wenn die Löschanforderung erfolgreich war.

REST-API-Vorgänge

Sie können die folgenden REST-API-Vorgänge für die Videoübersetzung verwenden:

Vorgang Methode REST-API-Aufruf
Erstellen einer Übersetzung PUT /translations/{translationId}
Übersetzungen auflisten GET /translations
Abrufen einer Übersetzung anhand einer Übersetzungs-ID GET /translations/{translationId}
Erstellen einer Iteration PUT /translations/{translationId}/iterations/{iterationId}
Auflisten von Iterationen GET /translations/{translationId}/iterations
Abrufen einer Iteration anhand einer Iterations-ID GET /translations/{translationId}/iterations/{iterationId}
Abrufen eines Vorgangs anhand einer Vorgangs-ID GET /operations/{operationId}
Löschen einer Übersetzung anhand einer Übersetzungs-ID DELETE /translations/{translationId}

Codebeispiele finden Sie auf GitHub.

Dieser Abschnitt enthält Beispiele für andere Videoübersetzungs-API-Aufrufe, die zuvor nicht ausführlich beschrieben werden.

Übersetzungen anzeigen

Wenn Sie alle Videoübersetzungen auflisten möchten, die in Ihrem Ressourcenkonto hochgeladen und verarbeitet werden, erstellen Sie eine HTTP GET-Anforderung, wie im folgenden Beispiel gezeigt. Ersetzen Sie YourSpeechResourceKey durch den Schlüssel Ihrer Speech-Ressource und YourSpeechResourceRegion durch die Region Ihrer Speech-Ressource.

curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations?api-version=2024-05-20"

Abrufen einer Übersetzung anhand einer Übersetzungs-ID

Dieser Vorgang ruft detaillierte Informationen zu einer bestimmten Übersetzung ab, die anhand ihrer eindeutigen translationId identifiziert wird. Ersetzen Sie YourSpeechResourceKey durch Ihren Sprachressourcenschlüssel, YourSpeechResourceRegion durch Ihren Sprachressourcenbereich, und Your-Translation-Id durch die Übersetzungs-ID, die Sie überprüfen möchten.

curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id?api-version=2024-05-20" 

Auflisten von Iterationen

Listen Sie alle Iterationen für eine bestimmte Übersetzung auf. Diese Anforderung listet alle Iterationen ohne detaillierte Informationen auf. Ersetzen Sie YourSpeechResourceKey durch Ihren Sprachressourcenschlüssel, YourSpeechResourceRegion durch Ihren Sprachressourcenbereich, und Your-Translation-Id durch die Übersetzungs-ID, die Sie überprüfen möchten.

curl -v -X GET -H "Ocp-Apim-Subscription-Key: YourSpeechResourceKey" "https://YourSpeechResourceRegion.api.cognitive.microsoft.com/videotranslation/translations/Your-Translation-Id/iterations?api-version=2024-05-20"  

HTTP-Statuscodes

Im Abschnitt werden die HTTP-Antwortcodes und -Nachrichten aus der REST-API der Videoübersetzung erläutert.

HTTP 200 OK

„HTTP 200 OK“ gibt an, dass die Anforderung erfolgreich war.

HTTP-Fehler 204

Ein HTTP-Fehler 204 gibt an, dass die Anforderung erfolgreich war, die Ressource aber nicht vorhanden ist. Zum Beispiel:

  • Sie haben versucht, eine nicht vorhandene Übersetzung abzurufen oder zu löschen.
  • Sie haben eine Übersetzung erfolgreich gelöscht.

HTTP-Fehler 400

Hier sehen Sie Beispiele, die zum Fehler 400 führen können:

  • Das angegebene Quell- oder Zielgebietsschema gehört nicht zu den unterstützten Gebietsschemas.
  • Sie haben versucht, eine F0-Speech-Ressource zu verwenden, die Region unterstützt aber nur den Tarif Standard für Speech-Ressourcen.

HTTP-Fehler 500

Der interne Serverfehler HTTP 500 gibt an, dass bei der Anforderung ein Fehler aufgetreten ist. Der Antworttext enthält die Fehlermeldung.