Was ist die Dokumentübersetzung?

Die Dokumentübersetzung ist ein cloudbasiertes Feature für Maschinenübersetzung des Azure KI Übersetzer-Diensts. Sie können mehrere und komplexe Dokumente in allen unterstützten Sprachen und Dialekten übersetzen und dabei die ursprüngliche Dokumentstruktur und das Datenformat beibehalten. Die Dokumentübersetzungs-API unterstützt zwei Übersetzungsvorgänge:

  • Die asynchrone Batch-Dokumentübersetzung unterstützt die asynchrone Verarbeitung mehrerer Dokumente und großer Dateien. Für den Batchübersetzungsprozess ist ein Azure Blob Storage-Konto mit Containern für Ihre Quell- und übersetzten Dokumente erforderlich.

  • Die synchrone Dokumentübersetzung unterstützt die synchrone Verarbeitung einzelner Dateiübersetzungen. Für den Dateiübersetzungsprozess ist kein Azure Blob Storage-Konto erforderlich. Die endgültige Antwort enthält das übersetzte Dokument und wird direkt an den aufrufenden Client zurückgegeben.

Asynchrone Batchübersetzung

Verwenden Sie die asynchrone Dokumentverarbeitung, um mehrere Dokumente und große Dateien zu übersetzen.

Wichtige Features der Batchübersetzung

Funktion BESCHREIBUNG
Große Dateien übersetzen Übersetzen Sie ganze Dokumente asynchron.
Zahlreiche Dateien übersetzen Übersetzen Sie mehrere Dateien in und aus allen unterstützten Sprachen und Dialekten unter Beibehaltung der Dokumentstruktur und des Datenformats.
Darstellung der Quelldatei beibehalten Übersetzen Sie Dateien unter Beibehaltung des ursprünglichen Layouts und Formats.
Benutzerdefinierte Übersetzung anwenden Übersetzen Sie Dokumente mithilfe von allgemeinen und benutzerdefinierten Übersetzungsmodellen.
Benutzerdefinierte Glossare anwenden Übersetzen Sie Dokumente mithilfe von benutzerdefinierten Glossaren.
Dokumentsprache automatisch erkennen Lassen Sie den Dienst „Dokumentübersetzung“ die Sprache des Dokuments bestimmen.
Übersetzen von Dokumenten mit Inhalt in mehreren Sprachen Mit dem Feature zur automatischen Erkennung können Sie Dokumente mit mehrsprachigem Inhalt in Ihre Zielsprache übersetzen.

Batchentwicklungsoptionen

Sie können Ihre Anwendungen mithilfe der REST-API oder eines SDK für Clientbibliotheken um die Dokumentenübersetzung erweitern:

  • REST-API. Dies ist eine sprachunabhängige Schnittstelle, mit der Sie HTTP-Anforderungen und Autorisierungsheader zum Übersetzen von Dokumenten erstellen können.

  • Die Clientbibliothek-SDKs sind sprachspezifische Klassen, Objekte, Methoden und Code, die Sie schnell verwenden können, indem Sie ihrem Projekt einen Verweis hinzufügen. Derzeit bietet die Dokumentübersetzung Unterstützung für die Programmiersprachen C#/.NET und Python.

Unterstützte Dokumentformate für die Batchübersetzung

Die Methode „Abrufen unterstützter Dokumentformate“ gibt eine Liste von Dokumentformaten zurück, die vom Dokumentübersetzungsdienst unterstützt werden. Die Liste enthält die gemeinsame Dateierweiterung und den Inhaltstyp, wenn die Upload-AP verwendet wird.

Dateityp Dateierweiterung BESCHREIBUNG
Adobe PDF pdf Portable Document File-Format Bei der Dokumentübersetzung wird OCR-Technologie (Optical Character Recognition, optische Zeichenerkennung) verwendet, um Text in gescannten PDF-Dokumenten zu extrahieren und zu übersetzen, während das ursprüngliche Layout beibehalten wird.
Durch Trennzeichen getrennte Datei csv Eine durch Trennzeichen getrennte Datei mit Rohdaten, die von Tabellenkalkulationsprogrammen verwendet wird.
HTML html, htm Hyper Text Markup Language.
Localization Interchange File Format xlf Ein Format für parallele Dokumente, das auch Translation Memory-Systeme exportiert. Die verwendeten Sprachen werden in der Datei definiert.
Markdown markdown, mdown, mkdn, md, mkd, mdwn, mdtxt, mdtext, rmd Eine leichtgewichtige Markupsprache zum Erstellen von formatiertem Text
M​HTML mthml, mht Ein Webseitenarchivformat, das zum Kombinieren von HTML-Code und zugehörigen Ressourcen verwendet wird
Microsoft Excel xls, xlsx Eine Tabellenkalkulationsdatei zur Datenanalyse und Dokumentation.
Microsoft Outlook msg Eine E-Mail-Nachricht, die in Microsoft Outlook erstellt oder gespeichert wurde.
Microsoft PowerPoint ppt, pptx Eine Präsentationsdatei, die zur Anzeige von Inhalten in einem Präsentationsformat verwendet wird.
Microsoft Word doc, docx Eine Textdokumentdatei.
OpenDocument-Text odt Eine Open-Source-Textdokumentdatei
OpenDocument-Präsentation odp Eine Open-Source-Präsentationsdatei
OpenDocument-Arbeitsblatt ods Eine Open-Source-Tabellendatei
Rich Text Format rtf Ein Textdokument mit Formatierungen.
Per Tabulator getrennte Werte/TAB tsv/tab Eine durch Tabulator getrennte Datei mit Rohdaten, die von Tabellenkalkulationsprogrammen verwendet wird.
Text txt Ein unformatiertes Textdokument.

Legacydateitypen für die Batchübersetzung

Der Quelldateityp wird während der Dokumentübersetzung beibehalten, dabei gelten folgende Ausnahmen:

Quelldateierweiterung Erweiterung der übersetzten Datei
.doc, .odt, .rtf, .docx
.xls, .ods .xlsx
.ppt, .odp .pptx

Unterstützte Glossarformate für die Batchübersetzung

Die Dokumentübersetzung unterstützt die folgenden Glossardateitypen:

Dateityp Dateierweiterung BESCHREIBUNG
Durch Trennzeichen getrennte Datei csv Eine durch Trennzeichen getrennte Datei mit Rohdaten, die von Tabellenkalkulationsprogrammen verwendet wird.
Localization Interchange File Format xlf, xliff Ein Format für parallele Dokumente, das auch Translation Memory-Systeme exportiert. Die verwendeten Sprachen werden in der Datei definiert.
Durch Tabstopp getrennte Werte tsv, tab Eine durch Tabulator getrennte Datei mit Rohdaten, die von Tabellenkalkulationsprogrammen verwendet wird.

Synchrone Übersetzung

Verwenden Sie die synchrone Übersetzungsverarbeitung, um ein Dokument als Teil des HTTP-Anforderungstexts zu senden und das übersetzte Dokument in der HTTP-Antwort zu empfangen.

Wichtige Features der synchronen Übersetzung

Funktion Beschreibung
Übersetzen von Einzelseitendateien Die synchrone Anforderung akzeptiert nur ein einzelnes Dokument als Eingabe.
Darstellung der Quelldatei beibehalten Übersetzen Sie Dateien unter Beibehaltung des ursprünglichen Layouts und Formats.
Benutzerdefinierte Übersetzung anwenden Übersetzen Sie Dokumente mithilfe von allgemeinen und benutzerdefinierten Übersetzungsmodellen.
Benutzerdefinierte Glossare anwenden Übersetzen Sie Dokumente mithilfe von benutzerdefinierten Glossaren.
Übersetzung einer einzelnen Sprache Übersetzen in eine unterstützte Sprache und aus einer.
Dokumentsprache automatisch erkennen Lassen Sie den Dienst „Dokumentübersetzung“ die Sprache des Dokuments bestimmen.
Benutzerdefinierte Glossare anwenden Übersetzen eines Dokuments mithilfe eines benutzerdefinierten Glossars.

Unterstützte Dokumentformate für die synchrone Übersetzung

Dateityp Dateierweiterung Inhaltstyp Beschreibung
Nur-Text .txt text/plain Ein unformatiertes Textdokument.
Durch Tabstopp getrennte Werte .txv
.tab
text/tab-separated-values Ein Textdateiformat, das Tabstopps zum Trennen von Werten und Zeilenumbrüche zum Trennen von Datensätzen verwendet.
Durch Trennzeichen getrennte Werte .csv text/csv Ein Textdateiformat, das Kommas als Trennzeichen zwischen Werten verwendet.
HyperText Markup Language .html
.htm
text/html HTML ist eine Standardmarkupsprache, die zum Strukturieren von Webseiten und Inhalten verwendet wird.
MHTML .mthml
.mht
message/rfc822
@application/x-mimearchive
@multipart/related
Ein Archivdateiformat für Webseiten.
Microsoft PowerPoint .pptx application/vnd.openxmlformats-officedocument.presentationml.presentation Ein XML-basiertes Dateiformat, das für PowerPoint-Bildschirmpräsentationen verwendet wird.
Microsoft Excel .xlsx application/vnd.openxmlformats-officedocument.spreadsheetml.sheet Ein XML-basiertes Dateiformat, das für Excel-Kalkulationstabellen verwendet wird.
Microsoft Word .docx application/vnd.openxmlformats-officedocument.wordprocessingml.document Ein XML-basiertes Dateiformat, das für Word-Dokumente verwendet wird.
Microsoft Outlook .msg application/vnd.ms-outlook Ein Dateiformat, das für gespeicherte Outlook-E-Mail-Nachrichtenobjekte verwendet wird.
Xml Localization Interchange .xlf
.xliff
application/xliff+xml Ein standardisiertes XML-basiertes Dateiformat, das häufig in der Übersetzungs- und Lokalisierungssoftwareverarbeitung verwendet wird.

Unterstützte Glossarformate für die synchrone Übersetzung

Die Dokumentübersetzung unterstützt die folgenden Glossardateitypen:

Dateityp Dateierweiterung BESCHREIBUNG
Durch Trennzeichen getrennte Werte csv Eine durch Trennzeichen getrennte Datei mit Rohdaten, die von Tabellenkalkulationsprogrammen verwendet wird.
XmlLocalizationInterchange xlf, xliff Ein XML-basiertes Format zum Standardisieren der Weitergabe von Daten während des Lokalisierungsprozesses.
TabSeparatedValues tsv, tab Eine durch Tabulator getrennte Datei mit Rohdaten, die von Tabellenkalkulationsprogrammen verwendet wird.

Anforderungsgrenzwerte für die Dokumentübersetzung

Detaillierte Informationen zu den Anforderungsgrenzwerten des Azure KI-Übersetzungsdiensts finden Sie unterAnforderungsgrenzwerte der Dokumentübersetzung.

Datenresidenz von Dokumentübersetzungen

Die Datenresidenz der Dokumentübersetzung hängt von der Azure-Region ab, in der Ihre Textübersetzungsressource erstellt wurde:

  • Textübersetzungsressourcen, die in einer beliebigen Region in Europa (mit Ausnahme der Schweiz) erstellt werden, werden in einem Rechenzentrum in den Regionen „Europa, Westen“ und „Europa, Norden“ verarbeitet.
  • Textübersetzungs-Ressourcen, die in einer beliebigen Region in der Schweiz erstellt werden, werden in Rechenzentren in den Regionen „Schweiz, Norden“ und „Schweiz, Westen“ verarbeitet.
  • Textübersetzungsressourcen, die in einer beliebigen Region in Asien oder Australien erstellt werden, werden in einem Rechenzentrum in den Regionen „Asien, Südosten“ und „Australien, Osten“ verarbeitet.
  • Textübersetzungsressourcen, die in einer beliebigen anderen Region erstellt werden, einschließlich global, Nordamerika und Südamerika, werden in einem Rechenzentrum in den Regionen „USA, Osten“ und „USA, Westen 2“ verarbeitet.

✔️ Feature: Dokumentübersetzung
✔️ Dienstendpunkt: Benutzerdefiniert:<name-of-your-resource.cognitiveservices.azure.com/translator/text/batch/v1.1

Ressourcenregion Rechenzentrum für die Anforderungsverarbeitung
Beliebige Region innerhalb Europas (mit Ausnahme der Schweiz) Europa: „Europa, Norden“ • „Europa, Westen“
Schweiz Schweiz: „Schweiz, Norden“ • „Schweiz, Westen“
Beliebige Region in Asien-Pazifik und Australien Asien: „Asien, Südosten“ • „Australien, Osten“
Alle anderen Regionen, einschließlich global, Nordamerika und Südamerika USA: „USA, Osten“ • „USA, Westen 2“

Nächste Schritte

In unserer Schnellstartanleitung erfahren Sie, wie Sie schnell mit der Arbeit mit der Dokumentübersetzung beginnen können. Sie benötigen ein aktives Azure-Konto, damit Sie beginnen können. Wenn Sie noch nicht über eines verfügen, können Sie ein kostenloses Konto erstellen.