Teilen über


Leitfaden für Dokumentformate und Namenskonventionen

Jede Datei, die in Custom Translator verwendet wird, muss mindestens vier Zeichen umfassen.

Diese Tabelle zeigt alle unterstützten Dateiformate, die Sie zum Erstellen Ihres Übersetzungssystems verwenden können:

Format Erweiterungen Beschreibung
XLIFF .XLF, .XLIFF Ein Format für parallele Dokumente, das auch Translation Memory-Systeme exportiert. Die verwendeten Sprachen werden in der Datei definiert.
TMX .TMX Ein Format für parallele Dokumente, das auch Translation Memory-Systeme exportiert. Die verwendeten Sprachen werden in der Datei definiert.
ZIP .ZIP Ein Archivdateiformat.
Locstudio .LCL Ein Microsoft-Format für parallele Dokumente.
Microsoft Word .DOCX Das Format von Microsoft Word.
Adobe Acrobat .PDF Dies ist das Portable Document Format von Adobe Acrobat.
HTML .HTML, .HTM HyperText Markup Language-Dokument
Textdatei .TXT Mit UTF-16 oder UTF-8 codierte Textdateien. Der Dateiname darf keine japanischen Zeichen enthalten.
Ausgerichtete Textdatei .ALIGN Sie können die spezielle Erweiterung .ALIGN verwenden, wenn Sie wissen, dass alle Sätze im Dokumentenpaar einander genau zugeordnet sind. Wenn Sie eine .ALIGN-Datei bereitstellen, richtet der benutzerdefinierte Translator die Sätze nicht für Sie aus.
Excel-Datei .XLSX Excel-Datei (2013 oder höher). Die erste Zeile in der Tabellenkalkulation muss der Sprachcode sein.

Wörterbuchformate

Für Wörterbücher unterstützt der benutzerdefinierte Translator alle Dateiformate, die für Trainingssets unterstützt werden. Wenn Sie ein Wörterbuch im Excel-Format verwenden, sollte die erste Zeile der Tabellenkalkulation den Sprachcode enthalten.

ZIP-Dateiformate

Dokumente können in einer einzigen ZIP-Datei gruppiert und hochgeladen werden. Der benutzerdefinierte Translator unterstützt die ZIP-Dateiformate (ZIP, GZ undTGZ).

Jedes Dokument in der ZIP-Datei mit der Erweiterung TXT, HTML, HTM, PDF, DOCX, ALIGN muss dieser Benennungskonvention befolgen:

{Dokumentname}_{Sprachcode}, wobei {Dokumentname} der Name Ihres Dokuments ist, {Sprachcode} die ISO-Sprach-ID (zwei Zeichen), die angibt, dass das Dokument Sätze in dieser Sprache enthält. Dem Sprachcode muss ein Unterstrich (_) vorausgehen.

Die Dateien sollten beispielsweise data_en und data_es genannt werden, um zwei parallele Dokumente in einer ZIP-Datei für ein Englisch-zu-Spanisch-System hochzuladen.

TM-Dateien (TMX, XLF, XLIFF, LCL, XLSX) müssen keiner spezifischen Sprachnamenskonvention folgen.

Nächste Schritte