你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
文档格式和命名约定指南
用于自定义翻译的任何文件的长度必须至少为四个字符。
下表包含了可用于生成翻译系统的所有受支持文件格式:
格式 | 扩展 | 说明 |
---|---|---|
XLIFF | .XLF、.XLIFF | 并行文档格式,是翻译记忆系统的导出格式。 使用的语言在该文件中定义。 |
TMX | .TMX | 并行文档格式,是翻译记忆系统的导出格式。 使用的语言在该文件中定义。 |
ZIP | .ZIP | ZIP 是一种存档文件格式。 |
Locstudio | .LCL | 并行文档的 Microsoft 格式 |
Microsoft Word | .DOCX | Microsoft Word 文档 |
Adobe Acrobat | Adobe Acrobat 可移植文档 | |
HTML | .HTML、.HTM | HTML 文档 |
文本文件 | .TXT | UTF-16 或 UTF-8 编码的文本文件。 文件名不能包含日语字符。 |
对齐的文本文件 | .ALIGN | .ALIGN 是一个特殊的扩展名,如果你知道文档对中的句子已完美对齐,则可以使用此扩展名。 如果提供 .ALIGN 文件,自定义翻译工具不会对齐句子。 |
Excel 文件 | .XLSX | Excel 文件(2013 或更高版本)。 电子表格的第一行应是语言代码。 |
字典格式
对于字典,自定义翻译器支持训练集所支持的所有文件格式。 如果使用 Excel 字典,电子表格的第一行应是语言代码。
Zip 文件格式
可将文档组合到单个 zip 文件并上传。 自定义翻译支持 zip 文件格式(ZIP、GZ 和 TGZ)。
扩展名为 TXT、HTML、HTM、PDF、DOCX、ALIGN 的 zip 文件中的每个文档都必须遵循以下命名约定:
{document name}_{language code}:其中,{document name} 是文档的名称,{language code} 是 ISO 语言 ID(两个字符),指示文档包含采用该语言的句子。 语言代码的前面必须有下划线 (_)。
例如,若要在 zip 中为英语到西班牙语翻译系统上传两个并行文档,则应将文件命名为“data_en”和“data_es”。
翻译记忆库文件 (TMX、XLF、XLIFF、LCL、XLSX) 无需遵循特定的语言命名约定。