Поделиться через


Руководство по форматам документов и соглашениям об именовании

Имя любого файла, используемого для пользовательского перевода, должно содержать по крайней мере четыре символа.

Эта таблица содержит все поддерживаемые форматы файлов, которые можно использовать для построения системы перевода:

Формат Модули Описание
XLIFF .XLF, .XLIFF Формат параллельных документов, экспортируемых системами памяти переводов. Используемые языки определены в файле.
TMX .TMX Формат параллельных документов, экспортируемых системами памяти переводов. Используемые языки определены в файле.
ZIP ZIP ZIP — это формат файла архива.
Locstudio .LCL Формат параллельных документов Майкрософт
Microsoft Word .DOCX Документ Microsoft Word
Adobe Acrobat .PDF Переносимый документ Adobe Acrobat
HTML .HTML, .HTM HTML-документ
текстовый файл .TXT Текстовые файлы в кодировке UTF-16 или UTF-8. Имя файла не должно содержать японских символов.
Файл с сопоставленным текстом .ALIGN .ALIGN — это специальное расширение, которое можно использовать, если известно, что предложения в паре документов идеально сопоставлены. Если вы предоставляете файл .ALIGN, Пользовательский переводчик не будет сопоставлять предложения.
Файл Excel .XLSX Файл Excel (2013 или более поздней версии). Первая строка таблицы должна быть кодом языка.

Форматы словарей

Для словарей Пользовательский переводчик поддерживает все форматы файлов, поддерживаемые для обучающих наборов. Если вы используете словарь в формате Excel, первая строка таблицы должна содержать коды языков.

Форматы ZIP-файлов

Документы могут быть сгруппированы в один ZIP-файл и отправлены в таком виде. Custom Translator поддерживает форматы ZIP-файлов (ZIP, GZ и TGZ).

Каждый документ в ZIP-файле с расширением .txt, .html, .htm, .pdf, .docx, .align должен соответствовать этому соглашению об именовании:

{имя документа}_{код языка}, где {имя документа} — имя документа, {код языка} — идентификатор LanguageID ISO (два символа), указывающий, что документ содержит предложения на этом языке. Перед кодом языка должен присутствовать символ подчеркивания (_).

Например, чтобы отправить два параллельных документа в ZIP-файле для системы перевода с английского на испанский, они должны называться "data_en" и "data_es" соответственно.

Файлы памяти перевода (TMX, XLF, XLIFF, LCL, XLSX) не обязаны соответствовать соглашению об именовании для определенного языка.

Дальнейшие действия