Бөлісу құралы:


Ключевые термины Пользовательского переводчика

В следующей таблице представлен список ключевых терминов, которые могут быть встречены при работе с Пользовательским переводчиком.

Слово или фраза Определение
Исходный язык Исходный язык — это язык оригинала, с которого вы хотите перевести текст на другой язык (конечный язык).
Целевой язык Конечным языком является язык машинного перевода, который будет предоставляться после получения исходного языка.
Одноязычный файл Одноязычный файл имеет один язык, который не объединен с другим файлом на другом языке.
Параллельные файлы Параллельный файл является сочетанием двух файлов соответствующего текста. В одном файле представлен исходный язык, а в другом — конечный.
Выравнивание предложений Параллельный набор данных должен выровнять предложения с предложениями, которые представляют тот же текст на обоих языках. К примеру в исходном параллельном файле первое предложение, в теории, должно сопоставляться с первым предложением в целевом параллельном файле.
Выровненный текст Одним из важнейших этапов проверки файла является выравнивание предложений в параллельных документах. Вещи выражаются по-разному на разных языках. Кроме того, порядок слов в разных языках также отличается. Этот шаг выполняет задачу выравнивания предложений с одинаковым содержимым, чтобы их можно было использовать для обучения. Низкий уровень выравнивания предложений свидетельствует о том, что в одном или обоих файлах могут быть ошибки.
Разбивка и соединение слов Разбивка слов — это функция маркировки границ между словами. Во многих системах письма для маркировки границ между словами используются пустые пространства. Соединение слов означает удаление любого видимого маркера, который может быть вставлен между словами на предыдущем шаге.
Delimiters Разделители — это способы разделения предложения на сегменты или разделения полей между предложениями. Например, в английском языке пустые пространства разделяют слова, двоеточия и точки с запятой разделяют части предложения, а точки разделяют предложения.
Файлы для обучения Файл для обучения используется, чтобы научить систему машинного перевода сопоставлять исходный язык с конечным. Чем больше данных вы предоставляете, тем лучше система будет выполнять перевод.
Файлы для настройки Эти файлы часто случайным образом выводятся из обучающего набора (если не было задано каких-либо наборов настройки). Предложения автоматически выбираются и используются для настройки системы и обеспечения правильной работы. Если вы решите создавать собственные файлы настройки, убедитесь, что они представляют собой случайный набор предложений в доменах
Файлы для тестирования Эти файлы часто являются производными файлами, случайным образом выбранными в обучающем наборе (если вы не выбираете тестовый набор). Эти предложения предназначены для оценки точности модели перевода. Чтобы убедиться, что система точно переводит эти предложения, может потребоваться создать набор тестирования и отправить его переводчику. Это гарантирует, что предложения используются в оценке системы (создание оценки BLEU).
Комбинированный файл Тип файла, в котором исходные и переведенные предложения расположены в одном файле. Поддерживаемые форматы файлов: TMX, XLIFF, XLF, ICI, XLSX.
Файл архива Файл, содержащий другие файлы. Поддерживаемые форматы файлов: ZIP, GZ, TGZ.
Оценка BLEU BLEU — стандартный отраслевой метод для оценки точности модели перевода. Хотя существуют и другие методы оценки, Переводчик Майкрософт использует метод BLEU в отчетах о точности перевода для владельцев проекта.