Поделиться через


Что такое параллельные документы

Параллельные документы — это пары документов, среди которых один является переводом другого. Один документ в паре содержит предложения на исходном языке, а другой — эти же предложения, переведенные на целевой язык. Не имеет значения, какой язык помечен как исходный, а какой как целевой. Параллельный документ может использоваться для обучения системы перевода в любом направлении.

Требования

Вам потребуется не менее 10 000 уникальных параллельных предложений для обучения системы. Это ограничение позволяет гарантировать, что параллельные предложения содержат достаточно уникальных слов для успешного обучения модели перевода. Рекомендуется постоянно добавлять параллельное содержимое и переобучать систему перевода, чтобы улучшить ее качество. Дополнительные сведения см. в разделеВыравнивание предложений.

Корпорация Майкрософт требует, чтобы документы, передаваемые в Пользовательский переводчик, не нарушали авторские права или интеллектуальную собственность третьих лиц. Дополнительные сведения см. в статье об условиях использования. Передача документа с помощью портала не изменяет права на интеллектуальную собственность в самом документе.

Использование параллельных документов

В системе параллельные документы используются:

  1. Чтобы узнать, как слова, фразы и предложения обычно сопоставляются между двумя языками.

  2. Чтобы узнать, как обрабатывать соответствующий контекст в зависимости от расположенных рядом фраз. Слово может не всегда переводиться словом с аналогичным значением на другом языке.

Рекомендуется убедиться, что между версиями документов исходного и целевого языка есть однозначное соответствие.

Если ваш проект относится к определенной предметной области (категории), ваши документы должны соответствовать терминологии этой категории. Качество полученной системы перевода зависит от количества предложений в вашем наборе документов и качества предложений. Чем больше примеров с различными вариантами использования слов, специфичными для вашей категории, содержится в документах, тем лучше будет перевод.

Переданные документы являются закрытыми для каждой рабочей области и могут использоваться в любом количестве проектов или обучений. Предложения, извлеченные из ваших документов, хранятся отдельно в вашем репозитории в виде простых текстовых файлов в кодировке Юникод, и вы можете удалить их. Не используйте Пользовательский переводчик в качестве репозитория документов: вы не сможете скачать загруженные документы в том формате, в котором их отправили.

Дальнейшие действия