Бөлісу құралы:


Что такое обучение и моделирование?

Моделью называется система, которая предоставляет перевод для определенной языковой пары. Модель создается в результате успешного обучения. Для обучения модели требуются три взаимоисключающих типа документов: учебный, настроечный и тестовый. Также можно указать тип документа словаря. Дополнительные сведения см. в разделе "Выравнивание предложений".

Если при очереди обучения предоставляются только обучающие данные, настраиваемый переводчик автоматически собирает данные настройки и тестирования. Он использует случайное подмножество предложений из обучающих документов и исключает эти предложения из самих обучающих данных.

Тип учебных документов для Пользовательского переводчика

Документы, которые включены в учебный набор, используются Custom Translator как основа для создания модели. В процессе обучения выравниваются (попарно сопоставляются) все предложения, которые присутствуют в этих документах. При составлении набора учебных документов вы можете проявить креативность. Можно даже включить в одну из моделей документы, которые имеют косвенное отношение к целевой сфере. Исключая их в другой модели, вы увидите их влияние на оценку BLEU (Bilingual Evaluation Understudy). Сохраняя неизменными настроечный и тестовый наборы данных, вы можете смело экспериментировать с составом учебного набора. Такой подход позволяет эффективно повышать качество системы перевода.

В рамках проекта можно запустить несколько процессов обучения, а затем сравнить оценки BLEU для всех результатов обучения. Выполняя несколько процессов обучения для сравнения, не забывайте использовать одинаковые настроечные и тестовые данные. Также не забывайте вручную проверять результаты на вкладке Тестирование.

Тип настроечных документов для Пользовательского переводчика

Custom Translator использует параллельные документы, включенные в этот набор, для настройки оптимальных результатов системы перевода.

Настроечные данные в процессе обучения используются для корректировки всех параметров и весовых коэффициентов системы перевода до оптимальных значений. Настроечные данные следует выбирать особенно тщательно, ведь они должны репрезентативно отражать содержимое тех документов, которые вы намерены переводить в будущем. Настроечные данные сильнее всего влияют на качество получаемых переводов. Настройка системы перевода позволяет получать переводы, максимально близкие к образцам из настроечных данных. В данных настройки не требуется более 2500 предложений. Для оптимального качества перевода рекомендуется выбрать набор настроек вручную, выбрав наиболее репрезентативный выбор предложений.

При создании настроечного набора выбирайте информативные предложения характерной длины, которые будут точно отражать реальные предложения, которые вы намерены переводить. Выбирайте предложения, которые содержат типичные для последующих переводов слова и фразы, и приблизительно в правильном соотношении. На практике длина предложения от 7 до 10 слов дает наилучшие результаты. Именно такие предложения содержат достаточно контекста для демонстрации формообразования и достаточно длинные фразы, но не будут слишком сложными.

Реальные правильно составленные предложения — эта краткая характеристика точно дает понять, какие предложения лучше всего использовать для настроечного набора. Здесь не должно быть ячеек из таблиц, стихотворений или списков, и ни в коем случае строк из одних символов или цифр. Нужна простая, обычная речь.

Если вы отбираете настроечные данные вручную, не включайте в них предложения из учебного или тестового набора данных. Настроечные данные кардинально влияют на качество переводов, поэтому подбирайте предложения тщательно.

Если вы не совсем уверены в выборе настроечных данных, ограничьтесь выбором учебных данных и предоставьте Пользовательскому переводчику возможность самостоятельно выбрать настроечные данные. При автоматическом выборе данных настройки настраиваемый переводчик использует случайное подмножество предложений из двуязычных обучающих документов и исключает эти предложения из самого учебного материала.

Тестовый набор данных для Custom Translator

Параллельные документы, которые включены в тестовый набор, используются для вычисления оценки BLEU (Bilingual Evaluation Understudy). Она позволяет проверить качество системы перевода. По сути эта оценка указывает, насколько точно переводы, выполненные обученной системой перевода, соответствуют эталонным предложениям из тестового набора данных.

Оценка BLEU — это мера различий между автоматическим переводом и эталонным переводом в диапазоне от 0 до 100. Оценка 0 означает, что в переводе нет ни одного слова из эталонного набора. Оценка 100 означает, что автоматический перевод идеально соответствует эталонному, то есть каждое слово оказалось на том же месте. Общей оценкой BLEU становится среднее значение по всем предложениям из тестовых данных.

Тестовые данные должны включать параллельные документы с такими парами предложений, в которых перевод считается наиболее подходящим для исходного предложения из этой пары исходного и целевого языков. Вы можете применить те же критерии, что и для настроечных данных. Однако данные тестирования не влияют на качество системы перевода и используются исключительно для создания оценки BLEU.

Нет смысла включать в тестовые данные более 2500 предложений. При автоматическом выборе набора тестирования система использует случайное подмножество предложений из двуязычных учебных документов и исключает эти предложения из самого учебного материала.

Вы можете просмотреть полученные переводы по тестовому набору и сравнить их с теми, которые вы предоставили в самом тестовом наборе, перейдя на вкладку "Тест" в модели.

Next Steps