Создание учебных документов и управление ими
Пользовательский переводчик позволяет создавать модели перевода, отражающие терминологию и стиль, характерные для бизнеса, отрасли и предметной области. Обучение и развертывание пользовательской модели выполняется легко и не требует навыков программирования. Пользовательский переводчик позволяет отправлять параллельные файлы, файлы памяти перевода или ZIP-файлы.
Параллельные документы — это пары документов, в которых один (целевой документ) является переводом другого (исходного документа). Один документ в паре содержит предложения на исходном языке, а другой — эти же предложения, переведенные на целевой язык.
Перед отправкой документов просмотрите руководство по форматам документов и соглашениям об именовании и убедитесь, что формат вашего файла поддерживается Пользовательским переводчиком.
Создание наборов документов
Поиск качественных данных в домене часто сопряжен с трудностями, которые зависят от классификации пользователей. Ниже приведены некоторые вопросы, которые можно задать себе при оценке доступных для вас данных.
Предприятия часто имеют множество данных перевода, накопленных за несколько лет использования услуг переводчика-человека. Имеются ли у вашей компании предыдущие данные перевода, которые можно использовать?
Есть ли у вас огромное количество одноязычных данных? Одноязычные данные — это данные только на одном языке. Если да, можно ли получить переводы для этих данных?
Можно ли просканировать веб-порталы, чтобы собрать исходные предложения и синтезировать их перевод на целевой язык?
Обучающие материалы для каждого типа документов
Источник | Действие | Правила для выполнения |
---|---|---|
Двуязычные учебные документы | Позволяют системе научиться применять вашу терминологию и стиль. | Будьте снисходительны. Любой найденный в домене перевод, выполненный человеком, будет лучше машинного. Добавляйте и удаляйте документы по ходу работы и постарайтесь улучшить оценку BLEU. |
Настройка документов | Помогает научиться применять параметры нейронного машинного перевода. | Будьте строги. Составляйте параметры так, чтобы они оптимально соответствовали тому, что вы собираетесь переводить в будущем. |
Проверка документов | Позволяет вычислить оценку BLEU. | Будьте строги. Составляйте тестовые документы так, чтобы они были оптимально соответствовали тому, что вы собираетесь переводить в будущем. |
Словарь фраз | Принудительно выполняет заданный перевод в течение всего времени. | Ставьте ограничения. Словарь фраз учитывает регистр, а все слова и фразы, занесенные в список, переводятся указанным способом. Во многих случаях лучше не использовать словарь фраз и дать системе возможность обучиться. |
Словарь предложений | Принудительно выполняет заданный перевод в течение всего времени. | Будьте строги. В словаре предложений не учитывается регистр, и он хорошо подходит для коротких предложений, которые нередко встречаются в домене. Чтобы засчитывалось совпадение со словарем предложений, запись в словаре должна полностью и точно совпадать с полученным предложением. Если совпадает только часть предложения, такая запись не применяется. |
Отправка документов
Типы документов связаны с парой языков, выбранной при создании проекта.
Войдите на портал Пользовательский переводчик. На экране появится рабочая область по умолчанию и список ранее созданных проектов.
Выберите имя нужного проекта. По умолчанию выбрана колонка Управление документами и отображается список ранее отправленных документов.
Щелкните Добавить набор документов и выберите тип документа:
- Учебный набор
- Проверочный набор
- Набор для настройки
- Набор словарей:
- Словарь фраз
- Словарь предложений
Выберите Далее.
Примечание
При выборе Набора словарей открывается диалоговое окно Выберите тип словаря. Выберите один элемент и нажмите кнопку Далее.
Выберите формат документов в разделе с переключателями.
- Для Параллельных документов заполните поле
Document set name
и щелкните Обзор файлов, чтобы выбрать исходный и целевой документы. - Для файла Память перевода (TM) или Отправить несколько наборов в виде ZIP-файла щелкните Обзор файлов, чтобы выбрать файл.
- Для Параллельных документов заполните поле
Щелкните Отправить.
На этом этапе Пользовательский переводчик обрабатывает документы и пытается извлечь предложения, как указано в уведомлении об отправке. После завершения обработки вы увидите уведомление об успешной отправке.
Просмотр истории отправок
На странице рабочей области можно просмотреть журнал всех отправляемых документов, таких как тип документа, языковая пара, состояние отправки и т. д.
На странице рабочей области Портала Пользовательского переводчика щелкните вкладку "Журнал отправки", чтобы просмотреть журнал.
На этой странице отображается состояние всех ваших предыдущих отправок: от недавних до самых последних. Для каждой отправки отображается имя документа, состояние отправки, дата отправки, количество отправленных файлов, тип отправленного файла, языковая пара файла и создано . С помощью фильтра можно быстро находить документы по имени, состоянию, языку и диапазону дат.
Выберите любую запись журнала отправок. На странице сведений об истории отправок вы можете просматривать файлы, переданные как часть отправки, состояние отправки файла, язык файла и сообщения об ошибке (при наличии каких-либо ошибок во время отправки).
Дальнейшие действия
- Сведения об обучении модели см. в этой статье.
- Узнайте, как тестировать и оценивать качество модели.
- Узнайте, как опубликовать модель.
- Узнайте, как выполнять перевод с помощью пользовательских моделей.