Создание учебных документов и управление ими

Пользовательский переводчик позволяет создавать модели перевода, отражающие терминологию и стиль, характерные для бизнеса, отрасли и предметной области. Обучение и развертывание пользовательской модели выполняется легко и не требует навыков программирования. Пользовательский переводчик позволяет отправлять параллельные файлы, файлы памяти перевода или ZIP-файлы.

Параллельные документы — это пары документов, в которых один (целевой документ) является переводом другого (исходного документа). Один документ в паре содержит предложения на исходном языке, а другой — эти же предложения, переведенные на целевой язык.

Перед отправкой документов просмотрите руководство по форматам документов и соглашениям об именовании и убедитесь, что формат вашего файла поддерживается Пользовательским переводчиком.

Создание наборов документов

Поиск качественных данных в домене часто сопряжен с трудностями, которые зависят от классификации пользователей. Ниже приведены некоторые вопросы, которые можно задать себе при оценке доступных для вас данных.

  • Предприятия часто имеют множество данных перевода, накопленных за несколько лет использования услуг переводчика-человека. Имеются ли у вашей компании предыдущие данные перевода, которые можно использовать?

  • Есть ли у вас огромное количество одноязычных данных? Одноязычные данные — это данные только на одном языке. Если да, можно ли получить переводы для этих данных?

  • Можно ли просканировать веб-порталы, чтобы собрать исходные предложения и синтезировать их перевод на целевой язык?

Обучающие материалы для каждого типа документов

Источник Действие Правила для выполнения
Двуязычные учебные документы Позволяют системе научиться применять вашу терминологию и стиль. Будьте снисходительны. Любой найденный в домене перевод, выполненный человеком, будет лучше машинного. Добавляйте и удаляйте документы по ходу работы и постарайтесь улучшить оценку BLEU.
Настройка документов Помогает научиться применять параметры нейронного машинного перевода. Будьте строги. Составляйте параметры так, чтобы они оптимально соответствовали тому, что вы собираетесь переводить в будущем.
Проверка документов Позволяет вычислить оценку BLEU. Будьте строги. Составляйте тестовые документы так, чтобы они были оптимально соответствовали тому, что вы собираетесь переводить в будущем.
Словарь фраз Принудительно выполняет заданный перевод в течение всего времени. Ставьте ограничения. Словарь фраз учитывает регистр, а все слова и фразы, занесенные в список, переводятся указанным способом. Во многих случаях лучше не использовать словарь фраз и дать системе возможность обучиться.
Словарь предложений Принудительно выполняет заданный перевод в течение всего времени. Будьте строги. В словаре предложений не учитывается регистр, и он хорошо подходит для коротких предложений, которые нередко встречаются в домене. Чтобы засчитывалось совпадение со словарем предложений, запись в словаре должна полностью и точно совпадать с полученным предложением. Если совпадает только часть предложения, такая запись не применяется.

Отправка документов

Типы документов связаны с парой языков, выбранной при создании проекта.

  1. Войдите на портал Пользовательский переводчик. На экране появится рабочая область по умолчанию и список ранее созданных проектов.

  2. Выберите имя нужного проекта. По умолчанию выбрана колонка Управление документами и отображается список ранее отправленных документов.

  3. Щелкните Добавить набор документов и выберите тип документа:

    • Учебный набор
    • Проверочный набор
    • Набор для настройки
    • Набор словарей:
      • Словарь фраз
      • Словарь предложений
  4. Выберите Далее.

    Снимок экрана: ссылка на отправку документа.

    Примечание

    При выборе Набора словарей открывается диалоговое окно Выберите тип словаря. Выберите один элемент и нажмите кнопку Далее.

  5. Выберите формат документов в разделе с переключателями.

    Снимок экрана: страница отправки документа.

    • Для Параллельных документов заполните поле Document set name и щелкните Обзор файлов, чтобы выбрать исходный и целевой документы.
    • Для файла Память перевода (TM) или Отправить несколько наборов в виде ZIP-файла щелкните Обзор файлов, чтобы выбрать файл.
  6. Щелкните Отправить.

На этом этапе Пользовательский переводчик обрабатывает документы и пытается извлечь предложения, как указано в уведомлении об отправке. После завершения обработки вы увидите уведомление об успешной отправке.

Снимок экрана: диалоговое окно обработки отправки документа.

Просмотр истории отправок

На странице рабочей области можно просмотреть журнал всех отправляемых документов, таких как тип документа, языковая пара, состояние отправки и т. д.

  1. На странице рабочей области Портала Пользовательского переводчика щелкните вкладку "Журнал отправки", чтобы просмотреть журнал.

    Снимок экрана: вкладка

  2. На этой странице отображается состояние всех ваших предыдущих отправок: от недавних до самых последних. Для каждой отправки отображается имя документа, состояние отправки, дата отправки, количество отправленных файлов, тип отправленного файла, языковая пара файла и создано . С помощью фильтра можно быстро находить документы по имени, состоянию, языку и диапазону дат.

    Снимок экрана: страница журнала отправки.

  3. Выберите любую запись журнала отправок. На странице сведений об истории отправок вы можете просматривать файлы, переданные как часть отправки, состояние отправки файла, язык файла и сообщения об ошибке (при наличии каких-либо ошибок во время отправки).

Дальнейшие действия