Поделиться через


Настройка языковой модели с помощью индексатора видео Azure AI

Индексатор видео Azure AI поддерживает автоматическое распознавание речи благодаря интеграции с пользовательской службой речи Майкрософт. Вы можете настроить языковую модель, загрузив текст адаптации. Этот текст взят из области, словарь которой вы хотели бы, чтобы движок адаптировал к нему. После обучения модели новые слова, появляющиеся в тексте адаптации, распознаются при условии стандартного произношения, и языковая модель изучает новые вероятные последовательности слов. Список поддерживаемых Azure AI Video Indexer языков см. на поддерживаемых языках.

Например, Kubernetes (в контексте службы Azure Kubernetes) — это слово, которое является очень специфичным. Так как это слово является новым для индексатора видео Azure AI, его признают сообществами. Обучите модель распознавать ее как Kubernetes. В других случаях слова существуют, но языковая модель не ожидает, что они появятся в определенном контексте. Например, служба контейнера — это не последовательность из двух слов, которую неспециализированная языковая модель распознала бы как определенный набор слов.

Существует два способа настройки языковой модели:

  • Вариант 1: Отредактируйте расшифровку, созданную индексатором видео Azure AI. Редактируя и исправляя расшифровку, вы обучаете языковую модель, чтобы обеспечить улучшенные результаты в будущем.
  • Вариант 2: Загрузите текстовые файлы для обучения языковой модели. Файл может содержать список слов в том виде, в котором вы хотели бы, чтобы они отображались в расшифровке Индексатора видео. Или он может содержать соответствующие слова, которые естественным образом включены в предложения и абзацы. Поскольку при последнем подходе достигаются лучшие результаты, мы рекомендуем, чтобы файл загрузки содержал полные предложения или абзацы, связанные с вашим контентом.

Это важно

Не включайте в файл загрузки слова или предложения, которые в настоящее время неправильно расшифрованы (например, сообщества), так как это сведет на нет предполагаемое воздействие. Включайте слова только в том виде, в котором вы хотели бы, чтобы они отображались (например, Kubernetes).

Оптимизируйте свою пользовательскую языковую модель

Индексатор видео Azure AI обучается на основе вероятностей словосочетаний, поэтому для наилучшего обучения:

  • Приведите достаточно реальных примеров предложений в том виде, в каком они были бы произнесены.
  • Ставьте только одно предложение в строке, не больше. В противном случае система изучает вероятности в предложениях.
  • Это нормально — поставить одно слово в качестве предложения, чтобы усилить слово по сравнению с другими, но система лучше всего учится на полных предложениях.
  • При введении новых слов или аббревиатур, если это возможно, приведите как можно больше примеров использования в полном предложении, чтобы дать как можно больше контекста системе.
  • Попробуйте поставить несколько вариантов адаптации, и посмотрите, как они работают для вас.
  • Избегайте многократного повторения одного и того же предложения. Это может создать предвзятость по отношению к остальной части входных данных.
  • Избегайте включения необычных символов (~, # @ % &), потому что они будут отброшены. Предложения, в которых они отображаются, также удаляются.
  • Избегайте использования входных данных большого объема, таких как сотни тысяч предложений, потому что это разбавляет эффект ускорения.

Предпосылки

  • Учетная запись Azure.
  • Учетная запись индексатора видео Azure AI

Создание языковой модели

  1. Перейдите на веб-сайт Azure AI Video Indexer и войдите.
  2. Чтобы настроить модель в учетной записи, в левой части страницы нажмите кнопку Настройка модели содержимого.
  3. Выберите вкладку Язык . Вы увидите список поддерживаемых языков.
  4. Под нужным языком выберите Добавить модель.
  5. Введите название языковой модели и нажмите Enter. На этом шаге создается модель и предоставляется возможность загрузки текстовых файлов в модель.
  6. Чтобы добавить текстовый файл, выберите Добавить файл. Откроется проводник.
  7. Перейдите к текстовому файлу и выберите его. В языковую модель можно добавить несколько текстовых файлов. Вы также можете добавить текстовый файл, нажав кнопку ... в правой части языковой модели и выбрав Добавить файл.
  8. После того, как вы закончите загрузку текстовых файлов, выберите зеленую опцию «Поезд ».

Процесс обучения может занять несколько минут. После завершения обучения рядом с моделью появится надпись Обучено . Вы можете просмотреть, скачать и удалить файл из модели.

Использование языковой модели в новом видео

Чтобы использовать языковую модель в новом видео, выполните одно из следующих действий:

  1. Выберите «Загрузить » в верхней части страницы.
  2. Перетащите аудио- или видеофайл или найдите нужный файл.
  3. Выберите созданную языковую модель из списка исходных языков видео .
  4. Выберите вариант «Загрузить » в нижней части страницы, и новое видео будет проиндексировано с использованием вашей языковой модели.

Использование языковой модели для повторной индексации

  1. Войдите на домашнюю страницу Индексатора видео Azure AI .
  2. Нажмите многоточие (...) на видео, а затем выберите «Переиндексировать».
  3. Выберите список исходных языков видео и выберите созданную языковую модель из списка.
  4. Выберите «Переиндексировать», и ваше видео будет повторно индексировано с использованием вашей языковой модели.

Редактирование языковой модели

Вы можете редактировать языковую модель, изменяя ее имя, добавляя в нее файлы и удаляя из нее файлы. Если вы добавляете или удаляете файлы из языковой модели, вам придется снова обучить модель, выбрав зеленый параметр «Обучение ».

Переименование языковой модели

Вы можете изменить имя языковой модели, щелкнув многоточие (...) в правой части языковой модели и выбрав Переименовать. Введите новое имя.

Добавление файлов

  1. Выберите Добавить файл. Откроется проводник.
  2. Перейдите к текстовому файлу и выберите его. В языковую модель можно добавить несколько текстовых файлов.

Вы также можете добавить текстовый файл, нажав кнопку с многоточием (...) в правой части языковой модели и выбрав Добавить файл.

Удаление файлов

Это действие полностью удаляет файл из языковой модели.

  1. Нажмите кнопку с многоточием (...) в правой части текстового файла.
  2. Нажмите кнопку "Удалить". Появится новое окно с сообщением о том, что удаление не может быть отменено.
  3. Выберите опцию «Удалить » в новом окне.

Удаление языковой модели

Это действие полностью удаляет языковую модель из вашей учетной записи. Любое видео, в котором использовалась удаленная языковая модель, сохраняет тот же индекс до тех пор, пока вы не проиндексируете видео. Если вы повторно индексируете видео, вы можете назначить ему новую языковую модель. В противном случае индексатор видео Azure AI использует модель по умолчанию для повторной индексации видео.

  1. Нажмите кнопку с многоточием (...) в правой части диалогового окна Языковая модель.
  2. Нажмите кнопку "Удалить". Появится новое окно с сообщением о том, что удаление не может быть отменено.
  3. Выберите опцию «Удалить » в новом окне.

Настройка языковых моделей путем исправления расшифровок

Индексатор видео Azure AI настраивает языковые модели на основе фактических исправлений, которые пользователи вносят в транскрибирование своих видео. Он захватывает все строки, которые вы исправили в транскрипции вашего видео, и добавляет их в текстовый файл с именем From transcript edits. Эти изменения используются для повторного обучения языковой модели, которая использовалась для индексации видео.

Также включены изменения, которые были сделаны на временной шкале виджета .

Если вы не указали языковую модель при индексировании этого видео, все изменения для этого видео хранятся в языковой модели по умолчанию, которая называется Account adaptations в пределах обнаруженного языка видео.

В случае, если в одну и ту же строку было внесено несколько изменений, для обновления языковой модели используется только последняя версия исправленной строки.

Замечание

Для настройки используются только текстовые исправления. Исправления, которые не связаны с реальными словами (например, знаки препинания или пробелы), не включаются.

  1. Выберите видео, которое вы хотите редактировать, из своей медиатеки.
  2. Перейдите на вкладку Временная шкала.
  3. Выберите значок карандаша, чтобы отредактировать расшифровку расшифровки.
  4. Исправления в расшифровке отображаются на вкладке Язык на странице Настройка модели содержимого. Чтобы просмотреть файл "Из изменений расшифровки" для каждой из ваших языковых моделей, выберите его, чтобы открыть.