Настройка языковой модели с помощью индексатора видео Azure AI

Внимание

Из-за объявления об Службы мультимедиа Azure выхода на пенсию Индексатор видео Azure объявляет корректировки функций Индексатора видео Azure. Ознакомьтесь с изменениями, связанными с выходом на пенсию службы мультимедиа Azure (AMS), чтобы понять, что это означает для учетной записи Индексатора видео Azure. Ознакомьтесь с руководством по обновлению и миграции AMS: VI.

Индексатор видео Azure AI поддерживает автоматическое распознавание речи с помощью интеграции с Пользовательской службой распознавания речи Майкрософт. Вы можете настроить языковую модель, отправив текст адаптации. Этот текст поступает из домена, словарь которого вы хотите использовать подсистему для адаптации. После обучения модели новые слова, отображаемые в тексте адаптации, распознается, предполагая произношение по умолчанию, и языковая модель узнает новые вероятные последовательности слов. Список поддерживаемых языков Индексатора видео в Azure AI см. в поддерживаемых ланге.

Например, Kubernetes (в контексте службы Azure Kubernetes ) — это слово, которое является очень конкретным. Так как слово является новым для Индексатора видео в Azure AI, оно признано "сообществами". Необходимо обучить модель, чтобы распознать ее как Kubernetes. В других случаях слова существуют, но языковая модель не ожидает их отображения в определенном контексте. Например, "служба контейнеров" не является 2-словной последовательностью, которую неспециализированная языковая модель распознает как определенный набор слов.

Существует два способа настройки языковой модели:

  • Вариант 1. Изменение расшифровки, созданной индексатором видео Azure AI. Изменив и исправив расшифровку, вы обучаете языковую модель, чтобы обеспечить улучшенные результаты в будущем.
  • Вариант 2. Отправка текстовых файлов для обучения языковой модели. Файл отправки может содержать список слов, так как они должны отображаться в расшифровке индексатора видео или соответствующие слова, включенные естественно в предложения и абзацы. По мере достижения лучших результатов с помощью последнего подхода рекомендуется отправить файл, чтобы он содержал полные предложения или абзацы, связанные с вашим содержимым.

Внимание

Не включайте в файл отправки слова или предложения, как в настоящее время неправильно транскрибированные (например, "сообщества"), так как это приведет к отмене предполагаемого влияния. Включайте только слова, как они будут отображаться (например, Kubernetes).

Рекомендации для пользовательских языковых моделей

Индексатор видео Azure AI учится на основе вероятностей сочетаний слов, поэтому для лучшего изучения:

  • Предоставляйте достаточно реальных примеров предложений так, как их могли бы произносить.
  • Размещайте только одно предложение в строке, не более. В противном случае система изучит вероятности между предложениями.
  • Это нормально поставить одно слово в качестве предложения, чтобы повысить слово против других, но система учится лучше всего из полных предложений.
  • Если возможно, при внедрении новых слов или сокращений предоставляйте как можно больше примеров использования в полном предложении, чтобы предоставить системе как можно больше контекста.
  • Попробуйте несколько вариантов адаптации и узнайте, как они работают для вас.
  • Избегайте повторения одного предложения несколько раз. Может возникнуть смещение относительно остальных входных данных.
  • Избегайте включения необычных символов (~, # @ % &), так как они будут получать не карта. Предложения, в которых они появляются, также будут отклонены.
  • Избегайте размещения слишком больших входных данных, например тысячи предложений, так как это может ослабить эффект бустинга.