Настройка языковой модели с помощью индексатора видео Azure AI

2025-06-21

Индексатор видео Azure AI поддерживает автоматическое распознавание речи благодаря интеграции с пользовательской службой речи Майкрософт. Вы можете настроить языковую модель, загрузив текст адаптации. Этот текст взят из области, словарь которой вы хотели бы, чтобы движок адаптировал к нему. После обучения модели новые слова, появляющиеся в тексте адаптации, распознаются при условии стандартного произношения, и языковая модель изучает новые вероятные последовательности слов. Список поддерживаемых Azure AI Video Indexer языков см. на поддерживаемых языках.

Например, Kubernetes (в контексте службы Azure Kubernetes) — это слово, которое является очень специфичным. Так как это слово является новым для индексатора видео Azure AI, его признают сообществами. Обучите модель распознавать ее как Kubernetes. В других случаях слова существуют, но языковая модель не ожидает, что они появятся в определенном контексте. Например, служба контейнера — это не последовательность из двух слов, которую неспециализированная языковая модель распознала бы как определенный набор слов.

Существует два способа настройки языковой модели:

Вариант 1: Отредактируйте расшифровку, созданную индексатором видео Azure AI. Редактируя и исправляя расшифровку, вы обучаете языковую модель, чтобы обеспечить улучшенные результаты в будущем.
Вариант 2: Загрузите текстовые файлы для обучения языковой модели. Файл может содержать список слов в том виде, в котором вы хотели бы, чтобы они отображались в расшифровке Индексатора видео. Или он может содержать соответствующие слова, которые естественным образом включены в предложения и абзацы. Поскольку при последнем подходе достигаются лучшие результаты, мы рекомендуем, чтобы файл загрузки содержал полные предложения или абзацы, связанные с вашим контентом.

Это важно

Не включайте в файл загрузки слова или предложения, которые в настоящее время неправильно расшифрованы (например, сообщества), так как это сведет на нет предполагаемое воздействие. Включайте слова только в том виде, в котором вы хотели бы, чтобы они отображались (например, Kubernetes).

Оптимизируйте свою пользовательскую языковую модель

Индексатор видео Azure AI обучается на основе вероятностей словосочетаний, поэтому для наилучшего обучения:

Приведите достаточно реальных примеров предложений в том виде, в каком они были бы произнесены.
Ставьте только одно предложение в строке, не больше. В противном случае система изучает вероятности в предложениях.
Это нормально — поставить одно слово в качестве предложения, чтобы усилить слово по сравнению с другими, но система лучше всего учится на полных предложениях.
При введении новых слов или аббревиатур, если это возможно, приведите как можно больше примеров использования в полном предложении, чтобы дать как можно больше контекста системе.
Попробуйте поставить несколько вариантов адаптации, и посмотрите, как они работают для вас.
Избегайте многократного повторения одного и того же предложения. Это может создать предвзятость по отношению к остальной части входных данных.
Избегайте включения необычных символов (~, # @ % &), потому что они будут отброшены. Предложения, в которых они отображаются, также удаляются.
Избегайте использования входных данных большого объема, таких как сотни тысяч предложений, потому что это разбавляет эффект ускорения.

Предпосылки

Учетная запись Azure.
Учетная запись индексатора видео Azure AI

Веб-портал
API

Создание языковой модели

Перейдите на веб-сайт Azure AI Video Indexer и войдите.
Чтобы настроить модель в учетной записи, в левой части страницы нажмите кнопку Настройка модели содержимого.
Выберите вкладку Язык . Вы увидите список поддерживаемых языков.
Под нужным языком выберите Добавить модель.
Введите название языковой модели и нажмите Enter. На этом шаге создается модель и предоставляется возможность загрузки текстовых файлов в модель.
Чтобы добавить текстовый файл, выберите Добавить файл. Откроется проводник.
Перейдите к текстовому файлу и выберите его. В языковую модель можно добавить несколько текстовых файлов. Вы также можете добавить текстовый файл, нажав кнопку ... в правой части языковой модели и выбрав Добавить файл.
После того, как вы закончите загрузку текстовых файлов, выберите зеленую опцию «Поезд ».

Процесс обучения может занять несколько минут. После завершения обучения рядом с моделью появится надпись Обучено . Вы можете просмотреть, скачать и удалить файл из модели.

Использование языковой модели в новом видео

Чтобы использовать языковую модель в новом видео, выполните одно из следующих действий:

Выберите «Загрузить » в верхней части страницы.
Перетащите аудио- или видеофайл или найдите нужный файл.
Выберите созданную языковую модель из списка исходных языков видео .
Выберите вариант «Загрузить » в нижней части страницы, и новое видео будет проиндексировано с использованием вашей языковой модели.

Использование языковой модели для повторной индексации

Войдите на домашнюю страницу Индексатора видео Azure AI .
Нажмите многоточие (...) на видео, а затем выберите «Переиндексировать».
Выберите список исходных языков видео и выберите созданную языковую модель из списка.
Выберите «Переиндексировать», и ваше видео будет повторно индексировано с использованием вашей языковой модели.

Редактирование языковой модели

Вы можете редактировать языковую модель, изменяя ее имя, добавляя в нее файлы и удаляя из нее файлы. Если вы добавляете или удаляете файлы из языковой модели, вам придется снова обучить модель, выбрав зеленый параметр «Обучение ».

Переименование языковой модели

Вы можете изменить имя языковой модели, щелкнув многоточие (...) в правой части языковой модели и выбрав Переименовать. Введите новое имя.

Добавление файлов

Выберите Добавить файл. Откроется проводник.
Перейдите к текстовому файлу и выберите его. В языковую модель можно добавить несколько текстовых файлов.

Вы также можете добавить текстовый файл, нажав кнопку с многоточием (...) в правой части языковой модели и выбрав Добавить файл.

Удаление файлов

Это действие полностью удаляет файл из языковой модели.

Нажмите кнопку с многоточием (...) в правой части текстового файла.
Нажмите кнопку "Удалить". Появится новое окно с сообщением о том, что удаление не может быть отменено.
Выберите опцию «Удалить » в новом окне.

Удаление языковой модели

Это действие полностью удаляет языковую модель из вашей учетной записи. Любое видео, в котором использовалась удаленная языковая модель, сохраняет тот же индекс до тех пор, пока вы не проиндексируете видео. Если вы повторно индексируете видео, вы можете назначить ему новую языковую модель. В противном случае индексатор видео Azure AI использует модель по умолчанию для повторной индексации видео.

Нажмите кнопку с многоточием (...) в правой части диалогового окна Языковая модель.
Нажмите кнопку "Удалить". Появится новое окно с сообщением о том, что удаление не может быть отменено.
Выберите опцию «Удалить » в новом окне.

Настройка языковых моделей путем исправления расшифровок

Индексатор видео Azure AI настраивает языковые модели на основе фактических исправлений, которые пользователи вносят в транскрибирование своих видео. Он захватывает все строки, которые вы исправили в транскрипции вашего видео, и добавляет их в текстовый файл с именем From transcript edits. Эти изменения используются для повторного обучения языковой модели, которая использовалась для индексации видео.

Также включены изменения, которые были сделаны на временной шкале виджета .

Если вы не указали языковую модель при индексировании этого видео, все изменения для этого видео хранятся в языковой модели по умолчанию, которая называется Account adaptations в пределах обнаруженного языка видео.

В случае, если в одну и ту же строку было внесено несколько изменений, для обновления языковой модели используется только последняя версия исправленной строки.

Замечание

Для настройки используются только текстовые исправления. Исправления, которые не связаны с реальными словами (например, знаки препинания или пробелы), не включаются.

Выберите видео, которое вы хотите редактировать, из своей медиатеки.
Перейдите на вкладку Временная шкала.
Выберите значок карандаша, чтобы отредактировать расшифровку расшифровки.
Исправления в расшифровке отображаются на вкладке Язык на странице Настройка модели содержимого. Чтобы просмотреть файл "Из изменений расшифровки" для каждой из ваших языковых моделей, выберите его, чтобы открыть.

Создание языковой модели

Вы можете отправить запрос API создания языковой модели , чтобы создать новую пользовательскую языковую модель для указанного аккаунта. Вы можете загрузить файлы для языковой модели с помощью этого запроса. Кроме того, вы можете создать языковую модель здесь и загрузить файлы для модели позже, обновив языковую модель.

Вы должны загрузить файлы в теле с помощью FormData в дополнение к предоставлению значений для требуемых параметров. Существует два способа определения ключевой пары для этой задачи:

Ключ — это имя файла, а значение — это файл txt.
Ключ — это имя файла, а значение — URL к файлу txt.

Замечание

По-прежнему необходимо обучить модель с включенными файлами, чтобы модель могла узнать содержимое своих файлов.

Пример отклика

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

Обучение языковой модели

Запрос "Обучение языковой модели" обучает пользовательскую языковую модель для указанной учетной записи с помощью содержимого отправленных и включенных файлов в языковой модели.

Замечание

Сначала необходимо создать языковую модель и загрузить ее файлы. Вы можете загрузить файлы при создании языковой модели или при обновлении языковой модели.

Пример отклика

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": false,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

Это id уникальный идентификатор, используемый для различения языковых моделей. languageModelId Однако используется для загрузки видео для индексации и переиндексации видеозапросов. Они также известны как linguisticModelId запросы на отправку и повторную индексацию Индексатора видео Azure AI.

Удаление языковой модели

Вы можете использовать запрос API удаления языковой модели , чтобы удалить пользовательскую языковую модель из указанной учетной записи. Любое видео, в котором использовалась удаленная языковая модель, сохраняет тот же индекс до тех пор, пока вы не переиндексируете видео. Если вы повторно индексируете видео, вы можете назначить ему новую языковую модель. В противном случае индексатор видео Azure AI использует модель по умолчанию для повторной индексации видео.

Пример отклика

При успешном удалении языковой модели содержимое не возвращается.

Обновление языковой модели

Запрос на обновление языковой модели обновляет пользовательскую языковую модель человека в указанной учетной записи.

Замечание

Убедитесь, что вы создали языковую модель. Вы можете использовать этот вызов для включения или отключения всех файлов в модели, обновления имени языковой модели и отправки файлов, которые будут добавлены в языковую модель.

Чтобы загрузить файлы, которые будут добавлены в языковую модель, необходимо загрузить файлы в теле с помощью FormData. Вы также должны предоставить значения для обязательных параметров, упомянутых ранее. Для выполнения поставленной задачи существует два способа:

Ключ — это имя файла, а значение — это файл txt.
Ключ — это имя файла, а значение — URL к файлу txt.

Пример отклика

{
    "id": "41464adf-e432-42b1-8e09-f52905d7e29d",
    "name": "TestModel",
    "language": "En-US",
    "state": "Waiting",
    "languageModelId": "531e5745-681d-4e1d-b124-12e5ab57a891",
    "files": [
    {
        "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
        "name": "RenamedFile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.5233333"
    },
    {
        "id": "9ac35b4b-1381-49c4-9fe4-8234bfdd0f50",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-27T20:10:10.68"
    }
    ]
}

Чтобы загрузить содержимое файла, используйте id файл, возвращенный в ответе.

Обновление файла из языковой модели

Запрос на обновление файла языковой модели позволяет обновить имя и enable состояние файла в пользовательской языковой модели в указанной учетной записи.

Пример отклика

{
  "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
  "name": "RenamedFile",
  "enable": false,
  "creator": "John Doe",
  "creationTime": "2018-04-27T20:10:10.5233333"
}

Чтобы загрузить содержимое файла, используйте id файл, возвращенный в ответе.

Получение определенной языковой модели

Вы можете выполнить запрос API Get Language Model для возврата сведений об указанной языковой модели в указанной учетной записи, таких как язык и файлы, которые находятся в языковой модели.

Пример отклика

{
    "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
    "name": "TestModel",
    "language": "En-US",
    "state": "None",
    "languageModelId": "00000000-0000-0000-0000-000000000000",
    "files": [
    {
        "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
        "name": "hellofile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.6733333"
    },
    {
        "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
        "name": "worldfile",
        "enable": true,
        "creator": "John Doe",
        "creationTime": "2018-04-28T11:55:34.86"
    }
    ]
}

Чтобы загрузить содержимое файла, используйте id файл, возвращенный в ответе.

Получите все языковые модели

Вы можете использовать запрос API Get Language Models , чтобы вернуть все пользовательские языковые модели в указанной учетной записи в списке.

Пример отклика

[
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a891",
        "name": "TestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000000",
        "files": [
        {
            "id": "25be7c0e-b6a6-4f48-b981-497e920a0bc9",
            "name": "hellofile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.6733333"
        },
        {
            "id": "33025f5b-2354-485e-a50c-4e6b76345ca7",
            "name": "worldfile",
            "enable": true,
            "creator": "John Doe",
            "creationTime": "2018-04-28T11:55:34.86"
        }
        ]
    },
    {
        "id": "dfae5745-6f1d-4edd-b224-42e1ab57a892",
        "name": "AnotherTestModel",
        "language": "En-US",
        "state": "None",
        "languageModelId": "00000000-0000-0000-0000-000000000001",
        "files": []
    }
]

Удаление файла из языковой модели

Запрос на удаление файла языковой модели удаляет указанный файл из указанной языковой модели в указанной учетной записи.

Пример отклика

При успешном удалении файла из языковой модели содержимое не возвращается.

Получение метаданных в файле из языковой модели

Запрос Get Language Model File Data возвращает содержимое и метаданные указанного файла из выбранной языковой модели в вашей учетной записи.

Пример отклика

{
    "content": "hello\r\nworld",
    "id": "84fcf1ac-1952-48f3-b372-18f768eedf83",
    "name": "Hello",
    "enable": true,
    "creator": "John Doe",
    "creationTime": "2018-04-27T20:10:10.5233333"
}

Замечание

Содержимое этого примера файла представляет собой слова "hello" и "world" в двух отдельных строках.

Скачивание файла из языковой модели

Запрос «Загрузить содержимое файла языковой модели » загружает текстовый файл, содержащий содержимое указанного файла, из указанной языковой модели в указанной учетной записи. Этот текстовый файл должен совпадать с содержимым текстового файла, который был первоначально загружен.

Пример отклика

Ответом является загрузка текстового файла с содержимым файла в формате JSON.

Поделиться через

Настройка языковой модели с помощью индексатора видео Azure AI

Оптимизируйте свою пользовательскую языковую модель

Предпосылки

Создание языковой модели

Использование языковой модели в новом видео

Использование языковой модели для повторной индексации

Редактирование языковой модели

Переименование языковой модели

Добавление файлов

Удаление файлов

Удаление языковой модели

Настройка языковых моделей путем исправления расшифровок

Обратная связь

Дополнительные ресурсы