Краткое руководство. Начало работы с Azure AI Speech CLI

2025-04-22

В этой статье вы узнаете, как использовать интерфейс командной строки службы "Речь" Azure AI (также называемый SPX) для доступа к службам распознавания речи, таким как речь, текст в речь и перевод речи, без необходимости писать код. Интерфейс командной строки службы "Речь" готов к использованию в рабочей среде и может применяться для автоматизации простых рабочих процессов в службе "Речь" с помощью .bat или скриптов оболочки.

Предполагается, что у вас есть опыт работы с окном командной строки, терминалом или PowerShell.

Примечание.

В PowerShell токен для отмены синтаксического анализа (--%) должен стоять после spx. Например, выполните команду spx --% config @region, чтобы просмотреть текущее значение конфигурации региона.

Загрузка и установка

Чтобы установить CLI "Speech" в Windows, выполните следующие шаги:

Установите пакет Microsoft Visual C++ Redistributable для Visual Studio для вашей платформы. При первой установке может потребоваться перезагрузка.
Установите .NET 8.
Установите CLI службы "Речь" с использованием интерфейса командной строки .NET. Для этого введите следующую команду:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Чтобы обновить CLI службы "Речь", введите следующую команду:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Введите spx или spx help, чтобы получить справочную информацию по речевой службе CLI.

Ограничения для шрифтов

В Windows в интерфейсе командной строки службы "Речь" могут отображаться только шрифты, доступные для командной строки на локальном компьютере. Терминал Windows поддерживает все шрифты, создаваемые интерфейсом командной строки службы "Речь" в интерактивном режиме.

При выводе результатов в файл текстовый редактор, например Блокнот, или веб-браузер, например Microsoft Edge, будут также отображать все шрифты.

Для архитектур x64, использующих CLI службы "Речь", поддерживаются следующие дистрибутивы Linux:

Ubuntu 20.04/22.04/24.04
Debian 11/12

Примечание.

Дополнительные архитектуры поддерживает Speech SDK (не Speech CLI). Для получения дополнительной информации см. о Speech SDK.

Вот как установить речевой интерфейс командной строки в Linux на процессорах x64:

Установите .NET 8.
Установите CLI службы "Речь" с использованием интерфейса командной строки .NET. Для этого введите следующую команду:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Чтобы обновить CLI службы "Речь", введите следующую команду:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```
Установите GStreamer для сжатой поддержки звука.

Введите spx, чтобы увидеть справку по Speech CLI.

Вот как установить CLI службы "Речь" в macOS 10.14 или более поздней версии:

Установите .NET 8.
Установите CLI службы "Речь" с использованием интерфейса командной строки .NET. Для этого введите следующую команду:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Чтобы обновить CLI службы "Речь", введите следующую команду:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Введите spx или spx help, чтобы получить справочную информацию по речевой службе CLI.

В следующем примере загружается общедоступный образ контейнера из Docker Hub. Мы рекомендуем сначала войти в свою учетную запись Docker Hub (docker login) вместо того, чтобы делать анонимный запрос на вытягивание. Чтобы повысить надежность при использовании общедоступного содержимого, импортируйте образ и управляйте им в частном реестре контейнеров Azure. Узнайте больше о работе с общедоступными образами.

Чтобы установить CLI для работы с речью в контейнере Docker:

Если Docker Desktop уже не установлен, установите его для своей платформы.
В новой командной строке или терминале введите следующую команду:
```
docker pull msftspeech/spx
```

Введите следующую команду, чтобы отобразить справочные сведения об интерфейсе командной строки службы "Речь":

docker run -it --rm msftspeech/spx help

Монтирование каталога в контейнере

CLI-инструмент Speech сохраняет параметры конфигурации в виде файлов. Загружает эти файлы при выполнении любой команды (кроме справочных команд).

При использовании Speech CLI в контейнере Docker необходимо подключить локальный каталог к контейнеру, чтобы инструмент мог:

сохранять или находить параметры конфигурации;
считывать или записывать любые файлы (например, звуковые файлы с записанной речью), необходимые для выполнения команды.

В Windows введите следующую команду, чтобы создать локальный каталог, который интерфейс командной строки службы "Речь" сможет использовать из контейнера:

mkdir c:\spx-data

В Linux или macOS введите следующую команду в терминале, чтобы создать каталог и просмотреть абсолютный путь к нему:

mkdir ~/spx-data
cd ~/spx-data
pwd

При вызове интерфейса командной строки службы "Речь" используется абсолютный путь.

Запуск интерфейса командной строки службы "Речь" в контейнере

В этой документации показана команда CLI для речи spx, используемая при установках, не связанных с Docker. При вызове команды spx в контейнере Docker необходимо подключить каталог в контейнере к файловой системе, в которой интерфейс командной строки службы "Речь" может сохранять и находить значения конфигурации, а также считывать и записывать файлы.

Команды в Windows будут выглядеть так:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

В Linux или macOS команды будут выглядеть так, как показано в примере ниже. Замените ABSOLUTE_PATH на абсолютный путь к подключенному каталогу. Этот путь был возвращен командой pwd в предыдущем разделе. Если выполнить эту команду перед настройкой ключа и региона, появится сообщение об ошибке, уведомляющее о необходимости настроить ключ и регион.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Чтобы использовать команду spx, установленную в контейнере, всегда вводите полную версию команды, показанную в предыдущем примере, а затем — параметры запроса. Например, в Windows эта команда задает ключ:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Для более расширенного взаимодействия с программой командной строки можно запустить контейнер с интерактивной оболочкой Bash, добавив параметр entrypoint. В Windows введите следующую команду, чтобы запустить контейнер, который предоставляет интерактивный интерфейс командной строки, в котором можно ввести несколько команд spx:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Вы можете объединить это с AZ Login, и SPX Init проведет вас через создание ключей речи и выбор соответствующего региона данных, не используя портал Azure. Ключи будут автоматически сохранены для последующего использования.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Чтобы приступить к работе, вам нужен ключ API и идентификатор региона (например, eastus, westus). Создайте ресурс Ai Foundry для службы "Речь" на портале Azure. Дополнительные сведения см. в разделе "Создание ресурса ИИ Foundry".

Чтобы настроить ключ ресурса и идентификатор региона, выполните следующие команды:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Ключ и регион сохраняются для использования в будущих командах CLI для речевых технологий. Чтобы просмотреть текущую конфигурацию, выполните следующие команды:

spx config @key
spx config @region

При необходимости укажите параметр clear, чтобы удалить любое сохраненное значение:

spx config @key --clear
spx config @region --clear

Чтобы приступить к работе, вам нужен ключ API и идентификатор региона (например, eastus, westus). Создайте ресурс Ai Foundry для службы "Речь" на портале Azure.

Чтобы настроить ключ ресурса службы "Речь" и идентификатор региона, выполните следующие команды в PowerShell:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

Ключ и регион хранятся для будущих команд SPX. Чтобы просмотреть текущую конфигурацию, выполните следующие команды:

spx --% config @key
spx --% config @region

При необходимости укажите параметр clear, чтобы удалить любое сохраненное значение:

spx --% config @key --clear
spx --% config @region --clear

Базовое использование

Внимание

При использовании интерфейса командной строки службы "Речь" в контейнере включите параметр --host. Необходимо также указать --key none, чтобы интерфейс командной строки не пытался использовать ключ 'Speech' для аутентификации. Например, выполните запуск spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav для распознавания речи из звукового файла в текстовом контейнере.

В этом разделе описано несколько основных команд SPX, которые зачастую удобно использовать для первого тестирования и экспериментов. Выполните следующую команду, чтобы просмотреть справку в самом инструменте.

spx

Вы также можете выполнить поиск по ключевому слову в разделах справки. Например, чтобы просмотреть примеры использования интерфейса командной строки службы "Речь", выполните следующую команду:

spx help find --topics "examples"

Чтобы просмотреть параметры recognize команды, выполните следующую команду:

spx help recognize

В выходных данных консоли перечислены команды, связанные с помощью. Вы можете ввести эти команды, чтобы получить подробную справку по подкомандам.

Преобразование речи в текст (распознавание речи)

Примечание.

При запуске CLI службы "Речь" в контейнере Docker нельзя использовать микрофон компьютера. Но можно выполнять чтение и сохранение звуковых файлов в локальном подключенном каталоге.

Чтобы преобразовать речь в текст (распознать речь) с помощью стандартного микрофона системы, выполните следующую команду:

spx recognize --microphone

После ввода этой команды SPX начнет прослушивать звук на текущем активном устройстве ввода. Прослушивание прекратится при нажатии клавиши Ввод. Затем речь распознается, а затем преобразуется в текст в выходных данных консоли.

С помощью CLI службы "Речь" можно также распознать речь из аудиофайла. Выполните следующую команду:

spx recognize --file /path/to/file.wav

Совет

Если вы застряли или хотите узнать больше о вариантах распознавания речи с помощью CLI, выполните spx help recognize.

Преобразование текста в речь (синтез речи)

Следующая команда использует текст как входные данные и выводит синтезированную речь на текущее активное устройство вывода (например, динамики компьютера).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Вы также можете сохранить синтезированные выходные данные в файл. В этом примере мы создадим файл my-sample.wav в каталоге, где будет выполняться команда.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Предполагается, что тестирование выполняется на английском языке. Однако служба "Речь" поддерживает синтез речи на нескольких языках. Полный список голосовых моделей можно вывести, выполнив следующую команду или посетив страницу о поддержке языков.

spx synthesize --voices

Вот команда для использования одного из обнаруженных голосов.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Совет

Если вы застряли или хотите узнать больше о вариантах распознавания речи с помощью CLI, выполните spx help synthesize.

Преобразование речи в текст

С помощью Speech CLI можно также выполнять преобразование речи в текст. Выполните приведенную ниже команду, чтобы записать звук с микрофона по умолчанию и вывести перевод в виде текста. Обязательно укажите языки source и target в строке команды translate.

spx translate --microphone --source en-US --target ru-RU

При переводе на несколько языков разделяйте коды языков точкой с запятой (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

Если вы хотите сохранить выходные данные перевода, используйте флаг --output. В этом примере вы также читаете из файла.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Совет

Если вы застряли или хотите узнать больше о вариантах распознавания речи с помощью CLI, выполните spx help translate.

Поделиться через

Краткое руководство. Начало работы с Azure AI Speech CLI

Загрузка и установка

Ограничения для шрифтов

Создание конфигурации ресурсов

Базовое использование

Преобразование речи в текст (распознавание речи)

Преобразование текста в речь (синтез речи)

Преобразование речи в текст

Следующие шаги

Обратная связь

Дополнительные ресурсы