Schnellstart: Erste Schritte mit der Azure KI Speech-CLI

Artikel
01/22/2024

In diesem Artikel erfahren Sie, wie Sie die Azure KI Speech-CLI (auch als SPX bezeichnet) verwenden, um auf Speech-Dienste wie Spracherkennung, Sprachsynthese und Sprachübersetzung zuzugreifen, ohne Code schreiben zu müssen. Die Speech-Befehlszeilenschnittstelle ist für den Produktionsbetrieb bereit und kann verwendet werden, um einfache Workflows im Speech-Dienst mithilfe von .bat- oder Shellskripts zu automatisieren.

In diesem Artikel wird davon ausgegangen, dass Sie mit dem Eingabeaufforderungsfenster, mit dem Terminal oder mit PowerShell vertraut sind.

Hinweis

In PowerShell sollte das Stop-Parsing-Token (--%) auf spx folgen. Führen Sie beispielsweise spx --% config @region aus, um den aktuellen Wert für die Regionskonfiguration anzuzeigen.

Herunterladen und Installieren

Führen Sie diese Schritte aus, um die Speech-Befehlszeilenschnittstelle unter Windows zu installieren:

Installieren Sie Microsoft Visual C++ Redistributable für Visual Studio 2019 für Ihre Plattform. Bei der Erstinstallation ist möglicherweise ein Neustart erforderlich.
Installieren Sie .NET 6.
Installieren Sie die Speech-CLI mithilfe der .NET-CLI durch Eingabe des folgenden Befehls:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Um die Speech-CLI zu aktualisieren, geben Sie diesen Befehl ein:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Geben Sie spx oder spx help ein, um die Hilfe für die Speech-Befehlszeilenschnittstelle anzuzeigen.

Schriftarteinschränkungen

Unter Windows können von der Speech-Befehlszeilenschnittstelle nur Schriftarten angezeigt werden, die für die Eingabeaufforderung auf dem lokalen Computer verfügbar sind. Das Windows-Terminal unterstützt alle Schriftarten, die von der Speech-Befehlszeilenschnittstelle interaktiv generiert werden.

Bei der Ausgabe einer Datei können in einem Text-Editor wie Notepad oder einem Webbrowser wie Microsoft Edge ebenfalls alle Schriftarten angezeigt werden.

Achtung

Dieser Artikel bezieht sich auf CentOS, eine Linux-Distribution, die sich dem End-of-Life-Status (EOL) nähert. Sie sollten Ihre Nutzung entsprechend planen. Weitere Informationen finden Sie im CentOS End-of-Life-Leitfaden.

Die folgenden Linux-Distributionen werden für x64-Architekturen mit der Speech-Befehlszeilenschnittstelle unterstützt:

CentOS 7/8
Debian 9/10
Red Hat Enterprise Linux (RHEL) 7/8
Ubuntu 18.04/20.04

Hinweis

Das Speech SDK (nicht die Speech-Befehlszeilenschnittstelle) unterstützt zusätzliche Architekturen. Weitere Informationen finden Sie unter Informationen zum Speech SDK.

Führen Sie diese Schritte aus, um die Speech-Befehlszeilenschnittstelle unter Linux auf einer x64-CPU zu installieren:

Installieren Sie .NET 6.
Installieren Sie die Speech-CLI mithilfe der .NET-CLI durch Eingabe des folgenden Befehls:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Um die Speech-CLI zu aktualisieren, geben Sie diesen Befehl ein:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```
Konfigurieren Sie unter RHEL/CentOS Linux OpenSSL für Linux.
Installieren Sie GStreamer unter Ubuntu 20.04 Linux.

Geben Sie spx ein, um die Hilfe für die Speech-Befehlszeilenschnittstelle anzuzeigen.

Führen Sie diese Schritte aus, um die Speech-Befehlszeilenschnittstelle unter macOS 10.14 oder höher zu installieren:

Installieren Sie .NET 6.
Installieren Sie die Speech-CLI mithilfe der .NET-CLI durch Eingabe des folgenden Befehls:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Um die Speech-CLI zu aktualisieren, geben Sie diesen Befehl ein:
```
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
```

Geben Sie spx oder spx help ein, um die Hilfe für die Speech-Befehlszeilenschnittstelle anzuzeigen.

Im folgenden Beispiel wird ein öffentliches Container-Image von Docker Hub abgerufen. Es wird empfohlen, dass Sie sich zuerst mit Ihrem Docker Hub Konto (docker login) authentifizieren, anstatt eine anonyme Abrufanforderung zu erstellen. Um die Zuverlässigkeit bei der Verwendung öffentlicher Inhalte zu verbessern, sollten Sie das Image in einer privaten Azure-Containerregistrierung importieren und verwalten. Weitere Informationen zur Verwendung öffentlicher Images finden Sie hier.

Führen Sie die folgenden Schritte aus, um die Speech-CLI in einem Docker-Container zu installieren:

Installieren Sie Docker Desktop für Ihre Plattform (sofern noch nicht installiert).
Geben Sie an einer neuen Eingabeaufforderung oder in einem Terminal den folgenden Befehl ein:
```
docker pull msftspeech/spx
```

Geben Sie diesen Befehl ein, um Hilfeinformationen für die Speech-Befehlszeilenschnittstelle anzuzeigen:

docker run -it --rm msftspeech/spx help

Einbinden eines Verzeichnisses in den Container

Das Tool für die Speech-Befehlszeilenschnittstelle speichert Konfigurationseinstellungen als Dateien. Diese Dateien werden geladen, wenn Sie einen beliebigen Befehl ausführen (mit Ausnahme von Hilfebefehlen).

Wenn Sie die Speech-Befehlszeilenschnittstelle in einem Docker-Container verwenden, müssen Sie ein lokales Verzeichnis aus dem Container einbinden, damit das Tool folgende Möglichkeiten hat:

Speichern oder Suchen der Konfigurationseinstellungen
Lesen oder Schreiben von beliebigen Dateien, die für den Befehl erforderlich sind, zum Beispiel Audiodateien von Spracheingaben

Geben Sie unter Windows den folgenden Befehl ein, um ein lokales Verzeichnis zu erstellen, das von der Speech-Befehlszeilenschnittstelle aus dem Container verwendet werden kann:

mkdir c:\spx-data

Geben Sie unter Linux oder macOS den folgenden Befehl in einem Terminal ein, um ein Verzeichnis zu erstellen und dessen absoluten Pfad anzuzeigen:

mkdir ~/spx-data
cd ~/spx-data
pwd

Sie verwenden den absoluten Pfad beim Aufrufen der Speech-Befehlszeilenschnittstelle.

Ausführen der Speech-Befehlszeilenschnittstelle im Container

In dieser Dokumentation wird der Befehl spx der Speech-CLI angezeigt, der in nicht zu Docker gehörenden Installationen verwendet wird. Beim Aufrufen des Befehls spx in einem Docker-Container müssen Sie ein Verzeichnis in den Container für Ihr Dateisystem einbinden, in dem die Speech-Befehlszeilenschnittstelle Konfigurationswerte speichern und finden sowie Dateien lesen und schreiben kann.

Unter Windows beginnen Ihre Befehle wie folgt:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

Unter Linux oder macOS sehen Ihre Befehle wie im folgenden Beispiel aus. Ersetzen Sie ABSOLUTE_PATH durch den absoluten Pfad für Ihr eingebundenes Verzeichnis. Der pwd-Befehl hat diesen Pfad im vorherigen Abschnitt zurückgegeben. Wenn Sie diesen Befehl ausführen, bevor Sie den Schlüssel und die Region festgelegt haben, erhalten Sie eine Fehlermeldung mit dem Hinweis, dass Sie Ihren Schlüssel und Ihre Region festlegen müssen.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Geben Sie zum Verwenden des in einem Container installierten Befehls spx immer den vollständigen Befehl (wie im vorherigen Beispiel gezeigt) ein, gefolgt von den Parametern Ihrer Anforderung. Unter Windows wird Ihr Schlüssel mit diesem Befehl beispielsweise wie folgt festgelegt:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Für die erweiterte Interaktion mit dem Befehlszeilentool können Sie einen Container mit einer interaktiven Bash-Shell starten, indem Sie einen entrypoint-Parameter hinzufügen. Geben Sie unter Windows diesen Befehl ein, um einen Container zu starten, der eine interaktive Befehlszeile bereitstellt, in die Sie mehrere spx-Befehle eingeben können:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Sie können dies mit AZ-Anmeldung kombinieren sich anfangs von SPX durch das Erstellen der Sprachschlüssel und das Auswählen einer passenden Datenregion führen lassen, ohne das Azure-Portal verwenden zu müssen. Die Schlüssel werden automatisch für die spätere Verwendung gespeichert.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Für den Einstieg benötigen Sie einen Speech-Ressourcenschlüssel und einen Regionsbezeichner (z. B. eastus, westus). Erstellen Sie eine Sprachressource im Azure-Portal. Weitere Informationen finden Sie unter Erstellen einer Ressource für mehrere Dienste.

Führen Sie die folgenden Befehle aus, um Ihren Ressourcenschlüssel und den Regionsbezeichner zu konfigurieren:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Der Schlüssel und die Region werden für zukünftige Speech-CLI-Befehle gespeichert. Führen Sie die folgenden Befehle aus, um die aktuelle Konfiguration anzuzeigen:

spx config @key
spx config @region

Schließen Sie bei Bedarf die Option clear ein, um beide gespeicherten Werte zu entfernen:

spx config @key --clear
spx config @region --clear

Führen Sie die folgenden Befehle in PowerShell aus, um Ihren Speech-Ressourcenschlüssel und den Regionsbezeichner zu konfigurieren:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

Der Schlüssel und die Region werden für zukünftige SPX-Befehle gespeichert. Führen Sie die folgenden Befehle aus, um die aktuelle Konfiguration anzuzeigen:

spx --% config @key
spx --% config @region

Schließen Sie bei Bedarf die Option clear ein, um beide gespeicherten Werte zu entfernen:

spx --% config @key --clear
spx --% config @region --clear

Grundlegende Verwendung

Wichtig

Wenn Sie die Speech CLI in einem Container verwenden, schließen Sie die Option --host ein. Sie müssen auch --key none angeben, um sicherzustellen, dass die CLI nicht versucht, einen Speech-Schlüssel für die Authentifizierung zu verwenden. Führen Sie beispielsweise spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav aus , um Sprache aus einer Audiodatei in einem Spracherkennungscontainer zu erkennen.

In diesem Abschnitt werden einige grundlegende SPX-Befehle gezeigt, die häufig für erste Tests und Experimente nützlich sind. Führen Sie den folgenden Befehl aus, um die integrierte Hilfe des Tools anzuzeigen:

spx

Sie können Hilfethemen nach Schlüsselwort durchsuchen. Führen Sie beispielsweise den folgenden Befehl aus, um eine Liste mit Beispielen für die Verwendung der Speech-Befehlszeilenschnittstelle anzuzeigen:

spx help find --topics "examples"

Führen Sie den folgenden Befehl aus, um die Optionen für den Befehl recognize anzuzeigen:

spx help recognize

Weitere Hilfebefehle sind in der Konsolenausgabe aufgeführt. Diese Befehle können Sie eingeben, um ausführliche Hilfe zu Unterbefehlen zu erhalten.

Spracherkennung (Umwandlung von Sprache in Text)

Hinweis

Wenn Sie die Speech-Befehlszeilenschnittstelle in einem Docker-Container ausführen, können Sie das Mikrofon Ihres Computers nicht verwenden. Sie können jedoch aus Ihrem lokal eingebundenen Verzeichnis lesen und Audiodateien darin speichern.

Führen Sie den folgenden Befehl aus, um Sprache mithilfe des Standardmikrofons Ihres Systems in Text zu konvertieren (Spracherkennung).

spx recognize --microphone

Nachdem Sie den Befehl ausgeführt haben, beginnt SPX mit dem Lauschen auf Audiodaten auf dem aktuellen aktiven Eingabegerät. Wenn Sie die EINGABETASTE drücken, wird das Lauschen beendet. Das gesprochene Audiomaterial wird dann erkannt und in der Konsolenausgabe in Text konvertiert.

Die Speech-Befehlszeilenschnittstelle ermöglicht auch die Erkennung von Sprache aus einer Audiodatei. Führen Sie den folgenden Befehl aus:

spx recognize --file /path/to/file.wav

Tipp

Wenn Sie nicht weiterkommen oder mehr über die Spracherkennungsoptionen der Speech-Befehlszeilenschnittstelle erfahren möchten, können Sie spx help recognize ausführen.

Sprachsynthese (Umwandlung von Text in Sprache)

Wenn Sie den folgenden Befehl ausführen, wird Text als Eingabe verwendet und die synthetisierte Sprache über das aktuelle aktive Ausgabegerät (beispielsweise über die Lautsprecher Ihres Computers) ausgegeben.

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Die synthetisierte Ausgabe kann auch in einer Datei gespeichert werden. In diesem Beispiel erstellen Sie eine Datei mit dem Namen my-sample.wav in dem Verzeichnis, in dem Sie den Befehl ausführen.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Bei diesen Beispielen wird davon ausgegangen, dass Sie zum Testen die englische Sprache verwenden. Der Speech-Dienst unterstützt die Sprachsynthese jedoch in vielen Sprachen. Sie können eine vollständige Liste der Stimmen aufrufen, indem Sie entweder den folgenden Befehl ausführen oder die Seite Sprach- und Stimmunterstützung für den Speech-Dienst besuchen.

spx synthesize --voices

Hier sehen Sie einen Befehl für die Verwendung einer der gefundenen Stimmen.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Tipp

Wenn Sie nicht weiterkommen oder mehr über die Spracherkennungsoptionen der Speech-Befehlszeilenschnittstelle erfahren möchten, können Sie spx help synthesize ausführen.

Sprache-in-Text-Übersetzung

Mit der Speech-Befehlszeilenschnittstelle sind auch Sprache-in-Text-Übersetzungen möglich. Führen Sie den folgenden Befehl aus, um Audio über Ihr Standardmikrofon zu erfassen und die Übersetzung als Text auszugeben. Beachten Sie, dass für den Befehl translate die Ausgangs- und die Zielsprache (source und target) angegeben werden müssen.

spx translate --microphone --source en-US --target ru-RU

Wenn Sie in mehrere Sprachen übersetzen, trennen Sie die Sprachcodes durch ein Semikolon (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Wenn Sie die Ausgabe der Übersetzung speichern möchten, verwenden Sie das Flag --output. In diesem Beispiel wird auch aus einer Datei gelesen.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Tipp

Wenn Sie nicht weiterkommen oder mehr über die Spracherkennungsoptionen der Speech-Befehlszeilenschnittstelle erfahren möchten, können Sie spx help translate ausführen.

Schnellstart: Erste Schritte mit der Azure KI Speech-CLI

Herunterladen und Installieren

Schriftarteinschränkungen

Einbinden eines Verzeichnisses in den Container

Ausführen der Speech-Befehlszeilenschnittstelle im Container

Erstellen einer Ressourcenkonfiguration

Grundlegende Verwendung

Spracherkennung (Umwandlung von Sprache in Text)

Sprachsynthese (Umwandlung von Text in Sprache)

Sprache-in-Text-Übersetzung

Nächste Schritte

Zusätzliche Ressourcen