Schnellstart: Erste Schritte mit der Azure KI Speech-CLI
In diesem Artikel erfahren Sie, wie Sie die Azure KI Speech-CLI (auch als SPX bezeichnet) verwenden, um auf Speech-Dienste wie Spracherkennung, Sprachsynthese und Sprachübersetzung zuzugreifen, ohne Code schreiben zu müssen. Die Speech-Befehlszeilenschnittstelle ist für den Produktionsbetrieb bereit und kann verwendet werden, um einfache Workflows im Speech-Dienst mithilfe von .bat
- oder Shellskripts zu automatisieren.
In diesem Artikel wird davon ausgegangen, dass Sie mit dem Eingabeaufforderungsfenster, mit dem Terminal oder mit PowerShell vertraut sind.
Hinweis
In PowerShell sollte das Stop-Parsing-Token (--%
) auf spx
folgen. Führen Sie beispielsweise spx --% config @region
aus, um den aktuellen Wert für die Regionskonfiguration anzuzeigen.
Herunterladen und Installieren
Führen Sie diese Schritte aus, um die Speech-Befehlszeilenschnittstelle unter Windows zu installieren:
Installieren Sie Microsoft Visual C++ Redistributable für Visual Studio 2019 für Ihre Plattform. Bei der Erstinstallation ist möglicherweise ein Neustart erforderlich.
Installieren Sie .NET 6.
Installieren Sie die Speech-CLI mithilfe der .NET-CLI durch Eingabe des folgenden Befehls:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Um die Speech-CLI zu aktualisieren, geben Sie diesen Befehl ein:
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
Geben Sie spx
oder spx help
ein, um die Hilfe für die Speech-Befehlszeilenschnittstelle anzuzeigen.
Schriftarteinschränkungen
Unter Windows können von der Speech-Befehlszeilenschnittstelle nur Schriftarten angezeigt werden, die für die Eingabeaufforderung auf dem lokalen Computer verfügbar sind. Das Windows-Terminal unterstützt alle Schriftarten, die von der Speech-Befehlszeilenschnittstelle interaktiv generiert werden.
Bei der Ausgabe einer Datei können in einem Text-Editor wie Notepad oder einem Webbrowser wie Microsoft Edge ebenfalls alle Schriftarten angezeigt werden.
Erstellen einer Ressourcenkonfiguration
Für den Einstieg benötigen Sie einen Speech-Ressourcenschlüssel und einen Regionsbezeichner (z. B. eastus
, westus
). Erstellen Sie eine Sprachressource im Azure-Portal. Weitere Informationen finden Sie unter Erstellen einer Azure KI Services-Ressource.
Führen Sie die folgenden Befehle aus, um Ihren Ressourcenschlüssel und den Regionsbezeichner zu konfigurieren:
spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION
Der Schlüssel und die Region werden für zukünftige Speech-CLI-Befehle gespeichert. Führen Sie die folgenden Befehle aus, um die aktuelle Konfiguration anzuzeigen:
spx config @key
spx config @region
Schließen Sie bei Bedarf die Option clear
ein, um beide gespeicherten Werte zu entfernen:
spx config @key --clear
spx config @region --clear
Grundlegende Verwendung
Wichtig
Wenn Sie die Speech CLI in einem Container verwenden, schließen Sie die Option --host
ein. Sie müssen auch --key none
angeben, um sicherzustellen, dass die CLI nicht versucht, einen Speech-Schlüssel für die Authentifizierung zu verwenden. Führen Sie beispielsweise spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav
aus , um Sprache aus einer Audiodatei in einem Spracherkennungscontainer zu erkennen.
In diesem Abschnitt werden einige grundlegende SPX-Befehle gezeigt, die häufig für erste Tests und Experimente nützlich sind. Führen Sie den folgenden Befehl aus, um die integrierte Hilfe des Tools anzuzeigen:
spx
Sie können Hilfethemen nach Schlüsselwort durchsuchen. Führen Sie beispielsweise den folgenden Befehl aus, um eine Liste mit Beispielen für die Verwendung der Speech-Befehlszeilenschnittstelle anzuzeigen:
spx help find --topics "examples"
Führen Sie den folgenden Befehl aus, um die Optionen für den Befehl recognize
anzuzeigen:
spx help recognize
Weitere Hilfebefehle sind in der Konsolenausgabe aufgeführt. Diese Befehle können Sie eingeben, um ausführliche Hilfe zu Unterbefehlen zu erhalten.
Spracherkennung (Umwandlung von Sprache in Text)
Hinweis
Wenn Sie die Speech-Befehlszeilenschnittstelle in einem Docker-Container ausführen, können Sie das Mikrofon Ihres Computers nicht verwenden. Sie können jedoch aus Ihrem lokal eingebundenen Verzeichnis lesen und Audiodateien darin speichern.
Führen Sie den folgenden Befehl aus, um Sprache mithilfe des Standardmikrofons Ihres Systems in Text zu konvertieren (Spracherkennung).
spx recognize --microphone
Nachdem Sie den Befehl ausgeführt haben, beginnt SPX mit dem Lauschen auf Audiodaten auf dem aktuellen aktiven Eingabegerät. Wenn Sie die EINGABETASTE drücken, wird das Lauschen beendet. Das gesprochene Audiomaterial wird dann erkannt und in der Konsolenausgabe in Text konvertiert.
Die Speech-Befehlszeilenschnittstelle ermöglicht auch die Erkennung von Sprache aus einer Audiodatei. Führen Sie den folgenden Befehl aus:
spx recognize --file /path/to/file.wav
Tipp
Wenn Sie nicht weiterkommen oder mehr über die Spracherkennungsoptionen der Speech-Befehlszeilenschnittstelle erfahren möchten, können Sie spx help recognize
ausführen.
Sprachsynthese (Umwandlung von Text in Sprache)
Wenn Sie den folgenden Befehl ausführen, wird Text als Eingabe verwendet und die synthetisierte Sprache über das aktuelle aktive Ausgabegerät (beispielsweise über die Lautsprecher Ihres Computers) ausgegeben.
spx synthesize --text "Testing synthesis using the Speech CLI" --speakers
Die synthetisierte Ausgabe kann auch in einer Datei gespeichert werden. In diesem Beispiel erstellen Sie eine Datei mit dem Namen my-sample.wav in dem Verzeichnis, in dem Sie den Befehl ausführen.
spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav
Bei diesen Beispielen wird davon ausgegangen, dass Sie zum Testen die englische Sprache verwenden. Der Speech-Dienst unterstützt die Sprachsynthese jedoch in vielen Sprachen. Sie können eine vollständige Liste der Stimmen aufrufen, indem Sie entweder den folgenden Befehl ausführen oder die Seite Sprach- und Stimmunterstützung für den Speech-Dienst besuchen.
spx synthesize --voices
Hier sehen Sie einen Befehl für die Verwendung einer der gefundenen Stimmen.
spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers
Tipp
Wenn Sie nicht weiterkommen oder mehr über die Spracherkennungsoptionen der Speech-Befehlszeilenschnittstelle erfahren möchten, können Sie spx help synthesize
ausführen.
Sprache-in-Text-Übersetzung
Mit der Speech-Befehlszeilenschnittstelle sind auch Sprache-in-Text-Übersetzungen möglich. Führen Sie den folgenden Befehl aus, um Audio über Ihr Standardmikrofon zu erfassen und die Übersetzung als Text auszugeben. Beachten Sie, dass für den Befehl translate
die Ausgangs- und die Zielsprache (source
und target
) angegeben werden müssen.
spx translate --microphone --source en-US --target ru-RU
Wenn Sie in mehrere Sprachen übersetzen, trennen Sie die Sprachcodes durch ein Semikolon (;
).
spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'
Wenn Sie die Ausgabe der Übersetzung speichern möchten, verwenden Sie das Flag --output
. In diesem Beispiel wird auch aus einer Datei gelesen.
spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt
Tipp
Wenn Sie nicht weiterkommen oder mehr über die Spracherkennungsoptionen der Speech-Befehlszeilenschnittstelle erfahren möchten, können Sie spx help translate
ausführen.