Schnellstart: Erste Schritte mit der Azure KI Speech-CLI

In diesem Artikel erfahren Sie, wie Sie die Azure KI Speech-CLI (auch als SPX bezeichnet) verwenden, um auf Speech-Dienste wie Spracherkennung, Sprachsynthese und Sprachübersetzung zuzugreifen, ohne Code schreiben zu müssen. Die Speech-Befehlszeilenschnittstelle ist für den Produktionsbetrieb bereit und kann verwendet werden, um einfache Workflows im Speech-Dienst mithilfe von .bat- oder Shellskripts zu automatisieren.

In diesem Artikel wird davon ausgegangen, dass Sie mit dem Eingabeaufforderungsfenster, mit dem Terminal oder mit PowerShell vertraut sind.

Hinweis

In PowerShell sollte das Stop-Parsing-Token (--%) auf spx folgen. Führen Sie beispielsweise spx --% config @region aus, um den aktuellen Wert für die Regionskonfiguration anzuzeigen.

Herunterladen und Installieren

Führen Sie diese Schritte aus, um die Speech-Befehlszeilenschnittstelle unter Windows zu installieren:

  1. Installieren Sie Microsoft Visual C++ Redistributable für Visual Studio 2019 für Ihre Plattform. Bei der Erstinstallation ist möglicherweise ein Neustart erforderlich.

  2. Installieren Sie .NET 6.

  3. Installieren Sie die Speech-CLI mithilfe der .NET-CLI durch Eingabe des folgenden Befehls:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Um die Speech-CLI zu aktualisieren, geben Sie diesen Befehl ein:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Geben Sie spx oder spx help ein, um die Hilfe für die Speech-Befehlszeilenschnittstelle anzuzeigen.

Schriftarteinschränkungen

Unter Windows können von der Speech-Befehlszeilenschnittstelle nur Schriftarten angezeigt werden, die für die Eingabeaufforderung auf dem lokalen Computer verfügbar sind. Das Windows-Terminal unterstützt alle Schriftarten, die von der Speech-Befehlszeilenschnittstelle interaktiv generiert werden.

Bei der Ausgabe einer Datei können in einem Text-Editor wie Notepad oder einem Webbrowser wie Microsoft Edge ebenfalls alle Schriftarten angezeigt werden.

Erstellen einer Ressourcenkonfiguration

Für den Einstieg benötigen Sie einen Speech-Ressourcenschlüssel und einen Regionsbezeichner (z. B. eastus, westus). Erstellen Sie eine Sprachressource im Azure-Portal. Weitere Informationen finden Sie unter Erstellen einer Ressource für mehrere Dienste.

Führen Sie die folgenden Befehle aus, um Ihren Ressourcenschlüssel und den Regionsbezeichner zu konfigurieren:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

Der Schlüssel und die Region werden für zukünftige Speech-CLI-Befehle gespeichert. Führen Sie die folgenden Befehle aus, um die aktuelle Konfiguration anzuzeigen:

spx config @key
spx config @region

Schließen Sie bei Bedarf die Option clear ein, um beide gespeicherten Werte zu entfernen:

spx config @key --clear
spx config @region --clear

Grundlegende Verwendung

Wichtig

Wenn Sie die Speech CLI in einem Container verwenden, schließen Sie die Option --host ein. Sie müssen auch --key none angeben, um sicherzustellen, dass die CLI nicht versucht, einen Speech-Schlüssel für die Authentifizierung zu verwenden. Führen Sie beispielsweise spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav aus , um Sprache aus einer Audiodatei in einem Spracherkennungscontainer zu erkennen.

In diesem Abschnitt werden einige grundlegende SPX-Befehle gezeigt, die häufig für erste Tests und Experimente nützlich sind. Führen Sie den folgenden Befehl aus, um die integrierte Hilfe des Tools anzuzeigen:

spx

Sie können Hilfethemen nach Schlüsselwort durchsuchen. Führen Sie beispielsweise den folgenden Befehl aus, um eine Liste mit Beispielen für die Verwendung der Speech-Befehlszeilenschnittstelle anzuzeigen:

spx help find --topics "examples"

Führen Sie den folgenden Befehl aus, um die Optionen für den Befehl recognize anzuzeigen:

spx help recognize

Weitere Hilfebefehle sind in der Konsolenausgabe aufgeführt. Diese Befehle können Sie eingeben, um ausführliche Hilfe zu Unterbefehlen zu erhalten.

Spracherkennung (Umwandlung von Sprache in Text)

Hinweis

Wenn Sie die Speech-Befehlszeilenschnittstelle in einem Docker-Container ausführen, können Sie das Mikrofon Ihres Computers nicht verwenden. Sie können jedoch aus Ihrem lokal eingebundenen Verzeichnis lesen und Audiodateien darin speichern.

Führen Sie den folgenden Befehl aus, um Sprache mithilfe des Standardmikrofons Ihres Systems in Text zu konvertieren (Spracherkennung).

spx recognize --microphone

Nachdem Sie den Befehl ausgeführt haben, beginnt SPX mit dem Lauschen auf Audiodaten auf dem aktuellen aktiven Eingabegerät. Wenn Sie die EINGABETASTE drücken, wird das Lauschen beendet. Das gesprochene Audiomaterial wird dann erkannt und in der Konsolenausgabe in Text konvertiert.

Die Speech-Befehlszeilenschnittstelle ermöglicht auch die Erkennung von Sprache aus einer Audiodatei. Führen Sie den folgenden Befehl aus:

spx recognize --file /path/to/file.wav

Tipp

Wenn Sie nicht weiterkommen oder mehr über die Spracherkennungsoptionen der Speech-Befehlszeilenschnittstelle erfahren möchten, können Sie spx help recognize ausführen.

Sprachsynthese (Umwandlung von Text in Sprache)

Wenn Sie den folgenden Befehl ausführen, wird Text als Eingabe verwendet und die synthetisierte Sprache über das aktuelle aktive Ausgabegerät (beispielsweise über die Lautsprecher Ihres Computers) ausgegeben.

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

Die synthetisierte Ausgabe kann auch in einer Datei gespeichert werden. In diesem Beispiel erstellen Sie eine Datei mit dem Namen my-sample.wav in dem Verzeichnis, in dem Sie den Befehl ausführen.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

Bei diesen Beispielen wird davon ausgegangen, dass Sie zum Testen die englische Sprache verwenden. Der Speech-Dienst unterstützt die Sprachsynthese jedoch in vielen Sprachen. Sie können eine vollständige Liste der Stimmen aufrufen, indem Sie entweder den folgenden Befehl ausführen oder die Seite Sprach- und Stimmunterstützung für den Speech-Dienst besuchen.

spx synthesize --voices

Hier sehen Sie einen Befehl für die Verwendung einer der gefundenen Stimmen.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Tipp

Wenn Sie nicht weiterkommen oder mehr über die Spracherkennungsoptionen der Speech-Befehlszeilenschnittstelle erfahren möchten, können Sie spx help synthesize ausführen.

Sprache-in-Text-Übersetzung

Mit der Speech-Befehlszeilenschnittstelle sind auch Sprache-in-Text-Übersetzungen möglich. Führen Sie den folgenden Befehl aus, um Audio über Ihr Standardmikrofon zu erfassen und die Übersetzung als Text auszugeben. Beachten Sie, dass für den Befehl translate die Ausgangs- und die Zielsprache (source und target) angegeben werden müssen.

spx translate --microphone --source en-US --target ru-RU

Wenn Sie in mehrere Sprachen übersetzen, trennen Sie die Sprachcodes durch ein Semikolon (;).

spx translate --microphone --source en-US --target ru-RU;fr-FR;es-ES

Wenn Sie die Ausgabe der Übersetzung speichern möchten, verwenden Sie das Flag --output. In diesem Beispiel wird auch aus einer Datei gelesen.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Tipp

Wenn Sie nicht weiterkommen oder mehr über die Spracherkennungsoptionen der Speech-Befehlszeilenschnittstelle erfahren möchten, können Sie spx help translate ausführen.

Nächste Schritte