Quickstart: Aan de slag met de Azure AI Speech CLI

Artikel
09/24/2024

In dit artikel leert u hoe u de Azure AI Speech CLI (ook wel SPX genoemd) gebruikt voor toegang tot Spraakservices, zoals spraak-naar-tekst, tekst-naar-spraak en spraakomzetting, zonder dat u code hoeft te schrijven. De Speech CLI is gereed voor productie en u kunt deze gebruiken om eenvoudige werkstromen in de Speech-service te automatiseren met behulp van .bat of shellscripts.

In dit artikel wordt ervan uitgegaan dat u werkende kennis hebt van het opdrachtpromptvenster, de terminal of PowerShell.

Notitie

In PowerShell moet het stop-parsing-token (--%) volgen spx. Voer bijvoorbeeld uit spx --% config @region om de huidige regioconfiguratiewaarde weer te geven.

Downloaden en installeren van

Volg deze stappen om de Speech CLI te installeren voor Windows:

Installeer microsoft Visual C++ Redistributable voor Visual Studio 2019 voor uw platform. Voor de eerste keer dat u deze installeert, moet u deze mogelijk opnieuw opstarten.
Installeer .NET 6.

Installeer de Speech CLI via de .NET CLI door deze opdracht in te voeren:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Voer deze opdracht in om de Speech CLI bij te werken:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Voer spx help voor de Speech CLI in of spx help om deze te bekijken.

Lettertypebeperkingen

In Windows kan de Speech CLI alleen lettertypen weergeven die beschikbaar zijn voor de opdrachtprompt op de lokale computer. Windows Terminal ondersteunt alle lettertypen die de Speech CLI interactief produceert.

Als u naar een bestand uitvoert, kunnen in een teksteditor zoals Kladblok of een webbrowser zoals Microsoft Edge ook alle lettertypen worden weergegeven.

De volgende Linux-distributies worden ondersteund voor x64-architecturen die gebruikmaken van de Speech CLI:

Ubuntu 20.04/22.04/24.04
Debian 11/12

Notitie

De Speech SDK (niet de Speech CLI) ondersteunt aanvullende architecturen. Zie Over de Speech SDK voor meer informatie.

Volg deze stappen om de Speech CLI te installeren voor Linux op een x64 CPU:

Installeer .NET 6.

Installeer de Speech CLI via de .NET CLI door deze opdracht in te voeren:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Voer deze opdracht in om de Speech CLI bij te werken:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Installeer GStreamer voor gecomprimeerde audioondersteuning.

Voer de spx help voor de Speech CLI in.

Volg deze stappen om de Speech CLI te installeren op macOS 10.14 of hoger:

Installeer .NET 6.

Installeer de Speech CLI via de .NET CLI door deze opdracht in te voeren:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Voer deze opdracht in om de Speech CLI bij te werken:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Voer spx help voor de Speech CLI in of spx help om deze te bekijken.

In het volgende voorbeeld wordt een openbare containerinstallatiekopie opgehaald uit Docker Hub. U wordt aangeraden eerst te verifiëren met uw Docker Hub-account (docker login) in plaats van een anonieme pull-aanvraag te maken. Om de betrouwbaarheid te verbeteren wanneer u openbare inhoud gebruikt, importeert en beheert u de installatiekopieën in een persoonlijk Azure-containerregister. Meer informatie over het werken met openbare afbeeldingen.

Volg deze stappen om de Speech CLI te installeren in een Docker-container:

Installeer Docker Desktop voor uw platform als dat nog niet is geïnstalleerd.
Voer in een nieuwe opdrachtprompt of terminal deze opdracht in:
```
docker pull msftspeech/spx
```

Voer deze opdracht in om Help-informatie weer te geven voor de Speech CLI:

docker run -it --rm msftspeech/spx help

Een map koppelen in de container

Met het hulpprogramma Speech CLI worden configuratie-instellingen opgeslagen als bestanden. Deze bestanden worden geladen wanneer u een opdracht uitvoert (met uitzondering van Help-opdrachten).

Wanneer u de Speech CLI in een Docker-container gebruikt, moet u een lokale map vanuit de container koppelen, zodat het hulpprogramma het volgende kan doen:

Sla de configuratie-instellingen op of zoek deze.
Lees of schrijf bestanden die nodig zijn voor de opdracht, zoals audiobestanden van spraak.

Voer in Windows deze opdracht in om een lokale map te maken die de Speech CLI kan gebruiken vanuit de container:

mkdir c:\spx-data

Voer in Linux of macOS deze opdracht in een terminal in om een map te maken en het absolute pad ervan te zien:

mkdir ~/spx-data
cd ~/spx-data
pwd

U gebruikt het absolute pad wanneer u de Speech CLI aanroept.

De Speech CLI uitvoeren in de container

In deze documentatie ziet u de Speech CLI-opdracht spx die wordt gebruikt in niet-Docker-installaties. Wanneer u de spx opdracht aanroept in een Docker-container, moet u een map in de container koppelen aan uw bestandssysteem waar de Speech CLI configuratiewaarden kan opslaan en vinden en bestanden kan lezen en schrijven.

In Windows worden uw opdrachten als volgt gestart:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

In Linux of macOS zien uw opdrachten eruit als in het volgende voorbeeld. Vervang ABSOLUTE_PATH door het absoluut pad van uw gekoppelde map. De pwd opdracht heeft dit pad in de vorige sectie geretourneerd. Als u deze opdracht uitvoert voordat u uw sleutel en regio instelt, krijgt u een foutmelding waarin wordt aangegeven dat u uw sleutel en regio moet instellen.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Als u de spx opdracht wilt gebruiken die in een container is geïnstalleerd, voert u altijd de volledige opdracht in, zoals wordt weergegeven in het voorgaande voorbeeld, gevolgd door de parameters van uw aanvraag. In Windows wordt bijvoorbeeld met deze opdracht de sleutel ingesteld:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Voor uitgebreidere interactie met het opdrachtregelprogramma kunt u een container starten met een interactieve Bash-shell door een entrypoint parameter toe te voegen. Voer in Windows deze opdracht in om een container te starten die een interactieve opdrachtregelinterface beschikbaar maakt, waar u meerdere spx opdrachten kunt invoeren:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

U kunt dit combineren met AZ Login en SPX Init begeleiden u bij het maken van de spraaksleutels en het selecteren van een overeenkomende gegevensregio zonder dat u de Azure-portal hoeft te gebruiken. De sleutels worden automatisch opgeslagen voor later gebruik.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Om aan de slag te gaan, hebt u een Spraak-resourcesleutel en regio-id nodig (bijvoorbeeld eastus, westus). Maak een spraakresource in Azure Portal. Zie Een Azure AI-servicesresource maken voor meer informatie.

Voer de volgende opdrachten uit om uw resourcesleutel en regio-id te configureren:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

De sleutel en regio worden opgeslagen voor toekomstige Speech CLI-opdrachten. Voer de volgende opdrachten uit om de huidige configuratie weer te geven:

spx config @key
spx config @region

Neem indien nodig de optie op om een van de clear opgeslagen waarden te verwijderen:

spx config @key --clear
spx config @region --clear

Om aan de slag te gaan, hebt u een Spraak-resourcesleutel en regio-id nodig (bijvoorbeeld eastus, westus). Maak een spraakresource in Azure Portal.

Voer de volgende opdrachten uit in PowerShell om uw Spraak-resourcesleutel en regio-id te configureren:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

De sleutel en regio worden opgeslagen voor toekomstige SPX-opdrachten. Voer de volgende opdrachten uit om de huidige configuratie weer te geven:

spx --% config @key
spx --% config @region

Neem indien nodig de optie op om een van de clear opgeslagen waarden te verwijderen:

spx --% config @key --clear
spx --% config @region --clear

Basaal gebruik

Belangrijk

Wanneer u de Speech CLI in een container gebruikt, neemt u de --host optie op. U moet ook opgeven --key none om ervoor te zorgen dat de CLI geen spraaksleutel probeert te gebruiken voor verificatie. Voer bijvoorbeeld uit spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav om spraak te herkennen vanuit een audiobestand in een spraak-naar-tekstcontainer.

In deze sectie ziet u enkele eenvoudige SPX-opdrachten die vaak nuttig zijn als u voor de eerste keer gaat testen en experimenteren. Voer de volgende opdracht uit om de Help bij het hulpprogramma weer te geven:

spx

U kunt helponderwerpen doorzoeken op trefwoord. Als u bijvoorbeeld een lijst met voorbeelden van Speech CLI-gebruik wilt zien, voert u de volgende opdracht uit:

spx help find --topics "examples"

Voer de volgende opdracht uit om opties voor de recognize opdracht weer te geven:

spx help recognize

Meer Help-opdrachten worden weergegeven in de console-uitvoer. U kunt deze opdrachten invoeren om gedetailleerde hulp te krijgen over subopdrachten.

Spraak-naar-tekst (spraakherkenning)

Notitie

U kunt de microfoon van uw computer niet gebruiken wanneer u de Speech CLI uitvoert in een Docker-container. U kunt audiobestanden echter lezen uit en opslaan in uw lokaal gekoppelde map.

Als u spraak wilt converteren naar tekst (spraakherkenning) met behulp van de standaardmicrofoon van uw systeem, voert u de volgende opdracht uit:

spx recognize --microphone

Nadat u de opdracht hebt uitgevoerd, begint SPX te luisteren naar audio op het huidige actieve invoerapparaat. Het luistert niet meer wanneer u Enter selecteert. De gesproken audio wordt vervolgens herkend en geconverteerd naar tekst in de console-uitvoer.

Met de Speech CLI kunt u ook spraak herkennen uit een audiobestand. Voer de volgende opdracht uit:

spx recognize --file /path/to/file.wav

Tip

Als u vastloopt of meer wilt weten over de spraak-CLI-herkenningsopties, kunt u uitvoeren spx help recognize.

Tekst naar spraak (spraaksynthese)

Met de volgende opdracht wordt tekst als invoer gebruikt en wordt de gesynthetiseerde spraak vervolgens uitgevoerd naar het huidige actieve uitvoerapparaat (bijvoorbeeld de luidsprekers van uw computer).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

U kunt de gesynthetiseerde uitvoer ook opslaan in een bestand. In dit voorbeeld maken we een bestand met de naam my-sample.wav in de map waarin u de opdracht uitvoert.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

In deze voorbeelden wordt ervan uitgegaan dat u in het Engels test. Speech Service ondersteunt echter spraaksynthese in veel talen. U kunt een volledige lijst met stemmen omlaag halen door de volgende opdracht uit te voeren of door naar de ondersteuningspagina voor taal te gaan.

spx synthesize --voices

Hier volgt een opdracht voor het gebruik van een van de stemmen die u hebt ontdekt.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Tip

Als u vastloopt of meer wilt weten over de spraak-CLI-herkenningsopties, kunt u uitvoeren spx help synthesize.

Spraak-naar-tekstomzetting

Met de Speech CLI kunt u ook spraak-naar-tekstomzetting uitvoeren. Voer de volgende opdracht uit om audio van uw standaardmicrofoon vast te leggen en de vertaling als tekst uit te voeren. Houd er rekening mee dat u de source en target taal moet opgeven met de translate opdracht.

spx translate --microphone --source en-US --target ru-RU

Wanneer u vertaalt in meerdere talen, scheidt u de taalcodes met een puntkomma (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

Als u de uitvoer van uw vertaling wilt opslaan, gebruikt u de --output vlag. In dit voorbeeld leest u ook een bestand.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Tip

Als u vastloopt of meer wilt weten over de spraak-CLI-herkenningsopties, kunt u uitvoeren spx help translate.

Delen via

Quickstart: Aan de slag met de Azure AI Speech CLI

Downloaden en installeren van

Lettertypebeperkingen

Een map koppelen in de container

De Speech CLI uitvoeren in de container

Een resourceconfiguratie maken

Basaal gebruik

Spraak-naar-tekst (spraakherkenning)

Tekst naar spraak (spraaksynthese)

Spraak-naar-tekstomzetting

Volgende stappen

Feedback

Aanvullende resources