Share via


Quickstart: Aan de slag met de Azure AI Speech CLI

In dit artikel leert u hoe u de Azure AI Speech CLI (ook wel SPX genoemd) gebruikt voor toegang tot Spraakservices, zoals spraak-naar-tekst, tekst-naar-spraak en spraakomzetting, zonder dat u code hoeft te schrijven. De Speech CLI is gereed voor productie en u kunt deze gebruiken om eenvoudige werkstromen in de Speech-service te automatiseren met behulp van .bat of shellscripts.

In dit artikel wordt ervan uitgegaan dat u werkende kennis hebt van het opdrachtpromptvenster, de terminal of PowerShell.

Notitie

In PowerShell moet het stop-parsing-token (--%) volgen spx. Voer bijvoorbeeld uit spx --% config @region om de huidige regioconfiguratiewaarde weer te geven.

Downloaden en installeren van

Volg deze stappen om de Speech CLI te installeren voor Windows:

  1. Installeer microsoft Visual C++ Redistributable voor Visual Studio 2019 voor uw platform. Voor de eerste keer dat u deze installeert, moet u deze mogelijk opnieuw opstarten.

  2. Installeer .NET 6.

  3. Installeer de Speech CLI via de .NET CLI door deze opdracht in te voeren:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Voer deze opdracht in om de Speech CLI bij te werken:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Voer spx help voor de Speech CLI in of spx help om deze te bekijken.

Lettertypebeperkingen

In Windows kan de Speech CLI alleen lettertypen weergeven die beschikbaar zijn voor de opdrachtprompt op de lokale computer. Windows Terminal ondersteunt alle lettertypen die de Speech CLI interactief produceert.

Als u naar een bestand uitvoert, kunnen in een teksteditor zoals Kladblok of een webbrowser zoals Microsoft Edge ook alle lettertypen worden weergegeven.

Een resourceconfiguratie maken

Om aan de slag te gaan, hebt u een Spraak-resourcesleutel en regio-id nodig (bijvoorbeeld eastus, westus). Maak een spraakresource in Azure Portal. Zie Een multiserviceresource maken voor meer informatie.

Voer de volgende opdrachten uit om uw resourcesleutel en regio-id te configureren:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

De sleutel en regio worden opgeslagen voor toekomstige Speech CLI-opdrachten. Voer de volgende opdrachten uit om de huidige configuratie weer te geven:

spx config @key
spx config @region

Neem indien nodig de optie op om een van de clear opgeslagen waarden te verwijderen:

spx config @key --clear
spx config @region --clear

Basaal gebruik

Belangrijk

Wanneer u de Speech CLI in een container gebruikt, neemt u de --host optie op. U moet ook opgeven --key none om ervoor te zorgen dat de CLI geen spraaksleutel probeert te gebruiken voor verificatie. Voer bijvoorbeeld uit spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav om spraak te herkennen vanuit een audiobestand in een spraak-naar-tekstcontainer.

In deze sectie ziet u enkele eenvoudige SPX-opdrachten die vaak nuttig zijn als u voor de eerste keer gaat testen en experimenteren. Voer de volgende opdracht uit om de Help bij het hulpprogramma weer te geven:

spx

U kunt helponderwerpen doorzoeken op trefwoord. Als u bijvoorbeeld een lijst met voorbeelden van Speech CLI-gebruik wilt zien, voert u de volgende opdracht uit:

spx help find --topics "examples"

Voer de volgende opdracht uit om opties voor de recognize opdracht weer te geven:

spx help recognize

Meer Help-opdrachten worden weergegeven in de console-uitvoer. U kunt deze opdrachten invoeren om gedetailleerde hulp te krijgen over subopdrachten.

Spraak-naar-tekst (spraakherkenning)

Notitie

U kunt de microfoon van uw computer niet gebruiken wanneer u de Speech CLI uitvoert in een Docker-container. U kunt audiobestanden echter lezen uit en opslaan in uw lokaal gekoppelde map.

Als u spraak wilt converteren naar tekst (spraakherkenning) met behulp van de standaardmicrofoon van uw systeem, voert u de volgende opdracht uit:

spx recognize --microphone

Nadat u de opdracht hebt uitgevoerd, begint SPX te luisteren naar audio op het huidige actieve invoerapparaat. Het luistert niet meer wanneer u Enter selecteert. De gesproken audio wordt vervolgens herkend en geconverteerd naar tekst in de console-uitvoer.

Met de Speech CLI kunt u ook spraak herkennen uit een audiobestand. Voer de volgende opdracht uit:

spx recognize --file /path/to/file.wav

Tip

Als u vastloopt of meer wilt weten over de spraak-CLI-herkenningsopties, kunt u uitvoeren spx help recognize.

Tekst naar spraak (spraaksynthese)

Met de volgende opdracht wordt tekst als invoer gebruikt en wordt de gesynthetiseerde spraak vervolgens uitgevoerd naar het huidige actieve uitvoerapparaat (bijvoorbeeld de luidsprekers van uw computer).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

U kunt de gesynthetiseerde uitvoer ook opslaan in een bestand. In dit voorbeeld maken we een bestand met de naam my-sample.wav in de map waarin u de opdracht uitvoert.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

In deze voorbeelden wordt ervan uitgegaan dat u in het Engels test. Speech Service ondersteunt echter spraaksynthese in veel talen. U kunt een volledige lijst met stemmen omlaag halen door de volgende opdracht uit te voeren of door naar de ondersteuningspagina voor taal te gaan.

spx synthesize --voices

Hier volgt een opdracht voor het gebruik van een van de stemmen die u hebt ontdekt.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Tip

Als u vastloopt of meer wilt weten over de spraak-CLI-herkenningsopties, kunt u uitvoeren spx help synthesize.

Spraak-naar-tekstomzetting

Met de Speech CLI kunt u ook spraak-naar-tekstomzetting uitvoeren. Voer de volgende opdracht uit om audio van uw standaardmicrofoon vast te leggen en de vertaling als tekst uit te voeren. Houd er rekening mee dat u de source en target taal moet opgeven met de translate opdracht.

spx translate --microphone --source en-US --target ru-RU

Wanneer u vertaalt in meerdere talen, scheidt u de taalcodes met een puntkomma (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

Als u de uitvoer van uw vertaling wilt opslaan, gebruikt u de --output vlag. In dit voorbeeld leest u ook een bestand.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Tip

Als u vastloopt of meer wilt weten over de spraak-CLI-herkenningsopties, kunt u uitvoeren spx help translate.

Volgende stappen