Rövid útmutató a beszédről a szöveghez - Azure AI services

Fontos

A cikkben megjelölt (előzetes verziójú) elemek jelenleg nyilvános előzetes verzióban érhetők el. Ez az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Ebben a rövid útmutatóban valós idejű szövegfelolvasást próbál ki az Azure AI Foundryben.

Előfeltételek

Azure-előfizetés – Hozzon létre egyet ingyenesen.
Néhány Azure AI-szolgáltatás ingyenesen kipróbálható az Azure AI Foundry portálon. A cikkben ismertetett összes képességhez való hozzáféréshez csatlakoztatnia kell az AI-szolgáltatásokat az Azure AI Foundryben.

Valós idejű szövegfelolvasás kipróbálás

Nyissa meg az Azure AI Foundry-projektet. Ha létre kell hoznia egy projektet, olvassa el az Azure AI Foundry-projekt létrehozása című témakört.
A bal oldali panelen válassza a Játszóterek lehetőséget, majd válasszon egy használni kívánt játszóteret. Ebben a példában válassza a Speech-játszótér kipróbálása lehetőséget.
Igény szerint másik kapcsolatot is választhat a játszótéren. A Speech-játszótéren csatlakozhat az Azure AI Services többszolgáltatásos erőforrásaihoz vagy a Speech szolgáltatás erőforrásaihoz.
Válassza a Valós idejű átírás lehetőséget.
Válassza a Speciális beállítások megjelenítése lehetőséget a beszéd szövegre való konfigurálásához, például:
- Nyelvazonosítás: A hangban beszélt nyelvek azonosítására szolgál, ha összehasonlítják a támogatott nyelvek listájával. Az olyan nyelvi azonosítási lehetőségekről, mint az indítás és a folyamatos felismerés, további információkért lásd : Nyelvazonosítás.
- Hangszóró-diarizálás: A hang hangszóróinak azonosítására és elkülönítésére szolgál. A diarizálás megkülönbözteti a beszélgetésben részt vevő különböző előadókat. A Speech szolgáltatás információt nyújt arról, hogy melyik beszélő beszélt az átírt beszéd egy bizonyos részén. A beszélő-diarizálással kapcsolatos további információkért tekintse meg a valós idejű szövegfelolvasást a beszélő-diarizálás gyorsútmutatójával.
- Egyéni végpont: Egyéni beszédből származó üzembe helyezett modell használata a felismerési pontosság javítása érdekében. A Microsoft alapmodelljének használatához hagyja ezt a beállítást None (Nincs) értékre. Az egyéni beszédről további információt a Custom Speech című témakörben talál.
- Kimeneti formátum: Válasszon az egyszerű és a részletes kimeneti formátumok közül. Az egyszerű kimenet tartalmazza a megjelenítési formátumot és az időbélyegeket. A részletes kimenet további formátumokat (például megjelenítés, lexikális, ITN és maszkolt ITN), időbélyegeket és N-legjobb listákat tartalmaz.
- Kifejezéslista: Javíthatja az átírás pontosságát az ismert kifejezések, például személyek vagy adott helyek listájának megadásával. Vesszővel vagy pontosvesszővel elválaszthatja a kifejezéslistában szereplő értékeket. A kifejezéslistákról további információt a Kifejezéslisták című témakörben talál.
Válasszon ki egy feltöltendő hangfájlt, vagy rögzítse a hangot valós időben. Ebben a példában a Call1_separated_16k_health_insurance.wav GitHub Speech SDK-adattárában elérhető fájlt használjuk. Letöltheti a fájlt, vagy használhatja a saját hangfájlját.
A valós idejű átírást az oldal alján tekintheti meg.
A JSON fülre kattintva megtekintheti az átirat JSON-kimenetét. A tulajdonságok közé tartoznak a Offsetkövetkezők: , DurationRecognitionStatus, Display, Lexical, ITNstb.

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.

A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t. Egyéb követelményekkel kapcsolatban lásd : A Speech SDK telepítése.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Beszéd felismerése mikrofonból

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat mintákat a Visual Studio Code-on.

Az alábbi lépéseket követve hozzon létre egy konzolalkalmazást, és telepítse a Speech SDK-t.

Nyisson meg egy parancssori ablakot abban a mappában, ahol az új projektet szeretné. A parancs futtatásával hozzon létre egy konzolalkalmazást a .NET CLI-vel.
```
dotnet new console
```
Ez a parancs létrehozza a Program.cs fájlt a projektkönyvtárban.
Telepítse a Speech SDK-t az új projektbe a .NET CLI-vel.
```
dotnet add package Microsoft.CognitiveServices.Speech
```

Cserélje le a Program.cs fájl tartalmát a következő kódra:

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

    static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
    {
        switch (speechRecognitionResult.Reason)
        {
            case ResultReason.RecognizedSpeech:
                Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                break;
            case ResultReason.NoMatch:
                Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion);        
        speechConfig.SpeechRecognitionLanguage = "en-US";

        using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
        using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        Console.WriteLine("Speak into your microphone.");
        var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
        OutputSpeechRecognitionResult(speechRecognitionResult);
    }
}

A beszédfelismerés nyelvének módosításához cserélje le en-US egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelven es-ES . Ha nem ad meg nyelvet, az alapértelmezett érték a következő en-US. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.
Az új konzolalkalmazás futtatásával indítsa el a beszédfelismerést egy mikrofonból:
```
dotnet run
```
Fontos

Győződjön meg arról, hogy beállítja a környezeti és SPEECH_REGIONa SPEECH_KEY környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.
Amikor a rendszer kéri, beszéljen a mikrofonba. A beszédnek szövegként kell megjelennie:
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

Megjegyzések

Íme néhány további szempont:

Ez a példa a RecognizeOnceAsync művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.
A hangfájlból származó beszéd felismeréséhez használja FromWavFileInput a következő FromDefaultMicrophoneInputhelyett:
```
using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
```
Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja PullAudioInputStream vagy PushAudioInputStream. További információ: A tömörített bemeneti hang használata.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.

A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t. További követelmények: A Speech SDK telepítése.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Beszéd felismerése mikrofonból

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat mintákat a Visual Studio Code-on.

Az alábbi lépéseket követve hozzon létre egy konzolalkalmazást, és telepítse a Speech SDK-t.

Hozzon létre egy új C++ konzolprojektet a Visual Studio Communityben.SpeechRecognition
Válassza az Eszközök>Nuget Csomagkezelő> Csomagkezelő konzol lehetőséget. A Csomagkezelő konzolon futtassa a következő parancsot:
```
Install-Package Microsoft.CognitiveServices.Speech
```

Cserélje le a következő kód tartalmát SpeechRecognition.cpp :

#include <iostream> 
#include <stdlib.h>
#include <speechapi_cxx.h>

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

std::string GetEnvironmentVariable(const char* name);

int main()
{
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
    auto speechRegion = GetEnvironmentVariable("SPEECH_REGION");

    if ((size(speechKey) == 0) || (size(speechRegion) == 0)) {
        std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl;
        return -1;
    }

    auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion);

    speechConfig->SetSpeechRecognitionLanguage("en-US");

    auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
    auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);

    std::cout << "Speak into your microphone.\n";
    auto result = speechRecognizer->RecognizeOnceAsync().get();

    if (result->Reason == ResultReason::RecognizedSpeech)
    {
        std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
    }
    else if (result->Reason == ResultReason::NoMatch)
    {
        std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
    }
    else if (result->Reason == ResultReason::Canceled)
    {
        auto cancellation = CancellationDetails::FromResult(result);
        std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;

        if (cancellation->Reason == CancellationReason::Error)
        {
            std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
            std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
            std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl;
        }
    }
}

std::string GetEnvironmentVariable(const char* name)
{
#if defined(_MSC_VER)
    size_t requiredSize = 0;
    (void)getenv_s(&requiredSize, nullptr, 0, name);
    if (requiredSize == 0)
    {
        return "";
    }
    auto buffer = std::make_unique<char[]>(requiredSize);
    (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
    return buffer.get();
#else
    auto value = getenv(name);
    return value ? value : "";
#endif
}

A beszédfelismerés nyelvének módosításához cserélje le en-US egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelven es-ES . Ha nem ad meg nyelvet, az alapértelmezett érték a következő en-US. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.
Hozza létre és futtassa az új konzolalkalmazást a beszédfelismerés mikrofonból való elindításához.

Fontos

Győződjön meg arról, hogy beállítja a környezeti és SPEECH_REGIONa SPEECH_KEY környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.
Amikor a rendszer kéri, beszéljen a mikrofonba. A beszédnek szövegként kell megjelennie:
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

Megjegyzések

Íme néhány további szempont:

Ez a példa a RecognizeOnceAsync művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.
A hangfájlból származó beszéd felismeréséhez használja FromWavFileInput a következő FromDefaultMicrophoneInputhelyett:
```
auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");
```
Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja PullAudioInputStream vagy PushAudioInputStream. További információ: A tömörített bemeneti hang használata.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (Go) | További minták a GitHubon |

Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.

A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Telepítse a Speech SDK for Go-t. A követelményekről és utasításokról a Speech SDK telepítése című témakörben olvashat.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Beszéd felismerése mikrofonból

Go-modul létrehozásához kövesse az alábbi lépéseket.

Nyisson meg egy parancssori ablakot abban a mappában, ahol az új projektet szeretné. Hozzon létre egy speech-recognition.go nevű új fájlt.

Másolja a következő kódot a speech-recognition.go fájlba:

package main

import (
    "bufio"
    "fmt"
    "os"

    "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
)

func sessionStartedHandler(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Started (ID=", event.SessionID, ")")
}

func sessionStoppedHandler(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Stopped (ID=", event.SessionID, ")")
}

func recognizingHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognizing:", event.Result.Text)
}

func recognizedHandler(event speech.SpeechRecognitionEventArgs) {
    defer event.Close()
    fmt.Println("Recognized:", event.Result.Text)
}

func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) {
    defer event.Close()
    fmt.Println("Received a cancellation: ", event.ErrorDetails)
    fmt.Println("Did you set the speech resource key and region values?")
}

func main() {
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    speechKey :=  os.Getenv("SPEECH_KEY")
    speechRegion := os.Getenv("SPEECH_REGION")

    audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer audioConfig.Close()
    speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechConfig.Close()
    speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechRecognizer.Close()
    speechRecognizer.SessionStarted(sessionStartedHandler)
    speechRecognizer.SessionStopped(sessionStoppedHandler)
    speechRecognizer.Recognizing(recognizingHandler)
    speechRecognizer.Recognized(recognizedHandler)
    speechRecognizer.Canceled(cancelledHandler)
    speechRecognizer.StartContinuousRecognitionAsync()
    defer speechRecognizer.StopContinuousRecognitionAsync()
    bufio.NewReader(os.Stdin).ReadBytes('\n')
}

Futtassa a következő parancsokat egy go.mod fájl létrehozásához, amely a GitHubon üzemeltetett összetevőkre hivatkozik:
```
go mod init speech-recognition
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
Fontos

Győződjön meg arról, hogy beállítja a környezeti és SPEECH_REGIONa SPEECH_KEY környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.
Hozza létre és futtassa a kódot:
```
go build
go run speech-recognition
```

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció | További minták a GitHubon

Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.

A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A környezet beállításához telepítse a Speech SDK-t. A rövid útmutatóban szereplő minta a Java-futtatókörnyezettel működik.

Telepítse az Apache Maven-t. Ezután futtassa mvn -v a sikeres telepítés megerősítéséhez.

Hozzon létre egy új pom.xml fájlt a projekt gyökerében, és másolja bele a következő kódot:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.42.0</version>
        </dependency>
    </dependencies>
</project>

Telepítse a Speech SDK-t és a függőségeket.
```
mvn clean dependency:copy-dependencies
```

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Beszéd felismerése mikrofonból

Az alábbi lépéseket követve hozzon létre egy konzolalkalmazást a beszédfelismeréshez.

Hozzon létre egy SpeechRecognition.java nevű új fájlt ugyanabban a projekt gyökérkönyvtárában.

Másolja a következő kódot a SpeechRecognition.java:

import com.microsoft.cognitiveservices.speech.*;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;

import java.util.concurrent.ExecutionException;
import java.util.concurrent.Future;

public class SpeechRecognition {
    // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    private static String speechKey = System.getenv("SPEECH_KEY");
    private static String speechRegion = System.getenv("SPEECH_REGION");

    public static void main(String[] args) throws InterruptedException, ExecutionException {
        SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion);
        speechConfig.setSpeechRecognitionLanguage("en-US");
        recognizeFromMicrophone(speechConfig);
    }

    public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
        AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
        SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        System.out.println("Speak into your microphone.");
        Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
        SpeechRecognitionResult speechRecognitionResult = task.get();

        if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
            System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
        }
        else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
            System.out.println("NOMATCH: Speech could not be recognized.");
        }
        else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
            CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
            System.out.println("CANCELED: Reason=" + cancellation.getReason());

            if (cancellation.getReason() == CancellationReason.Error) {
                System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                System.out.println("CANCELED: Did you set the speech resource key and region values?");
            }
        }

        System.exit(0);
    }
}

A beszédfelismerés nyelvének módosításához cserélje le en-US egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelven es-ES . Ha nem ad meg nyelvet, az alapértelmezett érték a következő en-US. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.
Az új konzolalkalmazás futtatásával indítsa el a beszédfelismerést egy mikrofonból:
```
javac SpeechRecognition.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechRecognition
```
Fontos

Győződjön meg arról, hogy beállítja a környezeti és SPEECH_REGIONa SPEECH_KEY környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.
Amikor a rendszer kéri, beszéljen a mikrofonba. A beszédnek szövegként kell megjelennie:
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

Megjegyzések

Íme néhány további szempont:

Ez a példa a RecognizeOnceAsync művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.
A hangfájlból származó beszéd felismeréséhez használja fromWavFileInput a következő fromDefaultMicrophoneInputhelyett:
```
AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
```
Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja PullAudioInputStream vagy PushAudioInputStream. További információ: A tömörített bemeneti hang használata.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (npm) | További minták a GitHub | Library forráskódján |

Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.

A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

Szüksége van egy .wav hangfájlra is a helyi gépen. Használhatja saját .wav fájlját (legfeljebb 30 másodpercig), vagy letöltheti a mintafájlt https://crbn.us/whatstheweatherlike.wav .

A környezet beállítása

A környezet beállításához telepítse a JavaScripthez készült Speech SDK-t. Futtassa a következő parancsot: npm install microsoft-cognitiveservices-speech-sdk. Az irányított telepítési utasításokért lásd : A Speech SDK telepítése.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Beszédfelismerés végrehajtása fájlból

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat mintákat a Visual Studio Code-on.

Kövesse az alábbi lépéseket egy Node.js-konzolalkalmazás létrehozásához a beszédfelismeréshez.

Nyisson meg egy parancssori ablakot, ahol az új projektet szeretné, és hozzon létre egy SpeechRecognition.js nevű új fájlt.

Telepítse a JavaScripthez készült Speech SDK-t:

npm install microsoft-cognitiveservices-speech-sdk

Másolja a következő kódot a SpeechRecognition.js:

const fs = require("fs");
const sdk = require("microsoft-cognitiveservices-speech-sdk");

// This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION);
speechConfig.speechRecognitionLanguage = "en-US";

function fromFile() {
    let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav"));
    let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig);

    speechRecognizer.recognizeOnceAsync(result => {
        switch (result.reason) {
            case sdk.ResultReason.RecognizedSpeech:
                console.log(`RECOGNIZED: Text=${result.text}`);
                break;
            case sdk.ResultReason.NoMatch:
                console.log("NOMATCH: Speech could not be recognized.");
                break;
            case sdk.ResultReason.Canceled:
                const cancellation = sdk.CancellationDetails.fromResult(result);
                console.log(`CANCELED: Reason=${cancellation.reason}`);

                if (cancellation.reason == sdk.CancellationReason.Error) {
                    console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                    console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                    console.log("CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
        speechRecognizer.close();
    });
}
fromFile();

SpeechRecognition.js cserélje le YourAudioFile.wav saját .wav fájlra. Ez a példa csak egy .wav fájlból ismeri fel a beszédet. További információ az egyéb hangformátumokról: A tömörített bemeneti hang használata. Ez a példa legfeljebb 30 másodpercnyi hangot támogat.
A beszédfelismerés nyelvének módosításához cserélje le en-US egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelven es-ES . Ha nem ad meg nyelvet, az alapértelmezett érték a következő en-US. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.
Futtassa az új konzolalkalmazást a beszédfelismerés fájlból való elindításához:
```
node.exe SpeechRecognition.js
```
Fontos

Győződjön meg arról, hogy beállítja a környezeti és SPEECH_REGIONa SPEECH_KEY környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.

A hangfájlból származó beszédnek szövegként kell kimenetnek lennie:
```
RECOGNIZED: Text=I'm excited to try speech to text.
```

Megjegyzések

Ez a példa a recognizeOnceAsync művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.

Feljegyzés

A mikrofonból való beszédfelismerés nem támogatott a Node.js. Csak böngészőalapú JavaScript-környezetben támogatott. További információkért tekintse meg a React-mintát és a beszéd szöveggé alakítását egy mikrofonból a GitHubon.

A React-minta a hitelesítési jogkivonatok cseréjének és kezelésének tervezési mintáit mutatja be. Emellett a mikrofonból vagy fájlból a beszéd szövegkonvertálására szolgáló hangrögzítést is megjeleníti.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (PyPi) | További minták a GitHubon |

Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.

A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A PythonHoz készült Speech SDK Python-csomagindex (PyPI) modulként érhető el. A PythonHoz készült Speech SDK kompatibilis a Windows, a Linux és a macOS rendszerrel.

Windows esetén telepítse a Visual Studio 2015, 2017, 2019 és 2022 Microsoft Visual C++ terjeszthető verzióját a platformhoz. A csomag első telepítése újraindítást igényelhet.
Linuxon az x64-alapú célarchitektúrát kell használnia.

Telepítse a Python 3.7-es vagy újabb verzióját. További követelmények: A Speech SDK telepítése.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Beszéd felismerése mikrofonból

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat mintákat a Visual Studio Code-on.

Kövesse az alábbi lépéseket egy konzolalkalmazás létrehozásához.

Nyisson meg egy parancssori ablakot abban a mappában, ahol az új projektet szeretné. Hozzon létre egy speech_recognition.py nevű új fájlt.
Futtassa ezt a parancsot a Speech SDK telepítéséhez:
```
pip install azure-cognitiveservices-speech
```

Másolja a következő kódot a speech_recognition.py:

import os
import azure.cognitiveservices.speech as speechsdk

def recognize_from_microphone():
    # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
    speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION'))
    speech_config.speech_recognition_language="en-US"

    audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    print("Speak into your microphone.")
    speech_recognition_result = speech_recognizer.recognize_once_async().get()

    if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
        print("Recognized: {}".format(speech_recognition_result.text))
    elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
        print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
    elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
        cancellation_details = speech_recognition_result.cancellation_details
        print("Speech Recognition canceled: {}".format(cancellation_details.reason))
        if cancellation_details.reason == speechsdk.CancellationReason.Error:
            print("Error details: {}".format(cancellation_details.error_details))
            print("Did you set the speech resource key and region values?")

recognize_from_microphone()

A beszédfelismerés nyelvének módosításához cserélje le en-US egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelven es-ES . Ha nem ad meg nyelvet, az alapértelmezett érték a következő en-US. A több beszélt nyelv egyikének azonosításáról további információt a nyelvazonosítás című témakörben talál.
Az új konzolalkalmazás futtatásával indítsa el a beszédfelismerést egy mikrofonból:
```
python speech_recognition.py
```
Fontos

Győződjön meg arról, hogy beállítja a környezeti és SPEECH_REGIONa SPEECH_KEY környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.
Amikor a rendszer kéri, beszéljen a mikrofonba. A beszédnek szövegként kell megjelennie:
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

Megjegyzések

Íme néhány további szempont:

Ez a példa a recognize_once_async művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.
A hangfájlból származó beszéd felismeréséhez használja filename a következő use_default_microphonehelyett:
```
audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
```
Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja PullAudioInputStream vagy PushAudioInputStream. További információ: A tömörített bemeneti hang használata.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (letöltés) | További minták a GitHubon |

Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.

A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A Speech SDK for Swift keretrendszercsomagként van elosztva. A keretrendszer támogatja az Objective-C-t és a Swiftet iOS és macOS rendszeren is.

A Speech SDK használható Xcode-projektekben CocoaPodként, vagy közvetlenül és manuálisan csatolva. Ez az útmutató egy CocoaPodot használ. Telepítse a CocoaPod függőségkezelőt a telepítési útmutatóban leírtak szerint.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Beszéd felismerése mikrofonból

A macOS-alkalmazások beszédfelismeréséhez kövesse az alábbi lépéseket.

Klónozza az Azure-Samples/cognitive-services-speech-sdk adattárat, hogy lekérje a beszédfelismerést egy mikrofonból a Swiftben macOS-mintaprojekten . Az adattár iOS-mintákkal is rendelkezik.
Lépjen a letöltött mintaalkalmazás (helloworld) könyvtárára egy terminálban.
Futtassa a következő parancsot: pod install. Ez a parancs létrehoz egy helloworld.xcworkspace Xcode-munkaterületet, amely függőségként tartalmazza a mintaalkalmazást és a Speech SDK-t is.
Nyissa meg a munkaterületet helloworld.xcworkspace az Xcode-ban.

Nyissa meg az AppDelegate.swift nevű fájlt, és keresse meg az applicationDidFinishLaunching itt látható módszereket és recognizeFromMic metódusokat.

import Cocoa

@NSApplicationMain
class AppDelegate: NSObject, NSApplicationDelegate {
    var label: NSTextField!
    var fromMicButton: NSButton!

    var sub: String!
    var region: String!

    @IBOutlet weak var window: NSWindow!

    func applicationDidFinishLaunching(_ aNotification: Notification) {
        print("loading")
        // load subscription information
        sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
        region = ProcessInfo.processInfo.environment["SPEECH_REGION"]

        label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
        label.textColor = NSColor.black
        label.lineBreakMode = .byWordWrapping

        label.stringValue = "Recognition Result"
        label.isEditable = false

        self.window.contentView?.addSubview(label)

        fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
        fromMicButton.title = "Recognize"
        fromMicButton.target = self
        fromMicButton.action = #selector(fromMicButtonClicked)
        self.window.contentView?.addSubview(fromMicButton)
    }

    @objc func fromMicButtonClicked() {
        DispatchQueue.global(qos: .userInitiated).async {
            self.recognizeFromMic()
        }
    }

    func recognizeFromMic() {
        var speechConfig: SPXSpeechConfiguration?
        do {
            try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
        } catch {
            print("error \(error) happened")
            speechConfig = nil
        }
        speechConfig?.speechRecognitionLanguage = "en-US"

        let audioConfig = SPXAudioConfiguration()

        let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)

        reco.addRecognizingEventHandler() {reco, evt in
            print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
            self.updateLabel(text: evt.result.text, color: .gray)
        }

        updateLabel(text: "Listening ...", color: .gray)
        print("Listening...")

        let result = try! reco.recognizeOnce()
        print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
        updateLabel(text: result.text, color: .black)

        if result.reason != SPXResultReason.recognizedSpeech {
            let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
            print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
            print("Did you set the speech resource key and region values?")
            updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
        }
    }

    func updateLabel(text: String?, color: NSColor) {
        DispatchQueue.main.async {
            self.label.stringValue = text!
            self.label.textColor = color
        }
    }
}

Az AppDelegate.m-ben használja a Speech-erőforráskulcshoz és -régióhoz korábban beállított környezeti változókat.
```
sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
```
A beszédfelismerés nyelvének módosításához cserélje le en-US egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelven es-ES . Ha nem ad meg nyelvet, az alapértelmezett érték a következő en-US. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.
Ha láthatóvá szeretné tenni a hibakeresési kimenetet, válassza a Hibakeresési terület>aktiválása konzol megtekintése>lehetőséget.
A példakód létrehozásához és futtatásához válassza a Termékfuttatás> lehetőséget a menüből, vagy válassza a Lejátszás gombot.

Fontos

Győződjön meg arról, hogy beállítja a környezeti és SPEECH_REGIONa SPEECH_KEY környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.

Miután kiválasztotta az appban a gombot, és kimondott néhány szót, a képernyő alsó részén látható szövegnek kell megjelennie. Amikor első alkalommal futtatja az alkalmazást, az arra kéri, hogy adjon hozzáférést az alkalmazásnak a számítógép mikrofonjához.

Megjegyzések

Ez a példa a recognizeOnce művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.

Objective-C

Az Objective-C-hez készült Speech SDK megosztja az ügyfélkódtárakat és a referenciadokumentációt a Swifthez készült Speech SDK-val. Objective-C-kód példákért tekintse meg az Objective-C mikrofonjának beszédfelismerését macOS-mintaprojekten a GitHubon.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Speech to text REST API reference | Speech to text REST API for short audio reference | További minták a GitHubon

Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.

A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

Szüksége van egy .wav hangfájlra is a helyi gépen. Használhatja a saját .wav fájlját akár 60 másodpercig, vagy letöltheti a mintafájlt https://crbn.us/whatstheweatherlike.wav .

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Beszédfelismerés végrehajtása fájlból

Nyisson meg egy konzolablakot, és futtassa a következő cURL-parancsot. Cserélje le YourAudioFile.wav a hangfájl elérési útjára és nevére.

curl --location --request POST "https://%SPEECH_REGION%.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

Fontos

Győződjön meg arról, hogy beállítja a környezeti és SPEECH_REGIONa SPEECH_KEY környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.

Az itt láthatóhoz hasonló választ kell kapnia. A DisplayText hangfájlból felismert szövegnek kell lennie. A parancs legfeljebb 60 másodpercnyi hangot ismer fel, és szöveggé alakítja.

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

További információ: Speech to text REST API a rövid hangért.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.

A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Kövesse ezeket a lépéseket, és tekintse meg a Speech CLI rövid útmutatóját a platform egyéb követelményeiről.

Futtassa a következő .NET CLI-parancsot a Speech CLI telepítéséhez:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Futtassa az alábbi parancsokat a Speech-erőforráskulcs és -régió konfigurálásához. Cserélje le SUBSCRIPTION-KEY a Speech erőforráskulcsot, és cserélje le REGION a Speech erőforrásrégiójára.
- Terminál
- PowerShell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

Beszéd felismerése mikrofonból

Futtassa a következő parancsot a beszédfelismerés mikrofonból való elindításához:
```
spx recognize --microphone --source en-US
```
Beszéljen a mikrofonba, és valós időben láthatja a szavak átiratát szöveggé. A Speech CLI 30 másodperc elteltével vagy a Ctrl C billentyűkombinációval +leáll.
```
Connection CONNECTED...
RECOGNIZED: I'm excited to try speech to text.
```

Megjegyzések

Íme néhány további szempont:

Ha hangfájlból szeretné felismerni a beszédet, használja --file a következő helyett --microphone: . Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja --format. További információ: A tömörített bemeneti hang használata.
- Terminál
- PowerShell
```
spx recognize --file YourAudioFile.wav
spx recognize --file YourAudioFile.mp4 --format any
```
```
spx recognize --file YourAudioFile.wav
spx --% recognize --file YourAudioFile.mp4 --format any
```

Adott szavak vagy kimondott szövegek felismerési pontosságának javítása érdekében használjon kifejezéslistát. A parancs mellett egy sorba vagy szövegfájlba is belefoglalhatja a kifejezéslistát recognize :

Terminál
PowerShell

spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
spx recognize --microphone --phrases @phrases.txt

spx --% recognize --microphone --phrases "Contoso;Jessie;Rehaan;"
spx --% recognize --microphone --phrases @phrases.txt

A beszédfelismerés nyelvének módosításához cserélje le en-US egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelven es-ES . Ha nem ad meg nyelvet, az alapértelmezett érték a következő en-US.
```
spx recognize --microphone --source es-ES
```
A 30 másodpercnél hosszabb hang folyamatos felismeréséhez fűzze hozzá a következőt --continuous:
```
spx recognize --microphone --source es-ES --continuous
```
Futtassa ezt a parancsot további beszédfelismerési lehetőségekről, például fájlbemenetről és kimenetről:
```
spx help recognize
```

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Megosztás a következőn keresztül:

Rövid útmutató: Beszéd felismerése és szöveggé alakítása

Előfeltételek

Valós idejű szövegfelolvasás kipróbálás

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Beszéd felismerése mikrofonból

Megjegyzések

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Beszéd felismerése mikrofonból

Megjegyzések

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Beszéd felismerése mikrofonból

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Beszéd felismerése mikrofonból

Megjegyzések

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Beszédfelismerés végrehajtása fájlból

Megjegyzések

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Beszéd felismerése mikrofonból

Megjegyzések

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Beszéd felismerése mikrofonból

Megjegyzések

Objective-C

Az erőforrások eltávolítása

Előfeltételek

Környezeti változók beállítása

Beszédfelismerés végrehajtása fájlból

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Beszéd felismerése mikrofonból

Megjegyzések

Az erőforrások eltávolítása

Következő lépés

Visszajelzés

További források