Rövid útmutató: Beszéd felismerése és szöveggé alakítása
Fontos
A cikkben megjelölt (előzetes verziójú) elemek jelenleg nyilvános előzetes verzióban érhetők el. Ez az előzetes verzió szolgáltatásszint-szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.
Ebben a rövid útmutatóban valós idejű szövegfelolvasást próbál ki az Azure AI Studióban.
Előfeltételek
- Azure-előfizetés – Hozzon létre egyet ingyenesen.
- Néhány AI-szolgáltatás ingyenesen kipróbálható az AI Studióban. A cikkben ismertetett összes képességhez való hozzáféréshez az AI-szolgáltatásokat a központhoz kell csatlakoztatnia az AI Studióban.
Valós idejű szövegfelolvasás kipróbálás
Nyissa meg az AI Studio kezdőlapját, majd a bal oldali panelen válassza az AI-szolgáltatások lehetőséget.
Válassza a Speech ( Beszéd) lehetőséget az AI-szolgáltatások listájából.
Válassza a Valós idejű beszéd szöveggé alakítás lehetőséget.
A Kipróbálás szakaszban válassza ki a központ AI-szolgáltatási kapcsolatát. További információ az AI-szolgáltatások kapcsolatairól: AI-szolgáltatások csatlakoztatása a központhoz az AI Studióban.
Válassza a Speciális beállítások megjelenítése lehetőséget a beszéd szövegre való konfigurálásához, például:
- Nyelvazonosítás: A hangban beszélt nyelvek azonosítására szolgál, ha összehasonlítják a támogatott nyelvek listájával. Az olyan nyelvi azonosítási lehetőségekről, mint az indítás és a folyamatos felismerés, további információkért lásd : Nyelvazonosítás.
- Hangszóró-diarizálás: A hang hangszóróinak azonosítására és elkülönítésére szolgál. A diarizálás megkülönbözteti a beszélgetésben részt vevő különböző előadókat. A Speech szolgáltatás információt nyújt arról, hogy melyik beszélő beszélt az átírt beszéd egy bizonyos részén. A beszélő-diarizálással kapcsolatos további információkért tekintse meg a valós idejű szövegfelolvasást a beszélő-diarizálás gyorsútmutatójával.
- Egyéni végpont: Egyéni beszédből származó üzembe helyezett modell használata a felismerési pontosság javítása érdekében. A Microsoft alapmodelljének használatához hagyja ezt a beállítást None (Nincs) értékre. Az egyéni beszédről további információt a Custom Speech című témakörben talál.
- Kimeneti formátum: Válasszon az egyszerű és a részletes kimeneti formátumok közül. Az egyszerű kimenet tartalmazza a megjelenítési formátumot és az időbélyegeket. A részletes kimenet további formátumokat (például megjelenítés, lexikális, ITN és maszkolt ITN), időbélyegeket és N-legjobb listákat tartalmaz.
- Kifejezéslista: Javíthatja az átírás pontosságát az ismert kifejezések, például személyek vagy adott helyek listájának megadásával. Vesszővel vagy pontosvesszővel elválaszthatja a kifejezéslistában szereplő értékeket. A kifejezéslistákról további információt a Kifejezéslisták című témakörben talál.
Válasszon ki egy feltöltendő hangfájlt, vagy rögzítse a hangot valós időben. Ebben a példában a
Call1_separated_16k_health_insurance.wav
GitHub Speech SDK-adattárában elérhető fájlt használjuk. Letöltheti a fájlt, vagy használhatja a saját hangfájlját.Az Eredmények szakaszban megtekintheti a valós idejű szövegfelolvasás eredményeit.
Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |
Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.
A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t. Egyéb követelményekkel kapcsolatban lásd : A Speech SDK telepítése.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Beszéd felismerése mikrofonból
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat mintákat a Visual Studio Code-on.
Az alábbi lépéseket követve hozzon létre egy konzolalkalmazást, és telepítse a Speech SDK-t.
Nyisson meg egy parancssori ablakot abban a mappában, ahol az új projektet szeretné. A parancs futtatásával hozzon létre egy konzolalkalmazást a .NET CLI-vel.
dotnet new console
Ez a parancs létrehozza a Program.cs fájlt a projektkönyvtárban.
Telepítse a Speech SDK-t az új projektbe a .NET CLI-vel.
dotnet add package Microsoft.CognitiveServices.Speech
Cserélje le a Program.cs fájl tartalmát a következő kódra:
using System; using System.IO; using System.Threading.Tasks; using Microsoft.CognitiveServices.Speech; using Microsoft.CognitiveServices.Speech.Audio; class Program { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY"); static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION"); static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult) { switch (speechRecognitionResult.Reason) { case ResultReason.RecognizedSpeech: Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}"); break; case ResultReason.NoMatch: Console.WriteLine($"NOMATCH: Speech could not be recognized."); break; case ResultReason.Canceled: var cancellation = CancellationDetails.FromResult(speechRecognitionResult); Console.WriteLine($"CANCELED: Reason={cancellation.Reason}"); if (cancellation.Reason == CancellationReason.Error) { Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}"); Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}"); Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?"); } break; } } async static Task Main(string[] args) { var speechConfig = SpeechConfig.FromSubscription(speechKey, speechRegion); speechConfig.SpeechRecognitionLanguage = "en-US"; using var audioConfig = AudioConfig.FromDefaultMicrophoneInput(); using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig); Console.WriteLine("Speak into your microphone."); var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync(); OutputSpeechRecognitionResult(speechRecognitionResult); } }
A beszédfelismerés nyelvének módosításához cserélje le
en-US
egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelvenes-ES
. Ha nem ad meg nyelvet, az alapértelmezett érték a következően-US
. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.Az új konzolalkalmazás futtatásával indítsa el a beszédfelismerést egy mikrofonból:
dotnet run
Fontos
Győződjön meg arról, hogy beállítja a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.Amikor a rendszer kéri, beszéljen a mikrofonba. A beszédnek szövegként kell megjelennie:
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Megjegyzések
Íme néhány további szempont:
Ez a példa a
RecognizeOnceAsync
művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.A hangfájlból származó beszéd felismeréséhez használja
FromWavFileInput
a következőFromDefaultMicrophoneInput
helyett:using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja
PullAudioInputStream
vagyPushAudioInputStream
. További információ: A tömörített bemeneti hang használata.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |
Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.
A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t. További követelmények: A Speech SDK telepítése.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Beszéd felismerése mikrofonból
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat mintákat a Visual Studio Code-on.
Az alábbi lépéseket követve hozzon létre egy konzolalkalmazást, és telepítse a Speech SDK-t.
Hozzon létre egy új C++ konzolprojektet a Visual Studio Communityben.
SpeechRecognition
Válassza az Eszközök>Nuget Csomagkezelő> Csomagkezelő konzol lehetőséget. A Csomagkezelő konzolon futtassa a következő parancsot:
Install-Package Microsoft.CognitiveServices.Speech
Cserélje le a következő kód tartalmát
SpeechRecognition.cpp
:#include <iostream> #include <stdlib.h> #include <speechapi_cxx.h> using namespace Microsoft::CognitiveServices::Speech; using namespace Microsoft::CognitiveServices::Speech::Audio; std::string GetEnvironmentVariable(const char* name); int main() { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" auto speechKey = GetEnvironmentVariable("SPEECH_KEY"); auto speechRegion = GetEnvironmentVariable("SPEECH_REGION"); if ((size(speechKey) == 0) || (size(speechRegion) == 0)) { std::cout << "Please set both SPEECH_KEY and SPEECH_REGION environment variables." << std::endl; return -1; } auto speechConfig = SpeechConfig::FromSubscription(speechKey, speechRegion); speechConfig->SetSpeechRecognitionLanguage("en-US"); auto audioConfig = AudioConfig::FromDefaultMicrophoneInput(); auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig); std::cout << "Speak into your microphone.\n"; auto result = speechRecognizer->RecognizeOnceAsync().get(); if (result->Reason == ResultReason::RecognizedSpeech) { std::cout << "RECOGNIZED: Text=" << result->Text << std::endl; } else if (result->Reason == ResultReason::NoMatch) { std::cout << "NOMATCH: Speech could not be recognized." << std::endl; } else if (result->Reason == ResultReason::Canceled) { auto cancellation = CancellationDetails::FromResult(result); std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl; if (cancellation->Reason == CancellationReason::Error) { std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl; std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl; std::cout << "CANCELED: Did you set the speech resource key and region values?" << std::endl; } } } std::string GetEnvironmentVariable(const char* name) { #if defined(_MSC_VER) size_t requiredSize = 0; (void)getenv_s(&requiredSize, nullptr, 0, name); if (requiredSize == 0) { return ""; } auto buffer = std::make_unique<char[]>(requiredSize); (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name); return buffer.get(); #else auto value = getenv(name); return value ? value : ""; #endif }
A beszédfelismerés nyelvének módosításához cserélje le
en-US
egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelvenes-ES
. Ha nem ad meg nyelvet, az alapértelmezett érték a következően-US
. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.Hozza létre és futtassa az új konzolalkalmazást a beszédfelismerés mikrofonból való elindításához.
Fontos
Győződjön meg arról, hogy beállítja a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.Amikor a rendszer kéri, beszéljen a mikrofonba. A beszédnek szövegként kell megjelennie:
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Megjegyzések
Íme néhány további szempont:
Ez a példa a
RecognizeOnceAsync
művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.A hangfájlból származó beszéd felismeréséhez használja
FromWavFileInput
a következőFromDefaultMicrophoneInput
helyett:auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");
Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja
PullAudioInputStream
vagyPushAudioInputStream
. További információ: A tömörített bemeneti hang használata.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció csomag (Go) | További minták a GitHubon |
Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.
A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
Telepítse a Speech SDK for Go-t. A követelményekről és utasításokról a Speech SDK telepítése című témakörben olvashat.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Beszéd felismerése mikrofonból
Go-modul létrehozásához kövesse az alábbi lépéseket.
Nyisson meg egy parancssori ablakot abban a mappában, ahol az új projektet szeretné. Hozzon létre egy speech-recognition.go nevű új fájlt.
Másolja a következő kódot a speech-recognition.go fájlba:
package main import ( "bufio" "fmt" "os" "github.com/Microsoft/cognitive-services-speech-sdk-go/audio" "github.com/Microsoft/cognitive-services-speech-sdk-go/speech" ) func sessionStartedHandler(event speech.SessionEventArgs) { defer event.Close() fmt.Println("Session Started (ID=", event.SessionID, ")") } func sessionStoppedHandler(event speech.SessionEventArgs) { defer event.Close() fmt.Println("Session Stopped (ID=", event.SessionID, ")") } func recognizingHandler(event speech.SpeechRecognitionEventArgs) { defer event.Close() fmt.Println("Recognizing:", event.Result.Text) } func recognizedHandler(event speech.SpeechRecognitionEventArgs) { defer event.Close() fmt.Println("Recognized:", event.Result.Text) } func cancelledHandler(event speech.SpeechRecognitionCanceledEventArgs) { defer event.Close() fmt.Println("Received a cancellation: ", event.ErrorDetails) fmt.Println("Did you set the speech resource key and region values?") } func main() { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" speechKey := os.Getenv("SPEECH_KEY") speechRegion := os.Getenv("SPEECH_REGION") audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput() if err != nil { fmt.Println("Got an error: ", err) return } defer audioConfig.Close() speechConfig, err := speech.NewSpeechConfigFromSubscription(speechKey, speechRegion) if err != nil { fmt.Println("Got an error: ", err) return } defer speechConfig.Close() speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig) if err != nil { fmt.Println("Got an error: ", err) return } defer speechRecognizer.Close() speechRecognizer.SessionStarted(sessionStartedHandler) speechRecognizer.SessionStopped(sessionStoppedHandler) speechRecognizer.Recognizing(recognizingHandler) speechRecognizer.Recognized(recognizedHandler) speechRecognizer.Canceled(cancelledHandler) speechRecognizer.StartContinuousRecognitionAsync() defer speechRecognizer.StopContinuousRecognitionAsync() bufio.NewReader(os.Stdin).ReadBytes('\n') }
Futtassa a következő parancsokat egy go.mod fájl létrehozásához, amely a GitHubon üzemeltetett összetevőkre hivatkozik:
go mod init speech-recognition go get github.com/Microsoft/cognitive-services-speech-sdk-go
Fontos
Győződjön meg arról, hogy beállítja a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.Hozza létre és futtassa a kódot:
go build go run speech-recognition
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció | További minták a GitHubon
Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.
A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
A környezet beállításához telepítse a Speech SDK-t. A rövid útmutatóban szereplő minta a Java-futtatókörnyezettel működik.
Telepítse az Apache Maven-t. Ezután futtassa
mvn -v
a sikeres telepítés megerősítéséhez.Hozzon létre egy új
pom.xml
fájlt a projekt gyökerében, és másolja bele a következő kódot:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.40.0</version> </dependency> </dependencies> </project>
Telepítse a Speech SDK-t és a függőségeket.
mvn clean dependency:copy-dependencies
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Beszéd felismerése mikrofonból
Az alábbi lépéseket követve hozzon létre egy konzolalkalmazást a beszédfelismeréshez.
Hozzon létre egy SpeechRecognition.java nevű új fájlt ugyanabban a projekt gyökérkönyvtárában.
Másolja a következő kódot a SpeechRecognition.java:
import com.microsoft.cognitiveservices.speech.*; import com.microsoft.cognitiveservices.speech.audio.AudioConfig; import java.util.concurrent.ExecutionException; import java.util.concurrent.Future; public class SpeechRecognition { // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" private static String speechKey = System.getenv("SPEECH_KEY"); private static String speechRegion = System.getenv("SPEECH_REGION"); public static void main(String[] args) throws InterruptedException, ExecutionException { SpeechConfig speechConfig = SpeechConfig.fromSubscription(speechKey, speechRegion); speechConfig.setSpeechRecognitionLanguage("en-US"); recognizeFromMicrophone(speechConfig); } public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException { AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput(); SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig); System.out.println("Speak into your microphone."); Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync(); SpeechRecognitionResult speechRecognitionResult = task.get(); if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) { System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText()); } else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) { System.out.println("NOMATCH: Speech could not be recognized."); } else if (speechRecognitionResult.getReason() == ResultReason.Canceled) { CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult); System.out.println("CANCELED: Reason=" + cancellation.getReason()); if (cancellation.getReason() == CancellationReason.Error) { System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode()); System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails()); System.out.println("CANCELED: Did you set the speech resource key and region values?"); } } System.exit(0); } }
A beszédfelismerés nyelvének módosításához cserélje le
en-US
egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelvenes-ES
. Ha nem ad meg nyelvet, az alapértelmezett érték a következően-US
. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.Az új konzolalkalmazás futtatásával indítsa el a beszédfelismerést egy mikrofonból:
javac SpeechRecognition.java -cp ".;target\dependency\*" java -cp ".;target\dependency\*" SpeechRecognition
Fontos
Győződjön meg arról, hogy beállítja a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.Amikor a rendszer kéri, beszéljen a mikrofonba. A beszédnek szövegként kell megjelennie:
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Megjegyzések
Íme néhány további szempont:
Ez a példa a
RecognizeOnceAsync
művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.A hangfájlból származó beszéd felismeréséhez használja
fromWavFileInput
a következőfromDefaultMicrophoneInput
helyett:AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja
PullAudioInputStream
vagyPushAudioInputStream
. További információ: A tömörített bemeneti hang használata.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció csomag (npm) | További minták a GitHub | Library forráskódján |
Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.
A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
Szüksége van egy .wav hangfájlra is a helyi gépen. Használhatja saját .wav fájlját (legfeljebb 30 másodpercig), vagy letöltheti a mintafájlt https://crbn.us/whatstheweatherlike.wav .
A környezet beállítása
A környezet beállításához telepítse a JavaScripthez készült Speech SDK-t. Futtassa a következő parancsot: npm install microsoft-cognitiveservices-speech-sdk
. Az irányított telepítési utasításokért lásd : A Speech SDK telepítése.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Beszédfelismerés végrehajtása fájlból
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat mintákat a Visual Studio Code-on.
Kövesse az alábbi lépéseket egy Node.js-konzolalkalmazás létrehozásához a beszédfelismeréshez.
Nyisson meg egy parancssori ablakot, ahol az új projektet szeretné, és hozzon létre egy SpeechRecognition.js nevű új fájlt.
Telepítse a JavaScripthez készült Speech SDK-t:
npm install microsoft-cognitiveservices-speech-sdk
Másolja a következő kódot a SpeechRecognition.js:
const fs = require("fs"); const sdk = require("microsoft-cognitiveservices-speech-sdk"); // This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" const speechConfig = sdk.SpeechConfig.fromSubscription(process.env.SPEECH_KEY, process.env.SPEECH_REGION); speechConfig.speechRecognitionLanguage = "en-US"; function fromFile() { let audioConfig = sdk.AudioConfig.fromWavFileInput(fs.readFileSync("YourAudioFile.wav")); let speechRecognizer = new sdk.SpeechRecognizer(speechConfig, audioConfig); speechRecognizer.recognizeOnceAsync(result => { switch (result.reason) { case sdk.ResultReason.RecognizedSpeech: console.log(`RECOGNIZED: Text=${result.text}`); break; case sdk.ResultReason.NoMatch: console.log("NOMATCH: Speech could not be recognized."); break; case sdk.ResultReason.Canceled: const cancellation = sdk.CancellationDetails.fromResult(result); console.log(`CANCELED: Reason=${cancellation.reason}`); if (cancellation.reason == sdk.CancellationReason.Error) { console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`); console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`); console.log("CANCELED: Did you set the speech resource key and region values?"); } break; } speechRecognizer.close(); }); } fromFile();
SpeechRecognition.js cserélje le YourAudioFile.wav saját .wav fájlra. Ez a példa csak egy .wav fájlból ismeri fel a beszédet. További információ az egyéb hangformátumokról: A tömörített bemeneti hang használata. Ez a példa legfeljebb 30 másodpercnyi hangot támogat.
A beszédfelismerés nyelvének módosításához cserélje le
en-US
egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelvenes-ES
. Ha nem ad meg nyelvet, az alapértelmezett érték a következően-US
. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.Futtassa az új konzolalkalmazást a beszédfelismerés fájlból való elindításához:
node.exe SpeechRecognition.js
Fontos
Győződjön meg arról, hogy beállítja a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.A hangfájlból származó beszédnek szövegként kell kimenetnek lennie:
RECOGNIZED: Text=I'm excited to try speech to text.
Megjegyzések
Ez a példa a recognizeOnceAsync
művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.
Feljegyzés
A mikrofonból való beszédfelismerés nem támogatott a Node.js. Csak böngészőalapú JavaScript-környezetben támogatott. További információkért tekintse meg a React-mintát és a beszéd szöveggé alakítását egy mikrofonból a GitHubon.
A React-minta a hitelesítési jogkivonatok cseréjének és kezelésének tervezési mintáit mutatja be. Emellett a mikrofonból vagy fájlból a beszéd szövegkonvertálására szolgáló hangrögzítést is megjeleníti.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció csomag (PyPi) | További minták a GitHubon |
Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.
A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
A PythonHoz készült Speech SDK Python-csomagindex (PyPI) modulként érhető el. A PythonHoz készült Speech SDK kompatibilis a Windows, a Linux és a macOS rendszerrel.
- Windows esetén telepítse a Visual Studio 2015, 2017, 2019 és 2022 Microsoft Visual C++ terjeszthető verzióját a platformhoz. A csomag első telepítése újraindítást igényelhet.
- Linuxon az x64-alapú célarchitektúrát kell használnia.
Telepítse a Python 3.7-es vagy újabb verzióját. További követelmények: A Speech SDK telepítése.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Beszéd felismerése mikrofonból
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat mintákat a Visual Studio Code-on.
Kövesse az alábbi lépéseket egy konzolalkalmazás létrehozásához.
Nyisson meg egy parancssori ablakot abban a mappában, ahol az új projektet szeretné. Hozzon létre egy speech_recognition.py nevű új fájlt.
Futtassa ezt a parancsot a Speech SDK telepítéséhez:
pip install azure-cognitiveservices-speech
Másolja a következő kódot a speech_recognition.py:
import os import azure.cognitiveservices.speech as speechsdk def recognize_from_microphone(): # This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION" speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), region=os.environ.get('SPEECH_REGION')) speech_config.speech_recognition_language="en-US" audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True) speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config) print("Speak into your microphone.") speech_recognition_result = speech_recognizer.recognize_once_async().get() if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech: print("Recognized: {}".format(speech_recognition_result.text)) elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch: print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details)) elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled: cancellation_details = speech_recognition_result.cancellation_details print("Speech Recognition canceled: {}".format(cancellation_details.reason)) if cancellation_details.reason == speechsdk.CancellationReason.Error: print("Error details: {}".format(cancellation_details.error_details)) print("Did you set the speech resource key and region values?") recognize_from_microphone()
A beszédfelismerés nyelvének módosításához cserélje le
en-US
egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelvenes-ES
. Ha nem ad meg nyelvet, az alapértelmezett érték a következően-US
. A több beszélt nyelv egyikének azonosításáról további információt a nyelvazonosítás című témakörben talál.Az új konzolalkalmazás futtatásával indítsa el a beszédfelismerést egy mikrofonból:
python speech_recognition.py
Fontos
Győződjön meg arról, hogy beállítja a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.Amikor a rendszer kéri, beszéljen a mikrofonba. A beszédnek szövegként kell megjelennie:
Speak into your microphone. RECOGNIZED: Text=I'm excited to try speech to text.
Megjegyzések
Íme néhány további szempont:
Ez a példa a
recognize_once_async
művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.A hangfájlból származó beszéd felismeréséhez használja
filename
a következőuse_default_microphone
helyett:audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja
PullAudioInputStream
vagyPushAudioInputStream
. További információ: A tömörített bemeneti hang használata.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció csomag (letöltés) | További minták a GitHubon |
Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.
A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
A Speech SDK for Swift keretrendszercsomagként van elosztva. A keretrendszer támogatja az Objective-C-t és a Swiftet iOS és macOS rendszeren is.
A Speech SDK használható Xcode-projektekben CocoaPodként, vagy közvetlenül és manuálisan csatolva. Ez az útmutató egy CocoaPodot használ. Telepítse a CocoaPod függőségkezelőt a telepítési útmutatóban leírtak szerint.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Beszéd felismerése mikrofonból
A macOS-alkalmazások beszédfelismeréséhez kövesse az alábbi lépéseket.
Klónozza az Azure-Samples/cognitive-services-speech-sdk adattárat, hogy lekérje a beszédfelismerést egy mikrofonból a Swiftben macOS-mintaprojekten . Az adattár iOS-mintákkal is rendelkezik.
Lépjen a letöltött mintaalkalmazás (
helloworld
) könyvtárára egy terminálban.Futtassa a következő parancsot:
pod install
. Ez a parancs létrehoz egyhelloworld.xcworkspace
Xcode-munkaterületet, amely függőségként tartalmazza a mintaalkalmazást és a Speech SDK-t is.Nyissa meg a munkaterületet
helloworld.xcworkspace
az Xcode-ban.Nyissa meg az AppDelegate.swift nevű fájlt, és keresse meg az
applicationDidFinishLaunching
itt látható módszereket ésrecognizeFromMic
metódusokat.import Cocoa @NSApplicationMain class AppDelegate: NSObject, NSApplicationDelegate { var label: NSTextField! var fromMicButton: NSButton! var sub: String! var region: String! @IBOutlet weak var window: NSWindow! func applicationDidFinishLaunching(_ aNotification: Notification) { print("loading") // load subscription information sub = ProcessInfo.processInfo.environment["SPEECH_KEY"] region = ProcessInfo.processInfo.environment["SPEECH_REGION"] label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200)) label.textColor = NSColor.black label.lineBreakMode = .byWordWrapping label.stringValue = "Recognition Result" label.isEditable = false self.window.contentView?.addSubview(label) fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30)) fromMicButton.title = "Recognize" fromMicButton.target = self fromMicButton.action = #selector(fromMicButtonClicked) self.window.contentView?.addSubview(fromMicButton) } @objc func fromMicButtonClicked() { DispatchQueue.global(qos: .userInitiated).async { self.recognizeFromMic() } } func recognizeFromMic() { var speechConfig: SPXSpeechConfiguration? do { try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region) } catch { print("error \(error) happened") speechConfig = nil } speechConfig?.speechRecognitionLanguage = "en-US" let audioConfig = SPXAudioConfiguration() let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig) reco.addRecognizingEventHandler() {reco, evt in print("intermediate recognition result: \(evt.result.text ?? "(no result)")") self.updateLabel(text: evt.result.text, color: .gray) } updateLabel(text: "Listening ...", color: .gray) print("Listening...") let result = try! reco.recognizeOnce() print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)") updateLabel(text: result.text, color: .black) if result.reason != SPXResultReason.recognizedSpeech { let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result) print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)") print("Did you set the speech resource key and region values?") updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red) } } func updateLabel(text: String?, color: NSColor) { DispatchQueue.main.async { self.label.stringValue = text! self.label.textColor = color } } }
Az AppDelegate.m-ben használja a Speech-erőforráskulcshoz és -régióhoz korábban beállított környezeti változókat.
sub = ProcessInfo.processInfo.environment["SPEECH_KEY"] region = ProcessInfo.processInfo.environment["SPEECH_REGION"]
A beszédfelismerés nyelvének módosításához cserélje le
en-US
egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelvenes-ES
. Ha nem ad meg nyelvet, az alapértelmezett érték a következően-US
. A több beszélt nyelv egyikének azonosításáról további információt a Nyelvazonosítás című témakörben talál.Ha láthatóvá szeretné tenni a hibakeresési kimenetet, válassza a Hibakeresési terület>aktiválása konzol megtekintése>lehetőséget.
A példakód létrehozásához és futtatásához válassza a Termékfuttatás> lehetőséget a menüből, vagy válassza a Lejátszás gombot.
Fontos
Győződjön meg arról, hogy beállítja a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.
Miután kiválasztotta az appban a gombot, és kimondott néhány szót, a képernyő alsó részén látható szövegnek kell megjelennie. Amikor első alkalommal futtatja az alkalmazást, az arra kéri, hogy adjon hozzáférést az alkalmazásnak a számítógép mikrofonjához.
Megjegyzések
Ez a példa a recognizeOnce
művelettel legfeljebb 30 másodperces beszédelemeket ír át, vagy amíg a rendszer nem észleli a csendet. További információ a hosszabb hang folyamatos felismeréséről, beleértve a többnyelvű beszélgetéseket is, olvassa el a beszédfelismerést ismertető témakört.
Objective-C
Az Objective-C-hez készült Speech SDK megosztja az ügyfélkódtárakat és a referenciadokumentációt a Swifthez készült Speech SDK-val. Objective-C-kód példákért tekintse meg az Objective-C mikrofonjának beszédfelismerését macOS-mintaprojekten a GitHubon.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Speech to text REST API reference | Speech to text REST API for short audio reference | További minták a GitHubon
Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.
A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
Szüksége van egy .wav hangfájlra is a helyi gépen. Használhatja a saját .wav fájlját akár 60 másodpercig, vagy letöltheti a mintafájlt https://crbn.us/whatstheweatherlike.wav .
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Beszédfelismerés végrehajtása fájlból
Nyisson meg egy konzolablakot, és futtassa a következő cURL-parancsot. Cserélje le YourAudioFile.wav a hangfájl elérési útjára és nevére.
curl --location --request POST "https://%SPEECH_REGION%.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"
Fontos
Győződjön meg arról, hogy beállítja a környezeti és SPEECH_REGION
a SPEECH_KEY
környezeti változókat. Ha nem állítja be ezeket a változókat, a minta hibaüzenettel meghiúsul.
Az itt láthatóhoz hasonló választ kell kapnia. A DisplayText
hangfájlból felismert szövegnek kell lennie. A parancs legfeljebb 60 másodpercnyi hangot ismer fel, és szöveggé alakítja.
{
"RecognitionStatus": "Success",
"DisplayText": "My voice is my passport, verify me.",
"Offset": 6600000,
"Duration": 32100000
}
További információ: Speech to text REST API a rövid hangért.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Ebben a rövid útmutatóban egy alkalmazást hoz létre és futtat a beszéd valós idejű felismeréséhez és szöveghez való átírásához.
A hangfájlok aszinkron átírásához lásd : Mi az a kötegelt átírás. Ha nem biztos abban, hogy melyik szövegfelolvasási megoldás megfelelő az Ön számára, olvassa el a Mi az a szövegfelolvasás?
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
Kövesse ezeket a lépéseket, és tekintse meg a Speech CLI rövid útmutatóját a platform egyéb követelményeiről.
Futtassa a következő .NET CLI-parancsot a Speech CLI telepítéséhez:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Futtassa az alábbi parancsokat a Speech-erőforráskulcs és -régió konfigurálásához. Cserélje le
SUBSCRIPTION-KEY
a Speech erőforráskulcsot, és cserélje leREGION
a Speech erőforrásrégiójára.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
Beszéd felismerése mikrofonból
Futtassa a következő parancsot a beszédfelismerés mikrofonból való elindításához:
spx recognize --microphone --source en-US
Beszéljen a mikrofonba, és valós időben láthatja a szavak átiratát szöveggé. A Speech CLI 30 másodperc elteltével vagy a Ctrl C billentyűkombinációval +leáll.
Connection CONNECTED... RECOGNIZED: I'm excited to try speech to text.
Megjegyzések
Íme néhány további szempont:
Ha hangfájlból szeretné felismerni a beszédet, használja
--file
a következő helyett--microphone
: . Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és használja--format
. További információ: A tömörített bemeneti hang használata.spx recognize --file YourAudioFile.wav spx recognize --file YourAudioFile.mp4 --format any
Adott szavak vagy kimondott szövegek felismerési pontosságának javítása érdekében használjon kifejezéslistát. A parancs mellett egy sorba vagy szövegfájlba is belefoglalhatja a kifejezéslistát
recognize
:spx recognize --microphone --phrases "Contoso;Jessie;Rehaan;" spx recognize --microphone --phrases @phrases.txt
A beszédfelismerés nyelvének módosításához cserélje le
en-US
egy másik támogatott nyelvre. Használja például spanyol (Spanyolország) nyelvenes-ES
. Ha nem ad meg nyelvet, az alapértelmezett érték a következően-US
.spx recognize --microphone --source es-ES
A 30 másodpercnél hosszabb hang folyamatos felismeréséhez fűzze hozzá a következőt
--continuous
:spx recognize --microphone --source es-ES --continuous
Futtassa ezt a parancsot további beszédfelismerési lehetőségekről, például fájlbemenetről és kimenetről:
spx help recognize
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.