Rövid útmutató: Feliratok létrehozása szövegfelolvasással

Cikk
10/16/2024

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t, de először ellenőrizze az SDK telepítési útmutatóját a további követelményekkel kapcsolatban.

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

Másolja ki a forgatókönyveket/csharp/dotnetcore/captioning/ mintafájlokat a GitHubról. Ha telepítve van a Git, nyisson meg egy parancssort, és futtassa a git clone parancsot a Speech SDK-minták adattárának letöltéséhez.
```
git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
```

Nyisson meg egy parancssort, és váltson a projektkönyvtárra.

cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/

Hozza létre a projektet a .NET CLI-vel.
```
dotnet build
```
Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
```
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Fontos

Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

Eredmények ellenőrzése

Ha a fenti példában a realTime lehetőséget használja, az események részleges Recognizing eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized az események közöttRecognizing. További információ: Részleges eredmények lekérése.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: captioning --input <input file>

A kapcsolati lehetőségek a következők:

--key: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
--region REGION: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

Fontos

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A bemeneti lehetőségek a következők:

--input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
--format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

--language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

--offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
--realTime: Valós idejű eredmények megjelenítése.

A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing . Az alapértelmezett offline kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

--phrases PHRASE1;PHRASE2: Megadhatja a felismerni kívánt kifejezések listáját, például Contoso;Jessie;Rehaan. További információ: A felismerés javítása kifejezéslistával.

A kimeneti lehetőségek a következők:

--help: A súgó megjelenítése és leállítása
--output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
--srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
--maxLineLength LENGTH: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
--lines LINES: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
--delay MILLISECONDS: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
--remainTime MILLISECONDS: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
--quiet: A konzol kimenetének letiltása, a hibák kivételével.
--profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
--threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t, de először tekintse meg az SDK telepítési útmutatóját a további követelményekről

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Feliratok létrehozása beszédből

Az alábbi lépéseket követve elkészítheti és futtathatja a rövid útmutató kód példáját a Visual Studio Community 2022-vel Windows rendszeren.

Töltse le vagy másolja a forgatókönyveket/cpp/windows/captioning/ mintafájlokat a GitHubról egy helyi könyvtárba.
Nyissa meg a megoldásfájlt a captioning.sln Visual Studio Community 2022-ben.
Telepítse a Speech SDK-t a projektbe a NuGet-csomagkezelővel.
```
Install-Package Microsoft.CognitiveServices.Speech
```
Nyissa meg az Általános projekttulajdonságokat>>. Konfigurálás beállítása a következőreAll configurations: . A C++ Language Standard beállítása a következőreISO C++17 Standard (/std:c++17): .
Nyissa meg a Build>Configuration Managert.
- 64 bites Windows-telepítés esetén állítsa az Aktív megoldás platformot a következőre x64: .
- 32 bites Windows-telepítés esetén állítsa az Aktív megoldás platformot a következőre x86: .
Nyissa meg a projekttulajdonságok>>hibakeresését. Adja meg az előnyben részesített parancssori argumentumokat a parancsargumentumokban. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:
```
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Fontos

Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.
Hozza létre és futtassa a konzolalkalmazást.

Eredmények ellenőrzése

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: captioning --input <input file>

A kapcsolati lehetőségek a következők:

--key: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
--region REGION: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

Fontos

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A bemeneti lehetőségek a következők:

--input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
--format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

--language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

--offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
--realTime: Valós idejű eredmények megjelenítése.

A pontossági lehetőségek a következők:

--phrases PHRASE1;PHRASE2: Megadhatja a felismerni kívánt kifejezések listáját, például Contoso;Jessie;Rehaan. További információ: A felismerés javítása kifejezéslistával.

A kimeneti lehetőségek a következők:

--help: A súgó megjelenítése és leállítása
--output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
--srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
--maxLineLength LENGTH: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
--lines LINES: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
--delay MILLISECONDS: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
--remainTime MILLISECONDS: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
--quiet: A konzol kimenetének letiltása, a hibák kivételével.
--profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
--threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (Go) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Ellenőrizze, hogy vannak-e platformspecifikus telepítési lépések.

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

Töltse le vagy másolja a forgatókönyveket/go/captioning/ mintafájlokat a GitHubról egy helyi könyvtárba.
Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a captioning.go.
Futtassa az alábbi parancsokat a go.mod GitHubon üzemeltetett Speech SDK-összetevőkre mutató fájl létrehozásához:
```
go mod init captioning
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
Hozza létre a GO modult.
```
go build
```
Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:
```
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Cserélje le YourSubscriptionKey a Speech erőforráskulcsot, és cserélje le YourServiceRegion a Speech erőforrásrégiójára, például westus vagy northeurope. Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

Fontos

Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információkért tekintse meg az Azure AI-szolgáltatások biztonsági cikkét.

Eredmények ellenőrzése

A teljes feliratokat tartalmazó kimeneti fájl a következőre caption.output.txtvan írva: . Köztes eredmények jelennek meg a konzolon:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: go run captioning.go helper.go --key <key> --region <region> --input <input file>

A kapcsolati lehetőségek a következők:

--key: A Speech erőforráskulcsa.
--region REGION: A Speech erőforrásrégió. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

--input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
--format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

--languages LANG1,LANG2: Nyelvazonosítás engedélyezése megadott nyelvekhez. Például: en-US,ja-JP Ez a beállítás csak C++, C# és Python feliratozási mintákkal érhető el. További információ: Nyelvazonosítás.

A felismerési lehetőségek a következők:

--recognizing: Kimeneti Recognizing esemény eredményei. Az alapértelmezett kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

--phrases PHRASE1;PHRASE2: Megadhatja a felismerni kívánt kifejezések listáját, például Contoso;Jessie;Rehaan. További információ: A felismerés javítása kifejezéslistával.

A kimeneti lehetőségek a következők:

--help: A súgó megjelenítése és leállítása
--output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
--srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
--quiet: A konzol kimenetének letiltása, a hibák kivételével.
--profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
--threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció | További minták a GitHubon

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Mielőtt bármit megtehet, telepítenie kell a Speech SDK-t. A rövid útmutatóban szereplő minta az OpenJDK 17 Microsoft Buildjével működik

Telepítse az Apache Maven-t. Ezután futtassa mvn -v a sikeres telepítés megerősítéséhez.

Hozzon létre egy új pom.xml fájlt a projekt gyökerében, és másolja be a következőt:

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.42.0</version>
        </dependency>
    </dependencies>
</project>

Telepítse a Speech SDK-t és a függőségeket.
```
mvn clean dependency:copy-dependencies
```
A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

Másolja a forgatókönyveket/java/jre/captioning/ mintafájlokat a GitHubról a projektkönyvtárba. A pom.xml környezeti beállításban létrehozott fájlnak ebben a könyvtárban kell lennie.
Nyisson meg egy parancssort, és futtassa ezt a parancsot a projektfájlok fordításához.
```
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
```
Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
```
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Fontos

Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

Eredmények ellenőrzése

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: java -cp ".;target\dependency\*" Captioning --input <input file>

A kapcsolati lehetőségek a következők:

--key: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
--region REGION: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

Fontos

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A bemeneti lehetőségek a következők:

--input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
--format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

--language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

--offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
--realTime: Valós idejű eredmények megjelenítése.

A pontossági lehetőségek a következők:

--phrases PHRASE1;PHRASE2: Megadhatja a felismerni kívánt kifejezések listáját, például Contoso;Jessie;Rehaan. További információ: A felismerés javítása kifejezéslistával.

A kimeneti lehetőségek a következők:

--help: A súgó megjelenítése és leállítása
--output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
--srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
--maxLineLength LENGTH: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
--lines LINES: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
--delay MILLISECONDS: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
--remainTime MILLISECONDS: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
--quiet: A konzol kimenetének letiltása, a hibák kivételével.
--profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
--threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (npm) | További minták a GitHub | Library forráskódján |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Mielőtt bármit megtehet, telepítenie kell a JavaScripthez készült Speech SDK-t. Ha csak a csomag nevét szeretné telepíteni, futtassa a parancsot npm install microsoft-cognitiveservices-speech-sdk. Az irányított telepítési utasításokért tekintse meg az SDK telepítési útmutatóját.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

Másolja a forgatókönyveket/javascript/node/captioning/ mintafájlokat a GitHubról a projektkönyvtárba.
Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a Captioning.js.

Telepítse a JavaScripthez készült Speech SDK-t:

npm install microsoft-cognitiveservices-speech-sdk

Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:
```
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Cserélje le YourSubscriptionKey a Speech erőforráskulcsot, és cserélje le YourServiceRegion a Speech erőforrásrégiójára, például westus vagy northeurope. Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

Feljegyzés

A JavaScripthez készült Speech SDK nem támogatja a tömörített bemeneti hangot. A példában bemutatott WAV-fájlt kell használnia.

Fontos

Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információkért tekintse meg az Azure AI-szolgáltatások biztonsági cikkét.

Eredmények ellenőrzése

A teljes feliratokat tartalmazó kimeneti fájl a következőre caption.output.txtvan írva: . Köztes eredmények jelennek meg a konzolon:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: node captioning.js --key <key> --region <region> --input <input file>

A kapcsolati lehetőségek a következők:

--key: A Speech erőforráskulcsa.
--region REGION: A Speech erőforrásrégió. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

--input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
--format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

--languages LANG1,LANG2: Nyelvazonosítás engedélyezése megadott nyelvekhez. Például: en-US,ja-JP Ez a beállítás csak C++, C# és Python feliratozási mintákkal érhető el. További információ: Nyelvazonosítás.

A felismerési lehetőségek a következők:

--recognizing: Kimeneti Recognizing esemény eredményei. Az alapértelmezett kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

--phrases PHRASE1;PHRASE2: Megadhatja a felismerni kívánt kifejezések listáját, például Contoso;Jessie;Rehaan. További információ: A felismerés javítása kifejezéslistával.

A kimeneti lehetőségek a következők:

--help: A súgó megjelenítése és leállítása
--output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
--srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
--quiet: A konzol kimenetének letiltása, a hibák kivételével.
--profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
--threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (letöltés) | További minták a GitHubon |

Az Objective-C-hez készült Speech SDK támogatja a feliratozás beszédfelismerési eredményeinek lekérését, de itt még nem tartalmaztunk útmutatót. Válasszon egy másik programozási nyelvet az első lépésekhez, és ismerje meg a fogalmakat, vagy tekintse meg a cikk elején hivatkozott Objective-C referenciát és mintákat.

Referenciadokumentáció csomag (letöltés) | További minták a GitHubon |

A SwiftHez készült Speech SDK támogatja a feliratozás beszédfelismerési eredményeinek lekérését, de itt még nem tartalmaztunk útmutatót. Válasszon egy másik programozási nyelvet az első lépésekhez, és ismerje meg a fogalmakat, vagy tekintse meg a swift-hivatkozást és a cikk elején hivatkozott mintákat.

Referenciadokumentáció csomag (PyPi) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A PythonHoz készült Speech SDK Python-csomagindex (PyPI) modulként érhető el. A PythonHoz készült Speech SDK kompatibilis a Windows, a Linux és a macOS rendszerrel.

Telepítenie kell a Visual Studio 2015-höz, 2017-hez, 2019-hez és 2022-hez készült Microsoft Visual C++ terjeszthető verziót a platformhoz. A csomag első telepítése újraindítást igényelhet.
Linuxon az x64-alapú célarchitektúrát kell használnia.

Telepítse a Python 3.10-es vagy újabb verzióját. Először tekintse meg az SDK telepítési útmutatóját a további követelményekkel kapcsolatban
A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

Bash

Szerkessze a .bashrc fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bashrc a konzolablakból a módosítások hatékonyabbá tétele érdekében.

Bash

Szerkessze a .bash_profile fájlt, és adja hozzá a környezeti változókat:

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region

Miután hozzáadta a környezeti változókat, futtassa source ~/.bash_profile a konzolablakból a módosítások hatékonyabbá tétele érdekében.

XCode

Az iOS- és macOS-fejlesztéshez az Xcode-ban állíthatja be a környezeti változókat. Kövesse például ezeket a lépéseket a környezeti változó beállításához az Xcode 13.4.1-ben.

Válassza a Termékséma>>szerkesztési sémája lehetőséget.
Válassza az Argumentumok lehetőséget a Futtatás (Hibakeresés futtatása) lapon.
A Környezeti változók csoportban válassza a plusz (+) jelet egy új környezeti változó hozzáadásához.
Adja meg SPEECH_KEY a nevet, és adja meg az Érték speech erőforráskulcsát.

A Speech erőforrásrégió környezeti változójának beállításához kövesse az alábbi lépéseket. Állítsa be SPEECH_REGION az erőforrás régióját. Például: westus.

További konfigurációs beállításokért tekintse meg az Xcode dokumentációját.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

Töltse le vagy másolja a forgatókönyveket/python/konzol/feliratozás/ mintafájlokat a GitHubról egy helyi könyvtárba.
Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a captioning.py.
Futtassa ezt a parancsot a Speech SDK telepítéséhez:
```
pip install azure-cognitiveservices-speech
```
Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
```
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
```
Fontos

Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

Eredmények ellenőrzése

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: python captioning.py --input <input file>

A kapcsolati lehetőségek a következők:

--key: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
--region REGION: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

Fontos

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A bemeneti lehetőségek a következők:

--input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
--format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

--language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

--offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
--realTime: Valós idejű eredmények megjelenítése.

A pontossági lehetőségek a következők:

--phrases PHRASE1;PHRASE2: Megadhatja a felismerni kívánt kifejezések listáját, például Contoso;Jessie;Rehaan. További információ: A felismerés javítása kifejezéslistával.

A kimeneti lehetőségek a következők:

--help: A súgó megjelenítése és leállítása
--output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
--srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
--maxLineLength LENGTH: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
--lines LINES: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
--delay MILLISECONDS: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
--remainTime MILLISECONDS: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
--quiet: A konzol kimenetének letiltása, a hibák kivételével.
--profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
--threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

Azure-előfizetés. Ingyenesen létrehozhat egyet.
Speech-erőforrás létrehozása az Azure Portalon.
Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Kövesse ezeket a lépéseket, és tekintse meg a Speech CLI rövid útmutatóját a platform egyéb követelményeiről.

Futtassa a következő .NET CLI-parancsot a Speech CLI telepítéséhez:
```
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
```
Futtassa az alábbi parancsokat a Speech-erőforráskulcs és -régió konfigurálásához. Cserélje le SUBSCRIPTION-KEY a Speech erőforráskulcsot, és cserélje le REGION a Speech erőforrásrégiójára.
- Terminál
- PowerShell
```
spx config @key --set SUBSCRIPTION-KEY
spx config @region --set REGION
```
```
spx --% config @key --set SUBSCRIPTION-KEY
spx --% config @region --set REGION
```

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Feliratok létrehozása beszédből

A Speech CLI-vel az SRT (SubRip Text) és a WebVTT (webes videószöveg-sávok) feliratait is megjelenítheti bármilyen hanganyagot tartalmazó adathordozóról.

Ha egy fájlból szeretne hangot felismerni, és a WebVtt (vtt) és az SRT (srt) feliratot is ki szeretné adni, kövesse az alábbi lépéseket.

Győződjön meg arról, hogy van egy bemeneti fájl neve caption.this.mp4 az elérési úton.

Futtassa a következő parancsot a videofájl feliratainak megjelenítéséhez:

spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"

Az SRT és a WebVTT feliratai az itt látható módon jelennek meg a konzolon:

1
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
WEBVTT

00:00:00.180 --> 00:00:03.230
Welcome to applied Mathematics course 201.
{
  "ResultId": "561a0ea00cc14bb09bd294357df3270f",
  "Duration": "00:00:03.0500000"
}

Használat és argumentumok

Az alábbi adatok az előző parancs választható argumentumairól szólnak:

--file caption.this.mp4 --format any: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.
--output vtt file - és --output srt file -: WebVTT és SRT feliratokat ad ki standard kimenetre. Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál. Az argumentumról további információt a --output Speech CLI kimeneti beállításaiban talál.
@output.each.detailed: Az eseményeredményeket szöveggel, eltolással és időtartammal adja ki. További információ: Beszédfelismerési eredmények lekérése.
--property SpeechServiceResponse_StablePartialResultThreshold=5: Kérheti, hogy a Speech szolgáltatás kevesebb Recognizing , pontosabb eseményt adjon vissza. Ebben a példában a Speech szolgáltatásnak legalább ötször meg kell erősítenie egy szó felismerését, mielőtt visszaadja Önnek a részleges eredményeket. További információ: Részleges eredményfogalmak lekérése.
--profanity masked: Megadhatja, hogy maszkolja, eltávolítsa vagy megjelenítse-e a profanitást a felismerési eredményekben. További információ: Profanity filter concepts.
--phrases "Constoso;Jessie;Rehaan": Megadhatja a felismerni kívánt kifejezések listáját, például Contoso, Jessie és Rehaan. További információ: A felismerés javítása kifejezéslistával.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Következő lépések

További információ a beszédfelismerésről

Megosztás a következőn keresztül:

Rövid útmutató: Feliratok létrehozása szövegfelolvasással

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Feliratok létrehozása beszédből

Eredmények ellenőrzése

Használat és argumentumok

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Feliratok létrehozása beszédből

Eredmények ellenőrzése

Használat és argumentumok

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Feliratok létrehozása beszédből

Eredmények ellenőrzése

Használat és argumentumok

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Feliratok létrehozása beszédből

Eredmények ellenőrzése

Használat és argumentumok

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Feliratok létrehozása beszédből

Eredmények ellenőrzése

Használat és argumentumok

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Környezeti változók beállítása

Feliratok létrehozása beszédből

Eredmények ellenőrzése

Használat és argumentumok

Az erőforrások eltávolítása

Előfeltételek

A környezet beállítása

Feliratok létrehozása beszédből

Használat és argumentumok

Az erőforrások eltávolítása

Következő lépések

Visszajelzés

További források