Rövid útmutató: Feliratok létrehozása szövegfelolvasással
Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |
Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.
Tipp.
Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t, de először ellenőrizze az SDK telepítési útmutatóját a további követelményekkel kapcsolatban.
A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Feliratok létrehozása beszédből
Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.
- Másolja ki a forgatókönyveket/csharp/dotnetcore/captioning/ mintafájlokat a GitHubról. Ha telepítve van a Git, nyisson meg egy parancssort, és futtassa a
git clone
parancsot a Speech SDK-minták adattárának letöltéséhez.git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
- Nyisson meg egy parancssort, és váltson a projektkönyvtárra.
cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
- Hozza létre a projektet a .NET CLI-vel.
dotnet build
- Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Fontos
Győződjön meg arról, hogy a megadott
--input
és--output
érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.Győződjön meg arról, hogy a fenti módon állítja be a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Egyéb esetben használja az és--region
az--key
argumentumokat.
Eredmények ellenőrzése
Ha a fenti példában a realTime
lehetőséget használja, az események részleges Recognizing
eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized
esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized
az események közöttRecognizing
. További információ: Részleges eredmények lekérése.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Ha ezt a --offline
lehetőséget használja, az eredmények a végső Recognized
eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff
További információ: Felirat kimeneti formátuma.
Használat és argumentumok
Használat: captioning --input <input file>
A kapcsolati lehetőségek a következők:
--key
: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a--key
beállítást.--region REGION
: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a--region
beállítást. Példák:westus
,northeurope
Fontos
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A bemeneti lehetőségek a következők:
--input FILE
: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.--format FORMAT
: Tömörített hangformátum használata. Csak a--file
. Az érvényes értékek a következőkalaw
: ,flac
any
, ,mp3
mulaw
ésogg_opus
. Az alapértelmezett értékany
. Fájl használatáhozwav
ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.
A nyelvi lehetőségek a következők:
--language LANG
: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett értéken-US
.
A felismerési lehetőségek a következők:
--offline
: Kimenet offline eredmények. Felülbírálások--realTime
. Az alapértelmezett kimeneti mód offline állapotú.--realTime
: Valós idejű eredmények megjelenítése.
A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing
. Az alapértelmezett offline kimenet csak az Recognized
eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet
beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.
A pontossági lehetőségek a következők:
--phrases PHRASE1;PHRASE2
: Megadhatja a felismerni kívánt kifejezések listáját, példáulContoso;Jessie;Rehaan
. További információ: A felismerés javítása kifejezéslistával.
A kimeneti lehetőségek a következők:
--help
: A súgó megjelenítése és leállítása--output FILE
: A megadottfile
képaláírások megjelenítése. Erre a jelölőre van szükség.--srt
: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.--maxLineLength LENGTH
: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).--lines LINES
: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.--delay MILLISECONDS
: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőtrealTime
használja. A minimum 0,0. Az alapértelmezett érték 1000.--remainTime MILLISECONDS
: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.--quiet
: A konzol kimenetének letiltása, a hibák kivételével.--profanity OPTION
: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.--threshold NUMBER
: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték3
. Ez a beállítás csak akkor alkalmazható, ha a jelölőtrealTime
használja. További információ: Részleges eredményfogalmak lekérése.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |
Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.
Tipp.
Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t, de először tekintse meg az SDK telepítési útmutatóját a további követelményekről
A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Feliratok létrehozása beszédből
Az alábbi lépéseket követve elkészítheti és futtathatja a rövid útmutató kód példáját a Visual Studio Community 2022-vel Windows rendszeren.
Töltse le vagy másolja a forgatókönyveket/cpp/windows/captioning/ mintafájlokat a GitHubról egy helyi könyvtárba.
Nyissa meg a megoldásfájlt a
captioning.sln
Visual Studio Community 2022-ben.Telepítse a Speech SDK-t a projektbe a NuGet-csomagkezelővel.
Install-Package Microsoft.CognitiveServices.Speech
Nyissa meg az Általános projekttulajdonságokat>>. Konfigurálás beállítása a következőre
All configurations
: . A C++ Language Standard beállítása a következőreISO C++17 Standard (/std:c++17)
: .Nyissa meg a Build>Configuration Managert.
- 64 bites Windows-telepítés esetén állítsa az Aktív megoldás platformot a következőre
x64
: . - 32 bites Windows-telepítés esetén állítsa az Aktív megoldás platformot a következőre
x86
: .
- 64 bites Windows-telepítés esetén állítsa az Aktív megoldás platformot a következőre
Nyissa meg a projekttulajdonságok>>hibakeresését. Adja meg az előnyben részesített parancssori argumentumokat a parancsargumentumokban. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:
--input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Fontos
Győződjön meg arról, hogy a megadott
--input
és--output
érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.Győződjön meg arról, hogy a fenti módon állítja be a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Egyéb esetben használja az és--region
az--key
argumentumokat.Hozza létre és futtassa a konzolalkalmazást.
Eredmények ellenőrzése
Ha a fenti példában a realTime
lehetőséget használja, az események részleges Recognizing
eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized
esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized
az események közöttRecognizing
. További információ: Részleges eredmények lekérése.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Ha ezt a --offline
lehetőséget használja, az eredmények a végső Recognized
eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff
További információ: Felirat kimeneti formátuma.
Használat és argumentumok
Használat: captioning --input <input file>
A kapcsolati lehetőségek a következők:
--key
: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a--key
beállítást.--region REGION
: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a--region
beállítást. Példák:westus
,northeurope
Fontos
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A bemeneti lehetőségek a következők:
--input FILE
: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.--format FORMAT
: Tömörített hangformátum használata. Csak a--file
. Az érvényes értékek a következőkalaw
: ,flac
any
, ,mp3
mulaw
ésogg_opus
. Az alapértelmezett értékany
. Fájl használatáhozwav
ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.
A nyelvi lehetőségek a következők:
--language LANG
: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett értéken-US
.
A felismerési lehetőségek a következők:
--offline
: Kimenet offline eredmények. Felülbírálások--realTime
. Az alapértelmezett kimeneti mód offline állapotú.--realTime
: Valós idejű eredmények megjelenítése.
A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing
. Az alapértelmezett offline kimenet csak az Recognized
eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet
beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.
A pontossági lehetőségek a következők:
--phrases PHRASE1;PHRASE2
: Megadhatja a felismerni kívánt kifejezések listáját, példáulContoso;Jessie;Rehaan
. További információ: A felismerés javítása kifejezéslistával.
A kimeneti lehetőségek a következők:
--help
: A súgó megjelenítése és leállítása--output FILE
: A megadottfile
képaláírások megjelenítése. Erre a jelölőre van szükség.--srt
: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.--maxLineLength LENGTH
: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).--lines LINES
: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.--delay MILLISECONDS
: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőtrealTime
használja. A minimum 0,0. Az alapértelmezett érték 1000.--remainTime MILLISECONDS
: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.--quiet
: A konzol kimenetének letiltása, a hibák kivételével.--profanity OPTION
: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.--threshold NUMBER
: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték3
. Ez a beállítás csak akkor alkalmazható, ha a jelölőtrealTime
használja. További információ: Részleges eredményfogalmak lekérése.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció csomag (Go) | További minták a GitHubon |
Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.
Tipp.
Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
Ellenőrizze, hogy vannak-e platformspecifikus telepítési lépések.
A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.
Feliratok létrehozása beszédből
Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.
Töltse le vagy másolja a forgatókönyveket/go/captioning/ mintafájlokat a GitHubról egy helyi könyvtárba.
Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a
captioning.go
.Futtassa az alábbi parancsokat a
go.mod
GitHubon üzemeltetett Speech SDK-összetevőkre mutató fájl létrehozásához:go mod init captioning go get github.com/Microsoft/cognitive-services-speech-sdk-go
Hozza létre a GO modult.
go build
Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:
go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Cserélje le
YourSubscriptionKey
a Speech erőforráskulcsot, és cserélje leYourServiceRegion
a Speech erőforrásrégiójára, példáulwestus
vagynortheurope
. Győződjön meg arról, hogy a megadott--input
és--output
érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.Fontos
Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információkért tekintse meg az Azure AI-szolgáltatások biztonsági cikkét.
Eredmények ellenőrzése
A teljes feliratokat tartalmazó kimeneti fájl a következőre caption.output.txt
van írva: . Köztes eredmények jelennek meg a konzolon:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff
További információ: Felirat kimeneti formátuma.
Használat és argumentumok
Használat: go run captioning.go helper.go --key <key> --region <region> --input <input file>
A kapcsolati lehetőségek a következők:
--key
: A Speech erőforráskulcsa.--region REGION
: A Speech erőforrásrégió. Példák:westus
,northeurope
A bemeneti lehetőségek a következők:
--input FILE
: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.--format FORMAT
: Tömörített hangformátum használata. Csak a--file
. Az érvényes értékek a következőkalaw
: ,flac
any
, ,mp3
mulaw
ésogg_opus
. Az alapértelmezett értékany
. Fájl használatáhozwav
ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.
A nyelvi lehetőségek a következők:
--languages LANG1,LANG2
: Nyelvazonosítás engedélyezése megadott nyelvekhez. Például:en-US,ja-JP
Ez a beállítás csak C++, C# és Python feliratozási mintákkal érhető el. További információ: Nyelvazonosítás.
A felismerési lehetőségek a következők:
--recognizing
: KimenetiRecognizing
esemény eredményei. Az alapértelmezett kimenet csak azRecognized
eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A--quiet
beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.
A pontossági lehetőségek a következők:
--phrases PHRASE1;PHRASE2
: Megadhatja a felismerni kívánt kifejezések listáját, példáulContoso;Jessie;Rehaan
. További információ: A felismerés javítása kifejezéslistával.
A kimeneti lehetőségek a következők:
--help
: A súgó megjelenítése és leállítása--output FILE
: A megadottfile
képaláírások megjelenítése. Erre a jelölőre van szükség.--srt
: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.--quiet
: A konzol kimenetének letiltása, a hibák kivételével.--profanity OPTION
: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.--threshold NUMBER
: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték3
. További információ: Részleges eredményfogalmak lekérése.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció | További minták a GitHubon
Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.
Tipp.
Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
Mielőtt bármit megtehet, telepítenie kell a Speech SDK-t. A rövid útmutatóban szereplő minta az OpenJDK 17 Microsoft Buildjével működik
- Telepítse az Apache Maven-t. Ezután futtassa
mvn -v
a sikeres telepítés megerősítéséhez. - Hozzon létre egy új
pom.xml
fájlt a projekt gyökerében, és másolja be a következőt:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>com.microsoft.cognitiveservices.speech.samples</groupId> <artifactId>quickstart-eclipse</artifactId> <version>1.0.0-SNAPSHOT</version> <build> <sourceDirectory>src</sourceDirectory> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>3.7.0</version> <configuration> <source>1.8</source> <target>1.8</target> </configuration> </plugin> </plugins> </build> <dependencies> <dependency> <groupId>com.microsoft.cognitiveservices.speech</groupId> <artifactId>client-sdk</artifactId> <version>1.40.0</version> </dependency> </dependencies> </project>
- Telepítse a Speech SDK-t és a függőségeket.
mvn clean dependency:copy-dependencies
- A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Feliratok létrehozása beszédből
Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.
- Másolja a forgatókönyveket/java/jre/captioning/ mintafájlokat a GitHubról a projektkönyvtárba. A
pom.xml
környezeti beállításban létrehozott fájlnak ebben a könyvtárban kell lennie. - Nyisson meg egy parancssort, és futtassa ezt a parancsot a projektfájlok fordításához.
javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
- Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Fontos
Győződjön meg arról, hogy a megadott
--input
és--output
érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.Győződjön meg arról, hogy a fenti módon állítja be a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Egyéb esetben használja az és--region
az--key
argumentumokat.
Eredmények ellenőrzése
Ha a fenti példában a realTime
lehetőséget használja, az események részleges Recognizing
eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized
esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized
az események közöttRecognizing
. További információ: Részleges eredmények lekérése.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Ha ezt a --offline
lehetőséget használja, az eredmények a végső Recognized
eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff
További információ: Felirat kimeneti formátuma.
Használat és argumentumok
Használat: java -cp ".;target\dependency\*" Captioning --input <input file>
A kapcsolati lehetőségek a következők:
--key
: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a--key
beállítást.--region REGION
: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a--region
beállítást. Példák:westus
,northeurope
Fontos
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A bemeneti lehetőségek a következők:
--input FILE
: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.--format FORMAT
: Tömörített hangformátum használata. Csak a--file
. Az érvényes értékek a következőkalaw
: ,flac
any
, ,mp3
mulaw
ésogg_opus
. Az alapértelmezett értékany
. Fájl használatáhozwav
ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.
A nyelvi lehetőségek a következők:
--language LANG
: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett értéken-US
.
A felismerési lehetőségek a következők:
--offline
: Kimenet offline eredmények. Felülbírálások--realTime
. Az alapértelmezett kimeneti mód offline állapotú.--realTime
: Valós idejű eredmények megjelenítése.
A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing
. Az alapértelmezett offline kimenet csak az Recognized
eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet
beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.
A pontossági lehetőségek a következők:
--phrases PHRASE1;PHRASE2
: Megadhatja a felismerni kívánt kifejezések listáját, példáulContoso;Jessie;Rehaan
. További információ: A felismerés javítása kifejezéslistával.
A kimeneti lehetőségek a következők:
--help
: A súgó megjelenítése és leállítása--output FILE
: A megadottfile
képaláírások megjelenítése. Erre a jelölőre van szükség.--srt
: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.--maxLineLength LENGTH
: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).--lines LINES
: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.--delay MILLISECONDS
: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőtrealTime
használja. A minimum 0,0. Az alapértelmezett érték 1000.--remainTime MILLISECONDS
: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.--quiet
: A konzol kimenetének letiltása, a hibák kivételével.--profanity OPTION
: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.--threshold NUMBER
: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték3
. Ez a beállítás csak akkor alkalmazható, ha a jelölőtrealTime
használja. További információ: Részleges eredményfogalmak lekérése.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció csomag (npm) | További minták a GitHub | Library forráskódján |
Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.
Tipp.
Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
Mielőtt bármit megtehet, telepítenie kell a JavaScripthez készült Speech SDK-t. Ha csak a csomag nevét szeretné telepíteni, futtassa a parancsot npm install microsoft-cognitiveservices-speech-sdk
. Az irányított telepítési utasításokért tekintse meg az SDK telepítési útmutatóját.
Feliratok létrehozása beszédből
Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.
Másolja a forgatókönyveket/javascript/node/captioning/ mintafájlokat a GitHubról a projektkönyvtárba.
Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a
Captioning.js
.Telepítse a JavaScripthez készült Speech SDK-t:
npm install microsoft-cognitiveservices-speech-sdk
Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:
node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Cserélje le
YourSubscriptionKey
a Speech erőforráskulcsot, és cserélje leYourServiceRegion
a Speech erőforrásrégiójára, példáulwestus
vagynortheurope
. Győződjön meg arról, hogy a megadott--input
és--output
érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.Feljegyzés
A JavaScripthez készült Speech SDK nem támogatja a tömörített bemeneti hangot. A példában bemutatott WAV-fájlt kell használnia.
Fontos
Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információkért tekintse meg az Azure AI-szolgáltatások biztonsági cikkét.
Eredmények ellenőrzése
A teljes feliratokat tartalmazó kimeneti fájl a következőre caption.output.txt
van írva: . Köztes eredmények jelennek meg a konzolon:
00:00:00,180 --> 00:00:01,600
Welcome to
00:00:00,180 --> 00:00:01,820
Welcome to applied
00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics
00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course
00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.
Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff
További információ: Felirat kimeneti formátuma.
Használat és argumentumok
Használat: node captioning.js --key <key> --region <region> --input <input file>
A kapcsolati lehetőségek a következők:
--key
: A Speech erőforráskulcsa.--region REGION
: A Speech erőforrásrégió. Példák:westus
,northeurope
A bemeneti lehetőségek a következők:
--input FILE
: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.--format FORMAT
: Tömörített hangformátum használata. Csak a--file
. Az érvényes értékek a következőkalaw
: ,flac
any
, ,mp3
mulaw
ésogg_opus
. Az alapértelmezett értékany
. Fájl használatáhozwav
ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.
A nyelvi lehetőségek a következők:
--languages LANG1,LANG2
: Nyelvazonosítás engedélyezése megadott nyelvekhez. Például:en-US,ja-JP
Ez a beállítás csak C++, C# és Python feliratozási mintákkal érhető el. További információ: Nyelvazonosítás.
A felismerési lehetőségek a következők:
--recognizing
: KimenetiRecognizing
esemény eredményei. Az alapértelmezett kimenet csak azRecognized
eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A--quiet
beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.
A pontossági lehetőségek a következők:
--phrases PHRASE1;PHRASE2
: Megadhatja a felismerni kívánt kifejezések listáját, példáulContoso;Jessie;Rehaan
. További információ: A felismerés javítása kifejezéslistával.
A kimeneti lehetőségek a következők:
--help
: A súgó megjelenítése és leállítása--output FILE
: A megadottfile
képaláírások megjelenítése. Erre a jelölőre van szükség.--srt
: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.--quiet
: A konzol kimenetének letiltása, a hibák kivételével.--profanity OPTION
: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.--threshold NUMBER
: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték3
. További információ: Részleges eredményfogalmak lekérése.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Referenciadokumentáció csomag (letöltés) | További minták a GitHubon |
Az Objective-C-hez készült Speech SDK támogatja a feliratozás beszédfelismerési eredményeinek lekérését, de itt még nem tartalmaztunk útmutatót. Válasszon egy másik programozási nyelvet az első lépésekhez, és ismerje meg a fogalmakat, vagy tekintse meg a cikk elején hivatkozott Objective-C referenciát és mintákat.
Referenciadokumentáció csomag (letöltés) | További minták a GitHubon |
A SwiftHez készült Speech SDK támogatja a feliratozás beszédfelismerési eredményeinek lekérését, de itt még nem tartalmaztunk útmutatót. Válasszon egy másik programozási nyelvet az első lépésekhez, és ismerje meg a fogalmakat, vagy tekintse meg a swift-hivatkozást és a cikk elején hivatkozott mintákat.
Referenciadokumentáció csomag (PyPi) | További minták a GitHubon |
Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.
Tipp.
Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
A PythonHoz készült Speech SDK Python-csomagindex (PyPI) modulként érhető el. A PythonHoz készült Speech SDK kompatibilis a Windows, a Linux és a macOS rendszerrel.
- Telepítenie kell a Visual Studio 2015-höz, 2017-hez, 2019-hez és 2022-hez készült Microsoft Visual C++ terjeszthető verziót a platformhoz. A csomag első telepítése újraindítást igényelhet.
- Linuxon az x64-alapú célarchitektúrát kell használnia.
- Telepítse a Python 3.10-es vagy újabb verzióját. Először tekintse meg az SDK telepítési útmutatóját a további követelményekkel kapcsolatban
- A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.
Környezeti változók beállítása
Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.
Fontos
Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.
- A
SPEECH_KEY
környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára. - A
SPEECH_REGION
környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
Feljegyzés
Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set
ahelyett setx
állíthatja be.
A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.
Feliratok létrehozása beszédből
Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.
- Töltse le vagy másolja a forgatókönyveket/python/konzol/feliratozás/ mintafájlokat a GitHubról egy helyi könyvtárba.
- Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a
captioning.py
. - Futtassa ezt a parancsot a Speech SDK telepítéséhez:
pip install azure-cognitiveservices-speech
- Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
Fontos
Győződjön meg arról, hogy a megadott
--input
és--output
érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.Győződjön meg arról, hogy a fenti módon állítja be a környezeti és
SPEECH_REGION
aSPEECH_KEY
környezeti változókat. Egyéb esetben használja az és--region
az--key
argumentumokat.
Eredmények ellenőrzése
Ha a fenti példában a realTime
lehetőséget használja, az események részleges Recognizing
eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized
esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized
az események közöttRecognizing
. További információ: Részleges eredmények lekérése.
1
00:00:00,170 --> 00:00:00,380
The
2
00:00:00,380 --> 00:00:01,770
The rainbow
3
00:00:01,770 --> 00:00:02,560
The rainbow has seven
4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors
5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red
6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange
7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow
8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green
9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.
Ha ezt a --offline
lehetőséget használja, az eredmények a végső Recognized
eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:
1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,
2
00:00:05,540 --> 00:00:07,160
indigo and Violet.
Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff
További információ: Felirat kimeneti formátuma.
Használat és argumentumok
Használat: python captioning.py --input <input file>
A kapcsolati lehetőségek a következők:
--key
: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a--key
beállítást.--region REGION
: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a--region
beállítást. Példák:westus
,northeurope
Fontos
HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.
Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.
A bemeneti lehetőségek a következők:
--input FILE
: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.--format FORMAT
: Tömörített hangformátum használata. Csak a--file
. Az érvényes értékek a következőkalaw
: ,flac
any
, ,mp3
mulaw
ésogg_opus
. Az alapértelmezett értékany
. Fájl használatáhozwav
ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.
A nyelvi lehetőségek a következők:
--language LANG
: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett értéken-US
.
A felismerési lehetőségek a következők:
--offline
: Kimenet offline eredmények. Felülbírálások--realTime
. Az alapértelmezett kimeneti mód offline állapotú.--realTime
: Valós idejű eredmények megjelenítése.
A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing
. Az alapértelmezett offline kimenet csak az Recognized
eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet
beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.
A pontossági lehetőségek a következők:
--phrases PHRASE1;PHRASE2
: Megadhatja a felismerni kívánt kifejezések listáját, példáulContoso;Jessie;Rehaan
. További információ: A felismerés javítása kifejezéslistával.
A kimeneti lehetőségek a következők:
--help
: A súgó megjelenítése és leállítása--output FILE
: A megadottfile
képaláírások megjelenítése. Erre a jelölőre van szükség.--srt
: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.--maxLineLength LENGTH
: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).--lines LINES
: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.--delay MILLISECONDS
: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőtrealTime
használja. A minimum 0,0. Az alapértelmezett érték 1000.--remainTime MILLISECONDS
: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.--quiet
: A konzol kimenetének letiltása, a hibák kivételével.--profanity OPTION
: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.--threshold NUMBER
: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték3
. Ez a beállítás csak akkor alkalmazható, ha a jelölőtrealTime
használja. További információ: Részleges eredményfogalmak lekérése.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.
Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.
Tipp.
Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.
Tipp.
Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.
Előfeltételek
- Azure-előfizetés. Ingyenesen létrehozhat egyet.
- Speech-erőforrás létrehozása az Azure Portalon.
- Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.
A környezet beállítása
Kövesse ezeket a lépéseket, és tekintse meg a Speech CLI rövid útmutatóját a platform egyéb követelményeiről.
Futtassa a következő .NET CLI-parancsot a Speech CLI telepítéséhez:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Futtassa az alábbi parancsokat a Speech-erőforráskulcs és -régió konfigurálásához. Cserélje le
SUBSCRIPTION-KEY
a Speech erőforráskulcsot, és cserélje leREGION
a Speech erőforrásrégiójára.spx config @key --set SUBSCRIPTION-KEY spx config @region --set REGION
A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.
Feliratok létrehozása beszédből
A Speech CLI-vel az SRT (SubRip Text) és a WebVTT (webes videószöveg-sávok) feliratait is megjelenítheti bármilyen hanganyagot tartalmazó adathordozóról.
Ha egy fájlból szeretne hangot felismerni, és a WebVtt (vtt
) és az SRT (srt
) feliratot is ki szeretné adni, kövesse az alábbi lépéseket.
Győződjön meg arról, hogy van egy bemeneti fájl neve
caption.this.mp4
az elérési úton.Futtassa a következő parancsot a videofájl feliratainak megjelenítéséhez:
spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
Az SRT és a WebVTT feliratai az itt látható módon jelennek meg a konzolon:
1 00:00:00,180 --> 00:00:03,230 Welcome to applied Mathematics course 201. WEBVTT 00:00:00.180 --> 00:00:03.230 Welcome to applied Mathematics course 201. { "ResultId": "561a0ea00cc14bb09bd294357df3270f", "Duration": "00:00:03.0500000" }
Használat és argumentumok
Az alábbi adatok az előző parancs választható argumentumairól szólnak:
--file caption.this.mp4 --format any
: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.--output vtt file -
és--output srt file -
: WebVTT és SRT feliratokat ad ki standard kimenetre. Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál. Az argumentumról további információt a--output
Speech CLI kimeneti beállításaiban talál.@output.each.detailed
: Az eseményeredményeket szöveggel, eltolással és időtartammal adja ki. További információ: Beszédfelismerési eredmények lekérése.--property SpeechServiceResponse_StablePartialResultThreshold=5
: Kérheti, hogy a Speech szolgáltatás kevesebbRecognizing
, pontosabb eseményt adjon vissza. Ebben a példában a Speech szolgáltatásnak legalább ötször meg kell erősítenie egy szó felismerését, mielőtt visszaadja Önnek a részleges eredményeket. További információ: Részleges eredményfogalmak lekérése.--profanity masked
: Megadhatja, hogy maszkolja, eltávolítsa vagy megjelenítse-e a profanitást a felismerési eredményekben. További információ: Profanity filter concepts.--phrases "Constoso;Jessie;Rehaan"
: Megadhatja a felismerni kívánt kifejezések listáját, például Contoso, Jessie és Rehaan. További információ: A felismerés javítása kifejezéslistával.
Az erőforrások eltávolítása
Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.