Megosztás a következőn keresztül:


Rövid útmutató: Feliratok létrehozása szövegfelolvasással

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

  • Azure-előfizetés. Ingyenesen létrehozhat egyet.
  • Speech-erőforrás létrehozása az Azure Portalon.
  • Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t, de először ellenőrizze az SDK telepítési útmutatóját a további követelményekkel kapcsolatban.

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

  • A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
  • A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

  1. Másolja ki a forgatókönyveket/csharp/dotnetcore/captioning/ mintafájlokat a GitHubról. Ha telepítve van a Git, nyisson meg egy parancssort, és futtassa a git clone parancsot a Speech SDK-minták adattárának letöltéséhez.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Nyisson meg egy parancssort, és váltson a projektkönyvtárra.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Hozza létre a projektet a .NET CLI-vel.
    dotnet build
    
  4. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Fontos

    Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

Eredmények ellenőrzése

Ha a fenti példában a realTime lehetőséget használja, az események részleges Recognizing eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized az események közöttRecognizing. További információ: Részleges eredmények lekérése.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: captioning --input <input file>

A kapcsolati lehetőségek a következők:

  • --key: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
  • --region REGION: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

Fontos

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

  • --offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
  • --realTime: Valós idejű eredmények megjelenítése.

A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing . Az alapértelmezett offline kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
  • --srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
  • --maxLineLength LENGTH: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
  • --lines LINES: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
  • --delay MILLISECONDS: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
  • --remainTime MILLISECONDS: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

  • Azure-előfizetés. Ingyenesen létrehozhat egyet.
  • Speech-erőforrás létrehozása az Azure Portalon.
  • Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t, de először tekintse meg az SDK telepítési útmutatóját a további követelményekről

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

  • A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
  • A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Feliratok létrehozása beszédből

Az alábbi lépéseket követve elkészítheti és futtathatja a rövid útmutató kód példáját a Visual Studio Community 2022-vel Windows rendszeren.

  1. Töltse le vagy másolja a forgatókönyveket/cpp/windows/captioning/ mintafájlokat a GitHubról egy helyi könyvtárba.

  2. Nyissa meg a megoldásfájlt a captioning.sln Visual Studio Community 2022-ben.

  3. Telepítse a Speech SDK-t a projektbe a NuGet-csomagkezelővel.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Nyissa meg az Általános projekttulajdonságokat>>. Konfigurálás beállítása a következőreAll configurations: . A C++ Language Standard beállítása a következőreISO C++17 Standard (/std:c++17): .

  5. Nyissa meg a Build>Configuration Managert.

    • 64 bites Windows-telepítés esetén állítsa az Aktív megoldás platformot a következőre x64: .
    • 32 bites Windows-telepítés esetén állítsa az Aktív megoldás platformot a következőre x86: .
  6. Nyissa meg a projekttulajdonságok>>hibakeresését. Adja meg az előnyben részesített parancssori argumentumokat a parancsargumentumokban. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Fontos

    Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

  7. Hozza létre és futtassa a konzolalkalmazást.

Eredmények ellenőrzése

Ha a fenti példában a realTime lehetőséget használja, az események részleges Recognizing eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized az események közöttRecognizing. További információ: Részleges eredmények lekérése.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: captioning --input <input file>

A kapcsolati lehetőségek a következők:

  • --key: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
  • --region REGION: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

Fontos

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

  • --offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
  • --realTime: Valós idejű eredmények megjelenítése.

A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing . Az alapértelmezett offline kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
  • --srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
  • --maxLineLength LENGTH: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
  • --lines LINES: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
  • --delay MILLISECONDS: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
  • --remainTime MILLISECONDS: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (Go) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

  • Azure-előfizetés. Ingyenesen létrehozhat egyet.
  • Speech-erőforrás létrehozása az Azure Portalon.
  • Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Ellenőrizze, hogy vannak-e platformspecifikus telepítési lépések.

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

  1. Töltse le vagy másolja a forgatókönyveket/go/captioning/ mintafájlokat a GitHubról egy helyi könyvtárba.

  2. Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a captioning.go.

  3. Futtassa az alábbi parancsokat a go.mod GitHubon üzemeltetett Speech SDK-összetevőkre mutató fájl létrehozásához:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Hozza létre a GO modult.

    go build
    
  5. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:

    go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Cserélje le YourSubscriptionKey a Speech erőforráskulcsot, és cserélje le YourServiceRegion a Speech erőforrásrégiójára, például westus vagy northeurope. Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Fontos

    Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információkért tekintse meg az Azure AI-szolgáltatások biztonsági cikkét.

Eredmények ellenőrzése

A teljes feliratokat tartalmazó kimeneti fájl a következőre caption.output.txtvan írva: . Köztes eredmények jelennek meg a konzolon:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: go run captioning.go helper.go --key <key> --region <region> --input <input file>

A kapcsolati lehetőségek a következők:

  • --key: A Speech erőforráskulcsa.
  • --region REGION: A Speech erőforrásrégió. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --languages LANG1,LANG2: Nyelvazonosítás engedélyezése megadott nyelvekhez. Például: en-US,ja-JP Ez a beállítás csak C++, C# és Python feliratozási mintákkal érhető el. További információ: Nyelvazonosítás.

A felismerési lehetőségek a következők:

  • --recognizing: Kimeneti Recognizing esemény eredményei. Az alapértelmezett kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
  • --srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció | További minták a GitHubon

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

  • Azure-előfizetés. Ingyenesen létrehozhat egyet.
  • Speech-erőforrás létrehozása az Azure Portalon.
  • Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Mielőtt bármit megtehet, telepítenie kell a Speech SDK-t. A rövid útmutatóban szereplő minta az OpenJDK 17 Microsoft Buildjével működik

  1. Telepítse az Apache Maven-t. Ezután futtassa mvn -v a sikeres telepítés megerősítéséhez.
  2. Hozzon létre egy új pom.xml fájlt a projekt gyökerében, és másolja be a következőt:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.40.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Telepítse a Speech SDK-t és a függőségeket.
    mvn clean dependency:copy-dependencies
    
  4. A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

  • A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
  • A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

  1. Másolja a forgatókönyveket/java/jre/captioning/ mintafájlokat a GitHubról a projektkönyvtárba. A pom.xml környezeti beállításban létrehozott fájlnak ebben a könyvtárban kell lennie.
  2. Nyisson meg egy parancssort, és futtassa ezt a parancsot a projektfájlok fordításához.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Fontos

    Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

Eredmények ellenőrzése

Ha a fenti példában a realTime lehetőséget használja, az események részleges Recognizing eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized az események közöttRecognizing. További információ: Részleges eredmények lekérése.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: java -cp ".;target\dependency\*" Captioning --input <input file>

A kapcsolati lehetőségek a következők:

  • --key: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
  • --region REGION: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

Fontos

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

  • --offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
  • --realTime: Valós idejű eredmények megjelenítése.

A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing . Az alapértelmezett offline kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
  • --srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
  • --maxLineLength LENGTH: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
  • --lines LINES: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
  • --delay MILLISECONDS: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
  • --remainTime MILLISECONDS: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (npm) | További minták a GitHub | Library forráskódján |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

  • Azure-előfizetés. Ingyenesen létrehozhat egyet.
  • Speech-erőforrás létrehozása az Azure Portalon.
  • Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Mielőtt bármit megtehet, telepítenie kell a JavaScripthez készült Speech SDK-t. Ha csak a csomag nevét szeretné telepíteni, futtassa a parancsot npm install microsoft-cognitiveservices-speech-sdk. Az irányított telepítési utasításokért tekintse meg az SDK telepítési útmutatóját.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

  1. Másolja a forgatókönyveket/javascript/node/captioning/ mintafájlokat a GitHubról a projektkönyvtárba.

  2. Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a Captioning.js.

  3. Telepítse a JavaScripthez készült Speech SDK-t:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:

    node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Cserélje le YourSubscriptionKey a Speech erőforráskulcsot, és cserélje le YourServiceRegion a Speech erőforrásrégiójára, például westus vagy northeurope. Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Feljegyzés

    A JavaScripthez készült Speech SDK nem támogatja a tömörített bemeneti hangot. A példában bemutatott WAV-fájlt kell használnia.

    Fontos

    Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információkért tekintse meg az Azure AI-szolgáltatások biztonsági cikkét.

Eredmények ellenőrzése

A teljes feliratokat tartalmazó kimeneti fájl a következőre caption.output.txtvan írva: . Köztes eredmények jelennek meg a konzolon:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: node captioning.js --key <key> --region <region> --input <input file>

A kapcsolati lehetőségek a következők:

  • --key: A Speech erőforráskulcsa.
  • --region REGION: A Speech erőforrásrégió. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --languages LANG1,LANG2: Nyelvazonosítás engedélyezése megadott nyelvekhez. Például: en-US,ja-JP Ez a beállítás csak C++, C# és Python feliratozási mintákkal érhető el. További információ: Nyelvazonosítás.

A felismerési lehetőségek a következők:

  • --recognizing: Kimeneti Recognizing esemény eredményei. Az alapértelmezett kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
  • --srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (letöltés) | További minták a GitHubon |

Az Objective-C-hez készült Speech SDK támogatja a feliratozás beszédfelismerési eredményeinek lekérését, de itt még nem tartalmaztunk útmutatót. Válasszon egy másik programozási nyelvet az első lépésekhez, és ismerje meg a fogalmakat, vagy tekintse meg a cikk elején hivatkozott Objective-C referenciát és mintákat.

Referenciadokumentáció csomag (letöltés) | További minták a GitHubon |

A SwiftHez készült Speech SDK támogatja a feliratozás beszédfelismerési eredményeinek lekérését, de itt még nem tartalmaztunk útmutatót. Válasszon egy másik programozási nyelvet az első lépésekhez, és ismerje meg a fogalmakat, vagy tekintse meg a swift-hivatkozást és a cikk elején hivatkozott mintákat.

Referenciadokumentáció csomag (PyPi) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

  • Azure-előfizetés. Ingyenesen létrehozhat egyet.
  • Speech-erőforrás létrehozása az Azure Portalon.
  • Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

A PythonHoz készült Speech SDK Python-csomagindex (PyPI) modulként érhető el. A PythonHoz készült Speech SDK kompatibilis a Windows, a Linux és a macOS rendszerrel.

  1. Telepítse a Python 3.10-es vagy újabb verzióját. Először tekintse meg az SDK telepítési útmutatóját a további követelményekkel kapcsolatban
  2. A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Az Azure AI-szolgáltatások eléréséhez hitelesítenie kell az alkalmazást. Ez a cikk bemutatja, hogyan tárolhatja a hitelesítő adatait környezeti változókkal. Ezután hozzáférhet a környezeti változókhoz a kódból az alkalmazás hitelesítéséhez. Éles környezetben biztonságosabban tárolhatja és érheti el a hitelesítő adatait.

Fontos

Az Azure-erőforrásokhoz tartozó felügyelt identitásokkal rendelkező Microsoft Entra ID-hitelesítést javasoljuk, hogy ne tárolja a hitelesítő adatokat a felhőben futó alkalmazásokkal.

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A Speech-erőforráskulcs és -régió környezeti változóinak beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

  • A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
  • A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változók olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Feliratok létrehozása beszédből

Kövesse az alábbi lépéseket a feliratozási rövid útmutató kódjának létrehozásához és futtatásához.

  1. Töltse le vagy másolja a forgatókönyveket/python/konzol/feliratozás/ mintafájlokat a GitHubról egy helyi könyvtárba.
  2. Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a captioning.py.
  3. Futtassa ezt a parancsot a Speech SDK telepítéséhez:
    pip install azure-cognitiveservices-speech
    
  4. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Fontos

    Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

Eredmények ellenőrzése

Ha a fenti példában a realTime lehetőséget használja, az események részleges Recognizing eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized az események közöttRecognizing. További információ: Részleges eredmények lekérése.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: python captioning.py --input <input file>

A kapcsolati lehetőségek a következők:

  • --key: A Speech erőforráskulcsa. Felülbírálja a SPEECH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
  • --region REGION: A Speech erőforrásrégió. Felülbírálja a SPEECH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

Fontos

HA API-kulcsot használ, biztonságosan tárolja valahol máshol, például az Azure Key Vaultban. Ne foglalja bele közvetlenül az API-kulcsot a kódba, és soha ne tegye közzé nyilvánosan.

Az AI-szolgáltatások biztonságáról további információt az Azure AI-szolgáltatásokhoz érkező kérelmek hitelesítése című témakörben talál.

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript feliratozási mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha a feliratok vonalakra törnek. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

  • --offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
  • --realTime: Valós idejű eredmények megjelenítése.

A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing . Az alapértelmezett offline kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: A megadott fileképaláírások megjelenítése. Erre a jelölőre van szükség.
  • --srt: Kimeneti feliratok SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál.
  • --maxLineLength LENGTH: A feliratok maximális karakterszámát állítsa soronként HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
  • --lines LINES: Állítsa be a feliratok sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
  • --delay MILLISECONDS: Hány ezredmásodperc késlelteti az egyes feliratok megjelenítését a valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
  • --remainTime MILLISECONDS: Hány ezredmásodpercnyi feliratnak kell maradnia a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva feliratokat hozhat létre beszédfelolvasással.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Tipp.

Az Azure AI Speech Toolkittel egyszerűen készíthet és futtathat feliratozási mintákat a Visual Studio Code-on.

Előfeltételek

  • Azure-előfizetés. Ingyenesen létrehozhat egyet.
  • Speech-erőforrás létrehozása az Azure Portalon.
  • Kérje le a Speech erőforráskulcsát és régióját. A Speech-erőforrás üzembe helyezése után válassza az Ugrás az erőforrásra lehetőséget a kulcsok megtekintéséhez és kezeléséhez.

A környezet beállítása

Kövesse ezeket a lépéseket, és tekintse meg a Speech CLI rövid útmutatóját a platform egyéb követelményeiről.

  1. Futtassa a következő .NET CLI-parancsot a Speech CLI telepítéséhez:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Futtassa az alábbi parancsokat a Speech-erőforráskulcs és -régió konfigurálásához. Cserélje le SUBSCRIPTION-KEY a Speech erőforráskulcsot, és cserélje le REGION a Speech erőforrásrégiójára.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Feliratok létrehozása beszédből

A Speech CLI-vel az SRT (SubRip Text) és a WebVTT (webes videószöveg-sávok) feliratait is megjelenítheti bármilyen hanganyagot tartalmazó adathordozóról.

Ha egy fájlból szeretne hangot felismerni, és a WebVtt (vtt) és az SRT (srt) feliratot is ki szeretné adni, kövesse az alábbi lépéseket.

  1. Győződjön meg arról, hogy van egy bemeneti fájl neve caption.this.mp4 az elérési úton.

  2. Futtassa a következő parancsot a videofájl feliratainak megjelenítéséhez:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    Az SRT és a WebVTT feliratai az itt látható módon jelennek meg a konzolon:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Használat és argumentumok

Az alábbi adatok az előző parancs választható argumentumairól szólnak:

  • --file caption.this.mp4 --format any: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.
  • --output vtt file - és --output srt file -: WebVTT és SRT feliratokat ad ki standard kimenetre. Az SRT és a WebVTT feliratfájlformátumairól további információt a Felirat kimeneti formátuma című témakörben talál. Az argumentumról további információt a --output Speech CLI kimeneti beállításaiban talál.
  • @output.each.detailed: Az eseményeredményeket szöveggel, eltolással és időtartammal adja ki. További információ: Beszédfelismerési eredmények lekérése.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: Kérheti, hogy a Speech szolgáltatás kevesebb Recognizing , pontosabb eseményt adjon vissza. Ebben a példában a Speech szolgáltatásnak legalább ötször meg kell erősítenie egy szó felismerését, mielőtt visszaadja Önnek a részleges eredményeket. További információ: Részleges eredményfogalmak lekérése.
  • --profanity masked: Megadhatja, hogy maszkolja, eltávolítsa vagy megjelenítse-e a profanitást a felismerési eredményekben. További információ: Profanity filter concepts.
  • --phrases "Constoso;Jessie;Rehaan": Megadhatja a felismerni kívánt kifejezések listáját, például Contoso, Jessie és Rehaan. További információ: A felismerés javítása kifejezéslistával.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Következő lépések