Megosztás a következőn keresztül:


Rövid útmutató: Képaláírás létrehozása szövegfelolvasással

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva képaláírás hozhat létre szövegfelolvasással.

Tipp.

Próbálja ki a Speech Studiót, és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozású képaláírás eredményeinek megtekintéséhez.

Előfeltételek

A környezet beállítása

A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t, de először ellenőrizze az SDK telepítési útmutatóját a további követelményekkel kapcsolatban.

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Az alkalmazásnak hitelesítenie kell az Azure AI-szolgáltatások erőforrásainak eléréséhez. Éles környezetben használjon biztonságos módot a hitelesítő adatok tárolására és elérésére. Miután például lekérte a Speech-erőforrás kulcsát , írja be egy új környezeti változóba az alkalmazást futtató helyi gépen.

Tipp.

Ne vegye fel közvetlenül a kulcsot a kódba, és soha ne tegye közzé nyilvánosan. További hitelesítési lehetőségeket, például az Azure Key Vaultot az Azure AI-szolgáltatások biztonságában talál.

A Speech erőforráskulcs környezeti változójának beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

  • A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
  • A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változó olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Képaláírás létrehozása beszédből

Kövesse az alábbi lépéseket a képaláírás gyorsútmutató-példa létrehozásához és futtatásához.

  1. Másolja ki a forgatókönyveket/csharp/dotnetcore/képaláírás ing/mintafájlokat a GitHubról. Ha telepítve van a Git, nyisson meg egy parancssort, és futtassa a git clone parancsot a Speech SDK-minták adattárának letöltéséhez.
    git clone https://github.com/Azure-Samples/cognitive-services-speech-sdk.git
    
  2. Nyisson meg egy parancssort, és váltson a projektkönyvtárra.
    cd <your-local-path>/scenarios/csharp/dotnetcore/captioning/captioning/
    
  3. Hozza létre a projektet a .NET CLI-vel.
    dotnet build
    
  4. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
    dotnet run --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Fontos

    Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

Eredmények ellenőrzése

Ha a fenti példában a realTime lehetőséget használja, az események részleges Recognizing eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized az események közöttRecognizing. További információ: Részleges eredmények lekérése.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: captioning --input <input file>

Csatlakozás lehetőségek a következők:

  • --key: A Speech erőforráskulcsa. Felülbírálja az SP Enterprise kiadás CH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
  • --region REGION: A Speech erőforrásrégió. Felülbírálja az SP Enterprise kiadás CH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript-képaláírás mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha képaláírás sorokba törik. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

  • --offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
  • --realTime: Valós idejű eredmények megjelenítése.

A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing . Az alapértelmezett offline kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: Kimeneti képaláírás a megadott file. Erre a jelölőre van szükség.
  • --srt: Kimeneti képaláírás SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). További információ az SRT-ről és a WebVTT-képaláírás fájlformátumokról: Caption output format.
  • --maxLineLength LENGTH: Állítsa be a képaláírás soronkénti karaktereinek maximális számát HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
  • --lines LINES: Állítsa be az képaláírás sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
  • --delay MILLISECONDS: Hány MILLI Standard kiadás KONDS késlelteti az egyes képaláírás megjelenítését valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
  • --remainTime MILLISECONDS: Egy képaláírás hány MILLI Standard kiadás CONDS maradjon a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció-csomag (NuGet) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva képaláírás hozhat létre szövegfelolvasással.

Tipp.

Próbálja ki a Speech Studiót, és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozású képaláírás eredményeinek megtekintéséhez.

Előfeltételek

A környezet beállítása

A Speech SDK NuGet-csomagként érhető el, és a .NET Standard 2.0-t implementálja. Az útmutató későbbi részében telepítheti a Speech SDK-t, de először tekintse meg az SDK telepítési útmutatóját a további követelményekről

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Az alkalmazásnak hitelesítenie kell az Azure AI-szolgáltatások erőforrásainak eléréséhez. Éles környezetben használjon biztonságos módot a hitelesítő adatok tárolására és elérésére. Miután például lekérte a Speech-erőforrás kulcsát , írja be egy új környezeti változóba az alkalmazást futtató helyi gépen.

Tipp.

Ne vegye fel közvetlenül a kulcsot a kódba, és soha ne tegye közzé nyilvánosan. További hitelesítési lehetőségeket, például az Azure Key Vaultot az Azure AI-szolgáltatások biztonságában talál.

A Speech erőforráskulcs környezeti változójának beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

  • A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
  • A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változó olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Képaláírás létrehozása beszédből

Az alábbi lépéseket követve elkészítheti és futtathatja a Képaláírás ing rövid útmutató kód példáját a Visual Studio Community 2022-vel Windows rendszeren.

  1. Töltse le vagy másolja a forgatókönyveket/cpp/windows/képaláírás ing/mintafájlokat a GitHubról egy helyi könyvtárba.

  2. Nyissa meg a megoldásfájlt a captioning.sln Visual Studio Community 2022-ben.

  3. Telepítse a Speech SDK-t a projektbe a NuGet-csomagkezelővel.

    Install-Package Microsoft.CognitiveServices.Speech
    
  4. Nyissa meg az Általános projekttulajdonságokat>>. Konfigurálás beállítása a következőreAll configurations: . A C++ Language Standard beállítása a következőreISO C++17 Standard (/std:c++17): .

  5. Nyissa meg a Build>Configuration Managert.

    • 64 bites Windows-telepítés esetén állítsa az Aktív megoldás platformot a következőre x64: .
    • 32 bites Windows-telepítés esetén állítsa az Aktív megoldás platformot a következőre x86: .
  6. Nyissa meg a projekttulajdonságok>>hibakeresését. Adja meg az előnyben részesített parancssori argumentumokat a parancsargumentumokban. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:

    --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Fontos

    Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

  7. Hozza létre és futtassa a konzolalkalmazást.

Eredmények ellenőrzése

Ha a fenti példában a realTime lehetőséget használja, az események részleges Recognizing eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized az események közöttRecognizing. További információ: Részleges eredmények lekérése.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: captioning --input <input file>

Csatlakozás lehetőségek a következők:

  • --key: A Speech erőforráskulcsa. Felülbírálja az SP Enterprise kiadás CH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
  • --region REGION: A Speech erőforrásrégió. Felülbírálja az SP Enterprise kiadás CH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript-képaláírás mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha képaláírás sorokba törik. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

  • --offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
  • --realTime: Valós idejű eredmények megjelenítése.

A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing . Az alapértelmezett offline kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: Kimeneti képaláírás a megadott file. Erre a jelölőre van szükség.
  • --srt: Kimeneti képaláírás SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). További információ az SRT-ről és a WebVTT-képaláírás fájlformátumokról: Caption output format.
  • --maxLineLength LENGTH: Állítsa be a képaláírás soronkénti karaktereinek maximális számát HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
  • --lines LINES: Állítsa be az képaláírás sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
  • --delay MILLISECONDS: Hány MILLI Standard kiadás KONDS késlelteti az egyes képaláírás megjelenítését valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
  • --remainTime MILLISECONDS: Egy képaláírás hány MILLI Standard kiadás CONDS maradjon a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (Go) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva képaláírás hozhat létre szövegfelolvasással.

Tipp.

Próbálja ki a Speech Studiót, és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozású képaláírás eredményeinek megtekintéséhez.

Előfeltételek

A környezet beállítása

Ellenőrizze, hogy vannak-e platformspecifikus telepítési lépések.

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Képaláírás létrehozása beszédből

Kövesse az alábbi lépéseket a képaláírás gyorsútmutató-példa létrehozásához és futtatásához.

  1. Töltse le vagy másolja a forgatókönyveket/go/képaláírás ing/mintafájlokat a GitHubról egy helyi könyvtárba.

  2. Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a captioning.go.

  3. Futtassa az alábbi parancsokat a go.mod GitHubon üzemeltetett Speech SDK-összetevőkre mutató fájl létrehozásához:

    go mod init captioning
    go get github.com/Microsoft/cognitive-services-speech-sdk-go
    
  4. Hozza létre a GO modult.

    go build
    
  5. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:

    go run captioning --key YourSubscriptionKey --region YourServiceRegion --input caption.this.mp4 --format any --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Cserélje le YourSubscriptionKey a Speech erőforráskulcsot, és cserélje le YourServiceRegion a Speech erőforrásrégiójára, például westus vagy northeurope. Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Fontos

    Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információkért tekintse meg az Azure AI-szolgáltatások biztonsági cikkét.

Eredmények ellenőrzése

A teljes képaláírás tartalmazó kimeneti fájl írása a következőre történikcaption.output.txt: . Köztes eredmények jelennek meg a konzolon:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: go run captioning.go helper.go --key <key> --region <region> --input <input file>

Csatlakozás lehetőségek a következők:

  • --key: A Speech erőforráskulcsa.
  • --region REGION: A Speech erőforrásrégió. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript-képaláírás mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --languages LANG1,LANG2: Nyelvazonosítás engedélyezése megadott nyelvekhez. Például: en-US,ja-JP Ez a lehetőség csak A C++, C# és Python képaláírás mintákkal érhető el. További információ: Nyelvazonosítás.

A felismerési lehetőségek a következők:

  • --recognizing: Kimeneti Recognizing esemény eredményei. Az alapértelmezett kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: Kimeneti képaláírás a megadott file. Erre a jelölőre van szükség.
  • --srt: Kimeneti képaláírás SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). További információ az SRT-ről és a WebVTT-képaláírás fájlformátumokról: Caption output format.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció | – További minták a GitHubon

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva képaláírás hozhat létre szövegfelolvasással.

Tipp.

Próbálja ki a Speech Studiót, és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozású képaláírás eredményeinek megtekintéséhez.

Előfeltételek

A környezet beállítása

Mielőtt bármit megtehet, telepítenie kell a Speech SDK-t. A rövid útmutatóban szereplő minta az OpenJDK 17 Microsoft Buildjével működik

  1. Telepítse az Apache Maven-t. Ezután futtassa mvn -v a sikeres telepítés megerősítéséhez.
  2. Hozzon létre egy új pom.xml fájlt a projekt gyökerében, és másolja be a következőt:
    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.38.0</version>
            </dependency>
        </dependencies>
    </project>
    
  3. Telepítse a Speech SDK-t és a függőségeket.
    mvn clean dependency:copy-dependencies
    
  4. A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Az alkalmazásnak hitelesítenie kell az Azure AI-szolgáltatások erőforrásainak eléréséhez. Éles környezetben használjon biztonságos módot a hitelesítő adatok tárolására és elérésére. Miután például lekérte a Speech-erőforrás kulcsát , írja be egy új környezeti változóba az alkalmazást futtató helyi gépen.

Tipp.

Ne vegye fel közvetlenül a kulcsot a kódba, és soha ne tegye közzé nyilvánosan. További hitelesítési lehetőségeket, például az Azure Key Vaultot az Azure AI-szolgáltatások biztonságában talál.

A Speech erőforráskulcs környezeti változójának beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

  • A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
  • A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változó olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Képaláírás létrehozása beszédből

Kövesse az alábbi lépéseket a képaláírás gyorsútmutató-példa létrehozásához és futtatásához.

  1. Másolja a forgatókönyveket/java/jre/képaláírás ing/mintafájlokat a GitHubról a projektkönyvtárba. A pom.xml környezeti beállításban létrehozott fájlnak ebben a könyvtárban kell lennie.
  2. Nyisson meg egy parancssort, és futtassa ezt a parancsot a projektfájlok fordításához.
    javac Captioning.java -cp ".;target\dependency\*" -encoding UTF-8
    
  3. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
    java -cp ".;target\dependency\*" Captioning --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Fontos

    Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

Eredmények ellenőrzése

Ha a fenti példában a realTime lehetőséget használja, az események részleges Recognizing eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized az események közöttRecognizing. További információ: Részleges eredmények lekérése.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: java -cp ".;target\dependency\*" Captioning --input <input file>

Csatlakozás lehetőségek a következők:

  • --key: A Speech erőforráskulcsa. Felülbírálja az SP Enterprise kiadás CH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
  • --region REGION: A Speech erőforrásrégió. Felülbírálja az SP Enterprise kiadás CH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript-képaláírás mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha képaláírás sorokba törik. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

  • --offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
  • --realTime: Valós idejű eredmények megjelenítése.

A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing . Az alapértelmezett offline kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: Kimeneti képaláírás a megadott file. Erre a jelölőre van szükség.
  • --srt: Kimeneti képaláírás SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). További információ az SRT-ről és a WebVTT-képaláírás fájlformátumokról: Caption output format.
  • --maxLineLength LENGTH: Állítsa be a képaláírás soronkénti karaktereinek maximális számát HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
  • --lines LINES: Állítsa be az képaláírás sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
  • --delay MILLISECONDS: Hány MILLI Standard kiadás KONDS késlelteti az egyes képaláírás megjelenítését valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
  • --remainTime MILLISECONDS: Egy képaláírás hány MILLI Standard kiadás CONDS maradjon a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (npm) | További minták a GitHub | Library forráskódján |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva képaláírás hozhat létre szövegfelolvasással.

Tipp.

Próbálja ki a Speech Studiót, és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozású képaláírás eredményeinek megtekintéséhez.

Előfeltételek

A környezet beállítása

Mielőtt bármit megtehet, telepítenie kell a JavaScripthez készült Speech SDK-t. Ha csak a csomag nevét szeretné telepíteni, futtassa a parancsot npm install microsoft-cognitiveservices-speech-sdk. Az irányított telepítési utasításokért tekintse meg az SDK telepítési útmutatóját.

Képaláírás létrehozása beszédből

Kövesse az alábbi lépéseket a képaláírás gyorsútmutató-példa létrehozásához és futtatásához.

  1. Másolja a forgatókönyveket/javascript/node/képaláírás ing/mintafájlokat a GitHubról a projektkönyvtárba.

  2. Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a Captioning.js.

  3. Telepítse a JavaScripthez készült Speech SDK-t:

    npm install microsoft-cognitiveservices-speech-sdk
    
  4. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Egy példa:

    node captioning.js --key YourSubscriptionKey --region YourServiceRegion --input caption.this.wav --output caption.output.txt --srt --recognizing --threshold 5 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Cserélje le YourSubscriptionKey a Speech erőforráskulcsot, és cserélje le YourServiceRegion a Speech erőforrásrégiójára, például westus vagy northeurope. Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Feljegyzés

    A JavaScripthez készült Speech SDK nem támogatja a tömörített bemeneti hangot. A példában bemutatott WAV-fájlt kell használnia.

    Fontos

    Ne felejtse el eltávolítani a kulcsot a kódból, amikor elkészült, és soha ne tegye közzé nyilvánosan. Éles környezetben biztonságos módon tárolhatja és érheti el a hitelesítő adatait, például az Azure Key Vaultot. További információkért tekintse meg az Azure AI-szolgáltatások biztonsági cikkét.

Eredmények ellenőrzése

A teljes képaláírás tartalmazó kimeneti fájl írása a következőre történikcaption.output.txt: . Köztes eredmények jelennek meg a konzolon:

00:00:00,180 --> 00:00:01,600
Welcome to

00:00:00,180 --> 00:00:01,820
Welcome to applied

00:00:00,180 --> 00:00:02,420
Welcome to applied mathematics

00:00:00,180 --> 00:00:02,930
Welcome to applied mathematics course

00:00:00,180 --> 00:00:03,100
Welcome to applied Mathematics course 2

00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: node captioning.js --key <key> --region <region> --input <input file>

Csatlakozás lehetőségek a következők:

  • --key: A Speech erőforráskulcsa.
  • --region REGION: A Speech erőforrásrégió. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript-képaláírás mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --languages LANG1,LANG2: Nyelvazonosítás engedélyezése megadott nyelvekhez. Például: en-US,ja-JP Ez a lehetőség csak A C++, C# és Python képaláírás mintákkal érhető el. További információ: Nyelvazonosítás.

A felismerési lehetőségek a következők:

  • --recognizing: Kimeneti Recognizing esemény eredményei. Az alapértelmezett kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: Kimeneti képaláírás a megadott file. Erre a jelölőre van szükség.
  • --srt: Kimeneti képaláírás SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). További információ az SRT-ről és a WebVTT-képaláírás fájlformátumokról: Caption output format.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Referenciadokumentáció csomag (Letöltés) | További minták a GitHubon |

Az Objective-C-hez készült Speech SDK támogatja a beszédfelismerési eredmények lekérését képaláírás, de itt még nem tartalmaztunk útmutatót. Válasszon egy másik programozási nyelvet az első lépésekhez, és ismerje meg a fogalmakat, vagy tekintse meg a cikk elején hivatkozott Objective-C referenciát és mintákat.

Referenciadokumentáció csomag (Letöltés) | További minták a GitHubon |

A SwiftHez készült Speech SDK támogatja a beszédfelismerési eredmények lekérését képaláírás, de itt még nem tartalmaztunk útmutatót. Válasszon egy másik programozási nyelvet az első lépésekhez, és ismerje meg a fogalmakat, vagy tekintse meg a swift-hivatkozást és a cikk elején hivatkozott mintákat.

Referenciadokumentáció-csomag (PyPi) | További minták a GitHubon |

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva képaláírás hozhat létre szövegfelolvasással.

Tipp.

Próbálja ki a Speech Studiót, és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozású képaláírás eredményeinek megtekintéséhez.

Előfeltételek

A környezet beállítása

A PythonHoz készült Speech SDK Python-csomagindex (PyPI) modulként érhető el. A PythonHoz készült Speech SDK kompatibilis a Windows, a Linux és a macOS rendszerrel.

  1. Telepítse a Python 3.10-es vagy újabb verzióját. Először tekintse meg az SDK telepítési útmutatóját a további követelményekkel kapcsolatban
  2. A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Környezeti változók beállítása

Az alkalmazásnak hitelesítenie kell az Azure AI-szolgáltatások erőforrásainak eléréséhez. Éles környezetben használjon biztonságos módot a hitelesítő adatok tárolására és elérésére. Miután például lekérte a Speech-erőforrás kulcsát , írja be egy új környezeti változóba az alkalmazást futtató helyi gépen.

Tipp.

Ne vegye fel közvetlenül a kulcsot a kódba, és soha ne tegye közzé nyilvánosan. További hitelesítési lehetőségeket, például az Azure Key Vaultot az Azure AI-szolgáltatások biztonságában talál.

A Speech erőforráskulcs környezeti változójának beállításához nyisson meg egy konzolablakot, és kövesse az operációs rendszer és a fejlesztési környezet utasításait.

  • A SPEECH_KEY környezeti változó beállításához cserélje le a kulcsot az erőforrás egyik kulcsára.
  • A SPEECH_REGION környezeti változó beállításához cserélje le a régiót az erőforrás egyik régiójára.
setx SPEECH_KEY your-key
setx SPEECH_REGION your-region

Feljegyzés

Ha csak az aktuális konzolon kell hozzáférnie a környezeti változókhoz, a környezeti változót set ahelyett setxállíthatja be.

A környezeti változók hozzáadása után előfordulhat, hogy újra kell indítania a környezeti változó olvasásához szükséges programokat, beleértve a konzolablakot is. Ha például a Visual Studiót használja szerkesztőként, indítsa újra a Visual Studiót a példa futtatása előtt.

Képaláírás létrehozása beszédből

Kövesse az alábbi lépéseket a képaláírás gyorsútmutató-példa létrehozásához és futtatásához.

  1. Töltse le vagy másolja a forgatókönyveket/python/konzol/képaláírás ing/ mintafájlokat a GitHubról egy helyi könyvtárba.
  2. Nyisson meg egy parancssort ugyanabban a könyvtárban, mint a captioning.py.
  3. Futtassa ezt a parancsot a Speech SDK telepítéséhez:
    pip install azure-cognitiveservices-speech
    
  4. Futtassa az alkalmazást az előnyben részesített parancssori argumentumokkal. Tekintse meg a rendelkezésre álló lehetőségek használatát és argumentumait . Íme egy példa:
    python captioning.py --input caption.this.mp4 --format any --output caption.output.txt --srt --realTime --threshold 5 --delay 0 --profanity mask --phrases "Contoso;Jessie;Rehaan"
    

    Fontos

    Győződjön meg arról, hogy a megadott --input és --output érvényes elérési utak érvényesek. Ellenkező esetben módosítania kell az elérési utakat.

    Győződjön meg arról, hogy a fenti módon állítja be a környezeti és SPEECH_REGION a SPEECH_KEY környezeti változókat. Egyéb esetben használja az és --region az --key argumentumokat.

Eredmények ellenőrzése

Ha a fenti példában a realTime lehetőséget használja, az események részleges Recognizing eredményei szerepelnek a kimenetben. Ebben a példában csak az utolsó Recognized esemény tartalmazza a vesszőt. Nem csak a vesszők különböznek egymástól és Recognized az események közöttRecognizing. További információ: Részleges eredmények lekérése.

1
00:00:00,170 --> 00:00:00,380
The

2
00:00:00,380 --> 00:00:01,770
The rainbow

3
00:00:01,770 --> 00:00:02,560
The rainbow has seven

4
00:00:02,560 --> 00:00:03,820
The rainbow has seven colors

5
00:00:03,820 --> 00:00:05,050
The rainbow has seven colors red

6
00:00:05,050 --> 00:00:05,850
The rainbow has seven colors red
orange

7
00:00:05,850 --> 00:00:06,440
The rainbow has seven colors red
orange yellow

8
00:00:06,440 --> 00:00:06,730
The rainbow has seven colors red
orange yellow green

9
00:00:06,730 --> 00:00:07,160
orange, yellow, green, blue,
indigo and Violet.

Ha ezt a --offline lehetőséget használja, az eredmények a végső Recognized eseménytől kezdve stabilak lesznek. A kimenet nem tartalmazza a részleges eredményeket:

1
00:00:00,170 --> 00:00:05,540
The rainbow has seven colors, red,
orange, yellow, green, blue,

2
00:00:05,540 --> 00:00:07,160
indigo and Violet.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff További információ: Felirat kimeneti formátuma.

Használat és argumentumok

Használat: python captioning.py --input <input file>

Csatlakozás lehetőségek a következők:

  • --key: A Speech erőforráskulcsa. Felülbírálja az SP Enterprise kiadás CH_KEY környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --key beállítást.
  • --region REGION: A Speech erőforrásrégió. Felülbírálja az SP Enterprise kiadás CH_REGION környezeti változót. Állítsa be a környezeti változót (ajánlott), vagy használja a --region beállítást. Példák: westus, northeurope

A bemeneti lehetőségek a következők:

  • --input FILE: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon.
  • --format FORMAT: Tömörített hangformátum használata. Csak a --file. Az érvényes értékek a következőkalaw: , flacany, , mp3mulawés ogg_opus. Az alapértelmezett érték any. Fájl használatához wav ne adja meg a formátumot. Ez a beállítás a JavaScript-képaláírás mintával nem érhető el. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.

A nyelvi lehetőségek a következők:

  • --language LANG: Adjon meg egy nyelvet a megfelelő támogatott területi beállítások egyikével. Ez akkor használatos, ha képaláírás sorokba törik. Az alapértelmezett érték en-US.

A felismerési lehetőségek a következők:

  • --offline: Kimenet offline eredmények. Felülbírálások --realTime. Az alapértelmezett kimeneti mód offline állapotú.
  • --realTime: Valós idejű eredmények megjelenítése.

A valós idejű kimenet eseményeredményeket is tartalmaz Recognizing . Az alapértelmezett offline kimenet csak az Recognized eseményeredmények. Ezek mindig a konzolra vannak írva, soha nem kimeneti fájlba. A --quiet beállítás felülírja ezt. További információ: Beszédfelismerési eredmények lekérése.

A pontossági lehetőségek a következők:

A kimeneti lehetőségek a következők:

  • --help: A súgó megjelenítése és leállítása
  • --output FILE: Kimeneti képaláírás a megadott file. Erre a jelölőre van szükség.
  • --srt: Kimeneti képaláírás SRT (SubRip Text) formátumban. Az alapértelmezett formátum a WebVTT (webes videószöveg-sávok). További információ az SRT-ről és a WebVTT-képaláírás fájlformátumokról: Caption output format.
  • --maxLineLength LENGTH: Állítsa be a képaláírás soronkénti karaktereinek maximális számát HOSSZ értékre. A minimum 20. Az alapértelmezett érték 37 (kínai esetén 30).
  • --lines LINES: Állítsa be az képaláírás sorainak számát SOROK értékre. A minimum 1. Az alapértelmezett érték 2.
  • --delay MILLISECONDS: Hány MILLI Standard kiadás KONDS késlelteti az egyes képaláírás megjelenítését valós idejű élmény utánzásához. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. A minimum 0,0. Az alapértelmezett érték 1000.
  • --remainTime MILLISECONDS: Egy képaláírás hány MILLI Standard kiadás CONDS maradjon a képernyőn, ha nem cseréli le egy másik. A minimum 0,0. Az alapértelmezett érték 1000.
  • --quiet: A konzol kimenetének letiltása, a hibák kivételével.
  • --profanity OPTION: Érvényes értékek: nyers, eltávolítás, maszk. További információ: Profanity filter concepts.
  • --threshold NUMBER: Stabil részleges eredmény küszöbértékének beállítása. Az alapértelmezett érték 3. Ez a beállítás csak akkor alkalmazható, ha a jelölőt realTime használja. További információ: Részleges eredményfogalmak lekérése.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Ebben a rövid útmutatóban egy konzolalkalmazást futtatva képaláírás hozhat létre szövegfelolvasással.

Tipp.

Próbálja ki a Speech Studiót, és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozású képaláírás eredményeinek megtekintéséhez.

Előfeltételek

A környezet beállítása

Kövesse ezeket a lépéseket, és tekintse meg a Speech CLI rövid útmutatóját a platform egyéb követelményeiről.

  1. Futtassa a következő .NET CLI-parancsot a Speech CLI telepítéséhez:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    
  2. Futtassa az alábbi parancsokat a Speech-erőforráskulcs és -régió konfigurálásához. Cserélje le SUBSCRIPTION-KEY a Speech erőforráskulcsot, és cserélje le REGION a Speech erőforrásrégiójára.

    spx config @key --set SUBSCRIPTION-KEY
    spx config @region --set REGION
    

A tömörített bemeneti hanghoz telepítenie kell a GStreamert is.

Képaláírás létrehozása beszédből

A Speech CLI-vel az SRT (SubRip Text) és a WebVTT (webes videoszöveg-sávok) képaláírás bármilyen hanganyagot tartalmazó adathordozóról is ki lehet kimenetelni.

Ha egy fájlból szeretne hangot felismerni, és a WebVtt (vtt) és az SRT (srt) képaláírás is ki szeretne adni, kövesse az alábbi lépéseket.

  1. Győződjön meg arról, hogy van egy bemeneti fájl neve caption.this.mp4 az elérési úton.

  2. Futtassa a következő parancsot a videofájlból képaláírás kimenetéhez:

    spx recognize --file caption.this.mp4 --format any --output vtt file - --output srt file - --output each file - @output.each.detailed --property SpeechServiceResponse_StablePartialResultThreshold=5 --profanity masked --phrases "Constoso;Jessie;Rehaan"
    

    Az SRT és a WebVTT képaláírás az itt látható módon kimenetként jelennek meg a konzolon:

    1
    00:00:00,180 --> 00:00:03,230
    Welcome to applied Mathematics course 201.
    WEBVTT
    
    00:00:00.180 --> 00:00:03.230
    Welcome to applied Mathematics course 201.
    {
      "ResultId": "561a0ea00cc14bb09bd294357df3270f",
      "Duration": "00:00:03.0500000"
    }
    

Használat és argumentumok

Az alábbi adatok az előző parancs választható argumentumairól szólnak:

  • --file caption.this.mp4 --format any: Hang bevitele fájlból. Az alapértelmezett bemenet a mikrofon. Tömörített hangfájlok, például MP4 esetén telepítse a GStreamert, és tekintse meg a tömörített bemeneti hang használatát ismertető témakört.
  • --output vtt file -és --output srt file -: A WebVTT és az SRT képaláírás a standard kimenetre. További információ az SRT-ről és a WebVTT-képaláírás fájlformátumokról: Caption output format. Az argumentumról további információt a --output Speech CLI kimeneti beállításaiban talál.
  • @output.each.detailed: Az eseményeredményeket szöveggel, eltolással és időtartammal adja ki. További információ: Beszédfelismerési eredmények lekérése.
  • --property SpeechServiceResponse_StablePartialResultThreshold=5: Kérheti, hogy a Speech szolgáltatás kevesebb Recognizing , pontosabb eseményt adjon vissza. Ebben a példában a Speech szolgáltatásnak legalább ötször meg kell erősítenie egy szó felismerését, mielőtt visszaadja Önnek a részleges eredményeket. További információ: Részleges eredményfogalmak lekérése.
  • --profanity masked: Megadhatja, hogy maszkolja, eltávolítsa vagy megjelenítse-e a profanitást a felismerési eredményekben. További információ: Profanity filter concepts.
  • --phrases "Constoso;Jessie;Rehaan": Megadhatja a felismerni kívánt kifejezések listáját, például Contoso, Jessie és Rehaan. További információ: A felismerés javítása kifejezéslistával.

Az erőforrások eltávolítása

Az Azure Portal vagy az Azure Parancssori felület (CLI) használatával eltávolíthatja a létrehozott Speech-erőforrást.

Következő lépések