Feliratozás szövegfelolvasással

Cikk
06/13/2024

Ebben az útmutatóban megtudhatja, hogyan hozhat létre feliratokat beszédfelolvasással. A feliratozás a televíziós közvetítés, a webes közvetítés, a film, a videó, az élő esemény vagy más éles környezet hangtartalmának szöveggé alakítása, majd a szöveg képernyőn, monitoron vagy más vizuális megjelenítési rendszeren való megjelenítésének folyamata.

Az alapfogalmak közé tartozik a feliratok szinkronizálása a bemeneti hanggal, a trágár szűrők alkalmazása, a részleges eredmények lekérése, a testreszabások alkalmazása és a többnyelvű forgatókönyvek beszélt nyelveinek azonosítása. Ez az útmutató a beszéd feliratozását ismerteti, de nem tartalmaz beszélőazonosítót vagy hangeffektusokat, például harangok csengetését.

Íme néhány gyakori feliratozási forgatókönyv:

Online tanfolyamok és oktatóvideó
Sportesemények
Hang- és videohívások

A feliratozás használatakor az alábbi szempontokat érdemes figyelembe venni:

Tájékoztassa a közönséget, hogy a feliratokat egy automatizált szolgáltatás hozza létre.
Feliratokat vízszintesen, nagy és jól látható betűtípussal középre igazítva.
Fontolja meg, hogy használjon-e részleges eredményeket, mikor kezdjen el feliratokat megjeleníteni, és hány szót jelenítsen meg egyszerre.
Ismerje meg az olyan feliratozási protokollokat, mint az SMPTE-TT.
Fontolja meg az olyan kimeneti formátumokat, mint az SRT (SubRip Text) és a WebVTT (webes videószöveg-sávok). Ezek betölthetők a legtöbb video lejátszóra, például a VLC-be, és automatikusan hozzáadják a feliratokat a videóhoz.

Tipp.

Próbálja ki a Speech Studiót , és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozott feliratozási eredmények megtekintéséhez.

Próbálja ki az Azure AI Video Indexert , amely bemutatja, hogyan kaphat feliratokat a feltöltött videókhoz.

A feliratozás valós idejű vagy előre rögzített beszédet is tartalmazhat. Akár valós időben, akár felvétellel jeleníti meg a feliratokat, a Speech SDK-val vagy a Speech CLI-vel felismerheti a beszédet, és átiratokat kérhet le. Az előre rögzített videókhoz a Batch átírási API-t is használhatja.

Felirat kimeneti formátuma

A Speech szolgáltatás támogatja az olyan kimeneti formátumokat, mint az SRT (SubRip Text) és a WebVTT (webes videószöveg-sávok). Ezek betölthetők a legtöbb video lejátszóra, például a VLC-be, és automatikusan hozzáadják a feliratokat a videóhoz.

Tipp.

A Speech szolgáltatás profanitásszűrő lehetőségeket biztosít. Megadhatja, hogy maszkolást, eltávolítást vagy trágárságot jelenítsen meg.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff

1
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

A WebVTT (webvideószöveg-sávok) időbélyegének kimeneti formátuma a következő hh:mm:ss.fff: .

WEBVTT

00:00:00.180 --> 00:00:03.230
Welcome to applied Mathematics course 201.
{
  "ResultId": "8e89437b4b9349088a933f8db4ccc263",
  "Duration": "00:00:03.0500000"
}

Hang bevitele a Speech szolgáltatásba

Valós idejű feliratozáshoz használjon mikrofont vagy hangbemeneti streamet fájlbemenet helyett. A mikrofonból származó beszéd felismerésére példaként tekintse meg a Beszéd szöveggé rövid útmutatót és a Beszédfelismerés dokumentációját. A streamelésről további információt a hangbemeneti stream használata című témakörben talál.

Az előre felvett adatok feliratozásához küldjön fájlbemenetet a Speech szolgáltatásnak. További információ: A tömörített bemeneti hang használata.

Felirat- és beszédszinkronizálás

Szinkronizálni szeretné a feliratokat a hangsávmal, akár valós időben, akár előre rögzített szöveggel.

A Speech szolgáltatás a felismert beszéd eltolását és időtartamát adja vissza.

Eltolás: Az eltolás a felismert hangstreambe, időtartamként kifejezve. Az eltolást az SDK által feldolgozott első hang bájthoz tartozó (nulla) osztásjelekkel 0 kell mérni. Az eltolás például a felismerés megkezdésekor kezdődik, mivel az SDK ekkor kezdi el a hangstream feldolgozását. Egy pipa száz nanoszekundumot vagy egy tizedmásodpercet jelöl.
Időtartam: A felismert kimondott szöveg időtartama. A kullancsok időtartama nem tartalmazza a záró vagy a vezető csendet.

További információ: Beszédfelismerési eredmények lekérése.

Részleges eredmények lekérése

Fontolja meg, hogy mikor kezdjen el feliratokat megjeleníteni, és hogy egyszerre hány szót jelenítsen meg. A beszédfelismerési eredmények változhatnak, miközben a kimondott szöveg továbbra is felismerhető. A rendszer az egyes Recognizing eseményekkel részleges eredményeket ad vissza. Az egyes szavak feldolgozása során a Speech szolgáltatás újra kiértékel egy kimondott szöveget az új környezetben, és ismét a legjobb eredményt adja vissza. Az új eredmény nem garantáltan megegyezik az előző eredményével. Egy kimondott szöveg teljes és végleges átirata az eseményhez lesz Recognized visszaadva.

Feljegyzés

A részleges eredmények írásjele nem érhető el.

Az előre felvett beszéd feliratozásához, vagy ha a késés nem okoz problémát, megvárhatja az egyes kimondott szövegek teljes átiratát, mielőtt bármilyen szót megjelenítenének. Figyelembe véve az egyes szavak végső eltolását és időtartamát egy kimondott szövegben, tudja, mikor jelenjenek meg a következő szavak a hangsávban.

A valós idejű feliratozás kompromisszumot jelent a késés és a pontosság tekintetében. Az egyes Recognizing események szövegét a lehető leghamarabb megjelenítheti. Ha azonban el tud fogadni némi késést, javíthatja a felirat pontosságát az esemény szövegének Recognized megjelenítésével. Van egy középső terület is, amelyet "stabil részleges eredményeknek" neveznek.

Kérheti, hogy a Speech szolgáltatás kevesebb Recognizing , pontosabb eseményt adjon vissza. Ez úgy történik, hogy a SpeechServiceResponse_StablePartialResultThreshold tulajdonságot egy és egy közötti 21474836470 értékre állítja be. A beállított érték az a szám, amikor egy szót fel kell ismerni, mielőtt a Speech szolgáltatás eseményt Recognizing ad vissza. Ha például a SpeechServiceResponse_StablePartialResultThreshold tulajdonság értékét 5állítja be, a Speech szolgáltatás legalább ötször megerősíti egy szó felismerését, mielőtt a részleges eredményeket egy Recognizing eseménysel visszaadja Önnek.

speechConfig.SetProperty(PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig->SetProperty(PropertyId::SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig.SetProperty(common.SpeechServiceResponseStablePartialResultThreshold, 5)

speechConfig.setProperty(PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig.setProperty(sdk.PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

[self.speechConfig setPropertyTo:5 byId:SPXSpeechServiceResponseStablePartialResultThreshold];

self.speechConfig!.setPropertyTo(5, by: SPXPropertyId.speechServiceResponseStablePartialResultThreshold)

speech_config.set_property(property_id = speechsdk.PropertyId.SpeechServiceResponse_StablePartialResultThreshold, value = 5)

spx recognize --file caption.this.mp4 --format any --property SpeechServiceResponse_StablePartialResultThreshold=5 --output vtt file - --output srt file -

A stabilabb részleges eredmények kérése csökkenti a "villódzást" vagy a szöveg módosítását, de növelheti a késést, amikor nagyobb megbízhatósági eredményekre vár.

Példa stabil részleges küszöbértékre

A következő, stabil részleges küszöbérték beállítása nélküli felismerési sorozatban a "matematika" szóként van felismerve, de a végső szöveg a "matematika". Egy másik ponton a "2. kurzus" felismerhető, de a végső szöveg a "course 201".

RECOGNIZING: Text=welcome to
RECOGNIZING: Text=welcome to applied math
RECOGNIZING: Text=welcome to applied mathematics
RECOGNIZING: Text=welcome to applied mathematics course 2
RECOGNIZING: Text=welcome to applied mathematics course 201
RECOGNIZED: Text=Welcome to applied Mathematics course 201.

Az előző példában az átiratok additívak voltak, és nem vontak vissza szöveget. Máskor azonban előfordulhat, hogy a részleges eredmények pontatlanok voltak. Mindkét esetben az instabil részleges eredmények "villódzásnak" tekinthetők a megjelenítéskor.

Ebben a példában, ha a stabil részleges eredmény küszöbértéke értékre 5van állítva, a rendszer nem módosítja vagy nem vonja vissza a szavakat.

RECOGNIZING: Text=welcome to
RECOGNIZING: Text=welcome to applied
RECOGNIZING: Text=welcome to applied mathematics
RECOGNIZED: Text=Welcome to applied Mathematics course 201.

Nyelvi azonosítás

Ha a hangnyelv megváltozhat, használjon folyamatos nyelvazonosítást. A nyelvi azonosítás a hangban beszélt nyelvek azonosítására szolgál a támogatott nyelvek listájával összehasonlítva. Legfeljebb 10 nyelvet kell megadnia, amelyek közül legalább egy a hanganyagban várható. A Speech szolgáltatás a hang legvalószínűbb nyelvét adja vissza.

Testreszabások a pontosság javítása érdekében

A kifejezéslista azoknak a szavaknak vagy kifejezéseknek a listája, amelyeket közvetlenül a beszédfelismerés megkezdése előtt ad meg. Ha egy kifejezést hozzáad egy kifejezéslistához, az növeli annak fontosságát, így nagyobb valószínűséggel lesz felismerve.

Példák a kifejezésekre:

Nevek
Földrajzi helyek
Azonos alakú szavak
Az iparág vagy a szervezet számára egyedi szavak vagy mozaikszavak

Vannak olyan helyzetek, amikor az egyéni modellek betanítása valószínűleg a legjobb megoldás a pontosság javítására. Ha például fogszabályozási előadásokat feliratozott, érdemes lehet betaníteni egy egyéni modellt a megfelelő tartományadatokkal.

Megosztás a következőn keresztül: