Mi az a szövegfelolvasás?

2025-03-10

Az Azure AI Speech szolgáltatás fejlett beszédfelismerési képességeket kínál. Ez a funkció támogatja a valós idejű és a kötegelt átírást is, így sokoldalú megoldásokat kínál a hangstreamek szöveggé alakításához.

Alapvető funkciók

A szövegfelolvasási szolgáltatás a következő alapvető funkciókat kínálja:

Valós idejű átírás: Azonnali átírás köztes eredményekkel élő hangbemenetekhez.
Gyors átírás: A leggyorsabb szinkron kimenet kiszámítható késéssel rendelkező helyzetekhez.
Kötegelt átírás: Nagy mennyiségű előre rögzített hang hatékony feldolgozása.
Egyéni beszéd: Adott tartományokhoz és feltételekhez nagyobb pontosságú modellek.

Valós idejű szövegfelolvasás

A szöveghez való valós idejű beszéd átírja a mikrofonból vagy fájlból felismert hangot. Ideális olyan alkalmazásokhoz, amelyek azonnali átírást igényelnek, például:

Átiratok, feliratok vagy feliratok élő értekezletekhez: Valós idejű hangátiratok az akadálymentesség és a rekordmegőrzés érdekében.
Diarizálás: A hang különböző hangszóróinak azonosítása és megkülönböztetése.
Kiejtés értékelése: A kiejtés pontosságának kiértékelése és visszajelzése.
Ügyfélszolgálati ügynökök segítsége: Valós idejű átiratok biztosítása az ügyfélszolgálati képviselők segítéséhez.
Diktálás: Beszélt szavak átírása írott szöveggé dokumentációs célokra.
Hangügynökök: Interaktív hangválasz-rendszerek engedélyezése a felhasználói lekérdezések és parancsok átírásához.

A szöveghez való valós idejű beszéd a Speech SDK-val, a Speech CLI-vel és a REST API-val érhető el, lehetővé téve a különböző alkalmazásokba és munkafolyamatokba való integrációt. A Beszéd SDK, a Speech CLI és a Speech to text REST API segítségével valós idejű szövegfelolvasás érhető el a rövid hang érdekében.

Gyors átírás

A gyors átírási API-val szinkronizálva és gyorsabban átírhatja a hangfájlokat, és szinkron módon és gyorsabban adja vissza a visszaadott eredményeket, mint a valós idejű hang. Használjon gyors átírást olyan helyzetekben, amikor a lehető leggyorsabban szüksége van egy hangrögzítés átiratára kiszámítható késéssel, például:

Gyors hang- vagy videoátiratok és feliratok: Gyorsan lekérheti egy teljes videó vagy hangfájl átiratát egyetlen lépésben.
Videófordítás: Azonnal új feliratokat kaphat egy videóhoz, ha különböző nyelveken van hang.

A gyors átírás használatának megkezdéséhez tekintse meg a gyors átírási API-t.

Batch-átírási API

A Batch-átírás a fájlokban tárolt nagy mennyiségű hang átvitelére szolgál. Ez a módszer aszinkron módon dolgozza fel a hangokat, és a következő célokra alkalmas:

Átiratok, feliratok vagy feliratok előre rögzített hanghoz: Tárolt hangtartalom átalakítása szöveggé.
Contact center post-call analytics: A rögzített hívások elemzése értékes megállapítások kinyeréséhez.
Diarizálás: A rögzített hangban lévő hangszórók megkülönböztetése.

A batch-átírás a következő lehetőségeken keresztül érhető el:

Beszéd a szöveghez REST API: Megkönnyíti a kötegelt feldolgozást a RESTful-hívások rugalmasságával. Első lépésként tekintse meg a kötegelt átírás és a Batch átírási mintáinak használatát ismertető cikket .
Beszéd cli: Támogatja a valós idejű és a kötegelt átírást is, így könnyen kezelhetők az átírási feladatok. A Speech CLI kötegelt átírásokkal kapcsolatos súgójához futtassa a következő parancsot:
```
spx help batch transcription
```

Egyéni beszéd

Az egyéni beszéd segítségével kiértékelheti és javíthatja az alkalmazások és termékek beszédfelismerésének pontosságát. Egyéni beszédmodell használható valós idejű szövegfelolvasáshoz, beszédfordításhoz és kötegelt átíráshoz.

Tipp.

A Batch átírási API-val való egyéni beszéd használatához nincs szükség üzemeltetett üzembehelyezési végpontra. Ha az egyéni beszédmodellt csak kötegelt átíráshoz használják, az erőforrásokat meg lehet takarékoskodni. További információkért lásd a Speech service díjszabását.

A beszédfelismerés alapmodellként univerzális nyelvi modellt használ, amely a Microsoft tulajdonában lévő adatokkal van betanítve, és a gyakran használt beszélt nyelvet tükrözi. Az alapmodell előre betanított dialektusokkal és fonetikusokkal, amelyek különböző közös tartományokat jelölnek. Beszédfelismerési kérések esetén alapértelmezés szerint az egyes támogatott nyelvekhez tartozó legújabb alapmodellt használja a rendszer. Az alapmodell a legtöbb beszédfelismerési forgatókönyvben jól működik.

Az egyéni beszéd lehetővé teszi, hogy a beszédfelismerési modellt az alkalmazás igényeinek jobban megfeleljen. Ez különösen hasznos lehet a következő esetekben:

A tartományspecifikus szókincs felismerésének javítása: A modell betanítása a mezőhöz kapcsolódó szöveges adatokkal.
Pontosság növelése adott hangfeltételek esetén: A modell finomításához használjon hangadatokat referencia-átiratokkal.

További információ az egyéni beszédről: az egyéni beszéd áttekintése és a beszéd a szöveggé REST API dokumentációjában.

A nyelvenkénti testreszabási lehetőségekről és a területi beállításokról a Speech szolgáltatás dokumentációjának nyelvi és hangtámogatási útmutatójában talál további információt.

Használati példák

Íme néhány gyakorlati példa arra, hogyan használhatja az Azure AI beszédet szöveggé:

Használati eset	Eset	Megoldás
Élő értekezlet átiratai és feliratai	A virtuális eseményplatformnak valós idejű feliratokat kell biztosítania a webináriumokhoz.	Valós idejű beszédet integrálhat a szövegbe a Speech SDK használatával, hogy a kimondott tartalmat átírhassa az esemény során élőben megjelenített feliratokba.
Ügyfélszolgálat fejlesztése	A telefonos ügyfélszolgálat az ügyfelek hívásainak valós idejű átiratával szeretné segíteni az ügynököket.	Valós idejű beszéd használata a Speech CLI-vel való szövegezéshez a hívások átírásához, így az ügynökök jobban megérthetik és megválaszolják az ügyfél-lekérdezéseket.
Videó feliratozása	A videó-üzemeltetési platform gyorsan szeretne feliratokat létrehozni egy videóhoz.	Gyors átírással gyorsan lekérheti a teljes videó feliratkészletét.
Oktatási eszközök	Az e-learning platform célja, hogy átiratokat biztosítson a videó előadásokhoz.	Kötegelt átírás alkalmazása a beszéden keresztül a szöveges REST API-ra az előre rögzített oktatóvideók feldolgozásához, és szöveges átiratok létrehozása a diákok számára.
Egészségügyi dokumentáció	Egy egészségügyi szolgáltatónak dokumentálnia kell a betegekkel folytatott konzultációkat.	A diktáláshoz használjon valós idejű beszédet, lehetővé téve az egészségügyi szakemberek számára, hogy felolvassák jegyzeteiket, és azonnal átírhassák őket. Egyéni modell használatával javíthatja az adott orvosi kifejezések felismerését.
Média és szórakozás	Egy médiavállalat feliratokat szeretne létrehozni a videók nagy archívumához.	Kötegelt átírással tömegesen feldolgozhatja a videofájlokat, és pontos feliratokat hozhat létre az egyes videókhoz.
Piackutatás	Egy piackutató cégnek elemeznie kell az ügyfelek hangrögzítésekből származó visszajelzéseit.	Kötegelt átírással szöveggé alakíthatja a hangvisszajelzéseket, így könnyebben elemezhetők és kinyerhetők az elemzések.

Felelős AI

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.

A szövegfelolvasás első lépései
Kötegelt átírás létrehozása
Részletes díjszabási információkért látogasson el a Speech service díjszabási oldalára.

Megosztás a következőn keresztül: