Mi az a szövegfelolvasás?
Az Azure AI Speech szolgáltatás fejlett beszédfelismerési képességeket kínál. Ez a funkció támogatja a valós idejű és a kötegelt átírást is, így sokoldalú megoldásokat kínál a hangstreamek szöveggé alakításához.
Alapvető funkciók
A szövegfelolvasási szolgáltatás a következő alapvető funkciókat kínálja:
- Valós idejű átírás: Azonnali átírás köztes eredményekkel élő hangbemenetekhez.
- Gyors átírás: A leggyorsabb szinkron kimenet kiszámítható késéssel rendelkező helyzetekhez.
- Kötegelt átírás: Nagy mennyiségű előre rögzített hang hatékony feldolgozása.
- Egyéni beszéd: Adott tartományokhoz és feltételekhez nagyobb pontosságú modellek.
Valós idejű szövegfelolvasás
A szöveghez való valós idejű beszéd átírja a mikrofonból vagy fájlból felismert hangot. Ideális olyan alkalmazásokhoz, amelyek azonnali átírást igényelnek, például:
- Átiratok, feliratok vagy feliratok élő értekezletekhez: Valós idejű hangátiratok az akadálymentesség és a rekordmegőrzés érdekében.
- Diarizálás: A hang különböző hangszóróinak azonosítása és megkülönböztetése.
- Kiejtés értékelése: A kiejtés pontosságának kiértékelése és visszajelzése.
- Ügyfélszolgálati ügynökök segítsége: Valós idejű átiratok biztosítása az ügyfélszolgálati képviselők segítéséhez.
- Diktálás: Beszélt szavak átírása írott szöveggé dokumentációs célokra.
- Hangügynökök: Interaktív hangválasz-rendszerek engedélyezése a felhasználói lekérdezések és parancsok átírásához.
A szöveghez való valós idejű beszéd a Speech SDK-val, a Speech CLI-vel és a REST API-val érhető el, lehetővé téve a különböző alkalmazásokba és munkafolyamatokba való integrációt. A valós idejű szövegfelolvasás a Speech SDK-val, a Speech CLI-vel és a REST API-kkal, például a Gyors átírási API-val érhető el.
Gyors átírás (előzetes verzió)
A gyors átírási API-val szinkronizálva és gyorsabban átírhatja a hangfájlokat, és szinkron módon és gyorsabban adja vissza a visszaadott eredményeket, mint a valós idejű hang. Használjon gyors átírást olyan helyzetekben, amikor a lehető leggyorsabban szüksége van egy hangrögzítés átiratára kiszámítható késéssel, például:
- Gyors hang- vagy videoátiratok és feliratok: Gyorsan lekérheti egy teljes videó vagy hangfájl átiratát egyetlen lépésben.
- Videófordítás: Azonnal új feliratokat kaphat egy videóhoz, ha különböző nyelveken van hang.
Feljegyzés
A gyors átírási API csak a 2024-05-15-ös verziójú REST API 2024-05-15-ös és újabb verzióján keresztül érhető el.
A gyors átírás használatának megkezdéséhez tekintse meg a gyors átírási API (előzetes verzió) használatát.
Batch-átírási API
A Batch-átírás a fájlokban tárolt nagy mennyiségű hang átvitelére szolgál. Ez a módszer aszinkron módon dolgozza fel a hangokat, és a következő célokra alkalmas:
- Átiratok, feliratok vagy feliratok előre rögzített hanghoz: Tárolt hangtartalom átalakítása szöveggé.
- Contact center post-call analytics: A rögzített hívások elemzése értékes megállapítások kinyeréséhez.
- Diarizálás: A rögzített hangban lévő hangszórók megkülönböztetése.
A batch-átírás a következő lehetőségeken keresztül érhető el:
Beszéd a szöveghez REST API: Megkönnyíti a kötegelt feldolgozást a RESTful-hívások rugalmasságával. Első lépésként tekintse meg a kötegelt átírás és a Batch átírási mintáinak használatát ismertető cikket.
Beszéd cli: Támogatja a valós idejű és a kötegelt átírást is, így könnyen kezelhetők az átírási feladatok. A Speech CLI kötegelt átírásokkal kapcsolatos súgójához futtassa a következő parancsot:
spx help batch transcription
Egyéni beszéd
Az egyéni beszéd segítségével kiértékelheti és javíthatja az alkalmazások és termékek beszédfelismerésének pontosságát. Egyéni beszédmodell használható valós idejű szövegfelolvasáshoz, beszédfordításhoz és kötegelt átíráshoz.
Tipp.
A Batch átírási API-val való egyéni beszéd használatához nincs szükség üzemeltetett üzembehelyezési végpontra. Ha az egyéni beszédmodellt csak kötegelt átíráshoz használják, az erőforrásokat meg lehet takarékoskodni. További információkért lásd a Speech service díjszabását.
A beszédfelismerés alapmodellként univerzális nyelvi modellt használ, amely a Microsoft tulajdonában lévő adatokkal van betanítve, és a gyakran használt beszélt nyelvet tükrözi. Az alapmodell előre betanított dialektusokkal és fonetikusokkal, amelyek különböző közös tartományokat jelölnek. Beszédfelismerési kérések esetén alapértelmezés szerint az egyes támogatott nyelvekhez tartozó legújabb alapmodellt használja a rendszer. Az alapmodell a legtöbb beszédfelismerési forgatókönyvben jól működik.
Az egyéni beszéd lehetővé teszi, hogy a beszédfelismerési modellt az alkalmazás igényeinek jobban megfeleljen. Ez különösen hasznos lehet a következő esetekben:
- A tartományspecifikus szókincs felismerésének javítása: A modell betanítása a mezőhöz kapcsolódó szöveges adatokkal.
- Pontosság növelése adott hangfeltételek esetén: A modell finomításához használjon hangadatokat referencia-átiratokkal.
További információ az egyéni beszédről: az egyéni beszéd áttekintése és a beszéd a szöveggé REST API dokumentációjában.
A nyelvenkénti testreszabási lehetőségekről és a területi beállításokról a Speech szolgáltatás dokumentációjának nyelvi és hangtámogatási útmutatójában talál további információt.
Használati példák
Íme néhány gyakorlati példa arra, hogyan használhatja az Azure AI beszédet szöveggé:
Használati eset | Eset | Megoldás |
---|---|---|
Élő értekezlet átiratai és feliratai | A virtuális eseményplatformnak valós idejű feliratokat kell biztosítania a webináriumokhoz. | Valós idejű beszédet integrálhat a szövegbe a Speech SDK használatával, hogy a kimondott tartalmat átírhassa az esemény során élőben megjelenített feliratokba. |
Ügyfélszolgálat fejlesztése | A telefonos ügyfélszolgálat az ügyfelek hívásainak valós idejű átiratával szeretné segíteni az ügynököket. | Valós idejű beszéd használata a Speech CLI-vel való szövegezéshez a hívások átírásához, így az ügynökök jobban megérthetik és megválaszolják az ügyfél-lekérdezéseket. |
Videó feliratozása | A videó-üzemeltetési platform gyorsan szeretne feliratokat létrehozni egy videóhoz. | Gyors átírással gyorsan lekérheti a teljes videó feliratkészletét. |
Oktatási eszközök | Az e-learning platform célja, hogy átiratokat biztosítson a videó előadásokhoz. | Kötegelt átírás alkalmazása a beszéden keresztül a szöveges REST API-ra az előre rögzített oktatóvideók feldolgozásához, és szöveges átiratok létrehozása a diákok számára. |
Egészségügyi dokumentáció | Egy egészségügyi szolgáltatónak dokumentálnia kell a betegekkel folytatott konzultációkat. | A diktáláshoz használjon valós idejű beszédet, lehetővé téve az egészségügyi szakemberek számára, hogy felolvassák jegyzeteiket, és azonnal átírhassák őket. Egyéni modell használatával javíthatja az adott orvosi kifejezések felismerését. |
Média és szórakozás | Egy médiavállalat feliratokat szeretne létrehozni a videók nagy archívumához. | Kötegelt átírással tömegesen feldolgozhatja a videofájlokat, és pontos feliratokat hozhat létre az egyes videókhoz. |
Piackutatás | Egy piackutató cégnek elemeznie kell az ügyfelek hangrögzítésekből származó visszajelzéseit. | Kötegelt átírással szöveggé alakíthatja a hangvisszajelzéseket, így könnyebben elemezhetők és kinyerhetők az elemzések. |
Felelős AI
Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.
- Átláthatósági megjegyzés és használati esetek
- Jellemzők és korlátozások
- Integráció és felelősségteljes használat
- Adatok, adatvédelem és biztonság
Kapcsolódó tartalom
- A szövegfelolvasás első lépései
- Kötegelt átírás létrehozása
- Részletes díjszabási információkért látogasson el a Speech service díjszabási oldalára.