Mi az a szövegfelolvasás?

Ebben az áttekintésben megismerheti az Azure AI-szolgáltatások részét képező Speech szolgáltatás beszéd-szöveg funkciójának előnyeit és képességeit. A beszédszöveg használható a hangstreamek valós idejű vagy kötegelt átírására szöveggé.

A szövegnyelvek számára elérhető beszéd teljes listájáért lásd : Nyelv és hangtámogatás.

Valós idejű szövegfelolvasás

Valós idejű szövegfelolvasás esetén a hang át lesz írva, mivel a beszéd felismerhető egy mikrofonból vagy fájlból. Valós idejű beszéd használata olyan alkalmazások szövegéhez, amelyeknek valós időben kell átírni a hangokat, például:

A Beszéd SDK és a Speech CLI segítségével valós idejű szövegfelolvasás érhető el.

Kötegelt átírás

A batch-átírás nagy mennyiségű hang átírására szolgál a tárolóban. A hangfájlokra egy közös hozzáférésű jogosultságkód (SAS) URI-jával mutathat rá, és aszinkron módon megkaphatja az átírás eredményét. Használjon kötegelt átírást olyan alkalmazásokhoz, amelyeknek tömegesen kell átírni a hangokat, például:

  • Átiratok, képaláírás vagy feliratok előre rögzített hanghoz
  • Contact center post-call analytics
  • Diarizáció

A batch-átírás a következő lehetőségeken keresztül érhető el:

Egyéni beszéd

Az egyéni beszéd segítségével kiértékelheti és javíthatja az alkalmazások és termékek beszédfelismerésének pontosságát. Egyéni beszédmodell használható valós idejű szövegfelolvasáshoz, beszédfordításhoz és kötegelt átíráshoz.

Tipp.

A Batch átírási API-val való egyéni beszéd használatához nincs szükség üzemeltetett üzembehelyezési végpontra. Ha az egyéni beszédmodellt csak kötegelt átíráshoz használják, az erőforrásokat meg lehet takarékoskodni. További információkért lásd a Speech service díjszabását.

A beszédfelismerés alapmodellként univerzális nyelvi modellt használ, amely a Microsoft tulajdonában lévő adatokkal van betanítve, és a gyakran használt beszélt nyelvet tükrözi. Az alapmodell előre betanított dialektusokkal és fonetikusokkal, amelyek különböző közös tartományokat jelölnek. Beszédfelismerési kérések esetén alapértelmezés szerint az egyes támogatott nyelvekhez tartozó legújabb alapmodellt használja a rendszer. Az alapmodell a legtöbb beszédfelismerési forgatókönyvben jól működik.

Az egyéni modell az alapmodell kiegészítésére használható az alkalmazásra jellemző tartományspecifikus szókincsek felismerésének javítására a modell betanításához szükséges szöveges adatok biztosításával. Az alkalmazás adott hangfeltételei alapján a felismerés javítására is használható, ha referencia-átiratokat ad meg a hangadatoknak. További információ: custom speech and Speech to text REST API.

A testreszabási beállítások nyelvtől vagy területi beállítástól függően változnak. A támogatás ellenőrzéséhez tekintse meg a Speech szolgáltatás nyelv- és hangtámogatását.

Felelős AI

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.

Következő lépések