Mi az a szövegfelolvasás?

Ebben az áttekintésben megismerheti az Azure Cognitive Services részét képező Speech szolgáltatás szövegfelolvasási funkciójának előnyeit és képességeit.

A szövegfelolvasás lehetővé teszi az alkalmazások, eszközök és eszközök számára, hogy a szöveget emberies szintetizált beszédgé alakítsa. A szövegfelolvasás képességet beszédszintézisnek is nevezik. Használjon emberies, előre összeállított neurális hangokat a dobozból, vagy hozzon létre egy egyéni neurális hangot, amely egyedi a termék vagy a márka számára. A támogatott hangok, nyelvek és területi beállítások teljes listáját a Beszédfelismerési szolgáltatás nyelv- és hangtámogatása című témakörben találja.

Alapvető funkciók

A szövegfelolvasás a következő funkciókat tartalmazza:

Szolgáltatás Összefoglalás Bemutató
Előre összeállított neurális hang (a díjszabási oldalonneurális) Nagyon természetes, beépített hangok. Hozzon létre egy Azure-fiókra és Speech Service-előfizetésre vonatkozó előfizetést, majd használja a Speech SDK-t , vagy keresse fel a Speech Studio portálját , és válassza ki az előre összeállított neurális hangokat az első lépésekhez. Tekintse meg a díjszabás részleteit. Ellenőrizze a Hangtárat , és határozza meg az üzleti igényeinek megfelelő hangot.
Custom Neural Voice (a díjszabási oldalonegyéni neurálisnak hívják) Könnyen használható önkiszolgáló természetes márkahangok létrehozásához, korlátozott hozzáféréssel a felelős használathoz. Hozzon létre egy Azure-fiók- és Speech-szolgáltatás-előfizetést (az S0 szinttel), és alkalmazza az egyéni neurális funkció használatára. Miután megkapta a hozzáférést, látogasson el a Speech Studio portálra , és válassza a Custom Voice lehetőséget az első lépésekhez. Tekintse meg a díjszabás részleteit. Ellenőrizze a hangmintákat.

További információ a neurális szövegfelolvasási funkciókról

Az Azure Speech szolgáltatás szövegfelolvasási funkcióját teljes mértékben frissítették a neurális szövegfelolvasási motorra. Ez a motor mély neurális hálózatokat használ, hogy a számítógépek hangjai szinte megkülönböztethetetlenné legyenek az emberek felvételeiből. A szavak egyértelmű artikulációjával a neurális szövegfelolvasás jelentősen csökkenti a figyelési fáradtságot, amikor a felhasználók AI-rendszerekkel kommunikálnak.

A stressz és az intonáció mintáit a beszélt nyelvben prosodinak nevezik. A hagyományos szövegfelolvasási rendszerek külön nyelvi elemzési és akusztikai előrejelzési lépésekre bontják a produkciót, amelyeket független modellek szabályoznak. Ez megfulladt, nyüzsgő hangszintézist eredményezhet.

Az alábbiakban további információt talál a beszédfelismerési szolgáltatás neurális szövegfelolvasási funkcióiról, valamint arról, hogyan oldják meg a hagyományos szövegfelolvasási rendszerek korlátait:

  • Valós idejű beszédszintézis: A Speech SDK vagy a REST API használatával szövegfelolvasást alakíthat át előre összeállított neurális hangokkal vagy egyéni neurális hangokkal.

  • Hosszú hang aszinkron szintézise: A batch synthesis API (előzetes verzió) használatával aszinkron módon szintetizálhatja a 10 percnél hosszabb szövegfelolvasási fájlokat (például hangoskönyveket vagy előadásokat). A Speech SDK-val vagy a beszédfelismerési REST API-val végzett szintézistől eltérően a válaszok nem valós időben jelennek meg. A várakozások szerint a kérések aszinkron módon lesznek elküldve, a válaszok lekérdezhetők, és a szintetizált hang le lesz töltve, amikor a szolgáltatás elérhetővé teszi őket.

  • Előre összeállított neurális hangok: A Microsoft neurális szövegfelolvasási képessége mély neurális hálózatokat használ a hagyományos beszédszintézis korlátainak leküzdésére a stressz és az intonáció tekintetében a beszélt nyelven. A prosody-előrejelzés és a hangszintézis egyidejűleg történik, ami szívósabb és természetes hangzású kimeneteket eredményez. Minden előre összeállított neurális hangmodell 24kHz-es és 48kHz-es, kiváló minőségű változatban érhető el. A neurális hangokat a következőre használhatja:

    • Természetesebbé és vonzóbbá teheti a csevegőrobotokkal és a hangsegédekkel folytatott interakciókat.
    • Digitális szövegek, például e-könyvek átalakítása hangoskönyvekké.
    • Autós navigációs rendszerek továbbfejlesztése.

    A platform neurális hangjainak teljes listáját a Beszédfelismerési szolgáltatás nyelv- és hangtámogatása című témakörben találja.

  • A szövegfelolvasás kimenetének finomhangolása az SSML használatával: A Beszédszintézis-jelölőnyelv (SSML) egy XML-alapú korrektúranyelv, amely a szövegfelolvasási kimenetek testreszabására szolgál. Az SSML segítségével beállíthatja a hangmagasságot, szüneteltethet, javíthatja a kiejtést, módosíthatja a beszédsebességet, módosíthatja a hangerőt, és több hangot rendelhet egyetlen dokumentumhoz.

    Az SSML használatával saját lexikonokat definiálhat, vagy válthat különböző beszédstílusokra. A többnyelvű hangokkal az SSML-en keresztül is módosíthatja a beszélő nyelveket. A forgatókönyv hangkimenetének finomhangolásához lásd: A szintézis javítása a Beszédszintézis jelölőnyelvvel és a Beszédszintézis a Hangtartalom-létrehozó eszközzel.

  • Visemes: Visemes a legfontosabb pózok a megfigyelt beszéd, beleértve a helyzet az ajkak, állkapocs, és a nyelv előállításában egy adott fokel. A Visemes erős korrelációval rendelkezik a hangokkal és a fonetikusokkal.

    Ha viseme-eseményeket használ a Speech SDK-ban, arcanimációs adatokat hozhat létre. Ezek az adatok arcok animálására használhatók az olvasási kommunikációban, az oktatásban, a szórakozásban és az ügyfélszolgálatban. A Viseme jelenleg csak az en-US (amerikai angol) neurális hangok esetében támogatott.

Megjegyzés

Azt tervezzük, hogy 2024-ben kivonjuk a hagyományos/standard és a nem neurális egyéni hangokat. Ezt követően már nem támogatjuk őket.

Ha alkalmazásai, eszközei vagy termékei a szabványos hangok és az egyéni hangok bármelyikét használják, át kell telepítenie a neurális verzióra. További információ: Migrálás neurális hangokra.

Bevezetés

A szövegfelolvasás használatbavételéhez tekintse meg a rövid útmutatót. A szövegfelolvasás a Speech SDK-val, a REST API-val és a Speech CLI-vel érhető el.

Tipp

Ha kód nélküli megközelítéssel szeretné átalakítani a szövegfelolvasást, próbálja ki a Speech Studióban a Hangtartalom-létrehozás eszközt.

Mintakód

A szövegfelolvasás mintakódja elérhető a GitHubon. Ezek a minták a legnépszerűbb programozási nyelvek szövegfelolvasási konvertálását ismertetik:

Egyéni neurális hang

Az előre összeállított neurális hangok mellett olyan egyéni neurális hangokat is létrehozhat és finomhangolhat, amelyek egyediek a termék vagy a márka számára. Az első lépésekhez mindössze néhány hangfájlra és a kapcsolódó átiratra van szükség. További információ: Ismerkedés a Custom Neural Voice szolgáltatással.

Díjszabási megjegyzés

Számlázható karakterek

A szövegfelolvasási funkció használatakor a rendszer minden beszéddé konvertált karakter után fizetnie kell, beleértve az írásjeleket is. Bár maga az SSML-dokumentum nem számlázható, a szöveg beszéddé alakításához használt választható elemek , például a fonémák és a hangmagasságok számlázható karaktereknek számítanak. Íme egy lista a számlázható díjakról:

  • A kérés SSML-törzsében a szövegfelolvasási funkciónak átadott szöveg
  • A kérelemtörzs szövegmezőjében lévő összes korrektúra SSML formátumban, kivéve a és <voice> a címkét <speak>
  • Betűk, írásjelek, szóközök, tabulátorok, korrektúra és az összes szóköz karakter
  • Unicode-ban definiált összes kódpont

Részletes információkért lásd: A Speech service díjszabása.

Fontos

Minden kínai karakter két karakternek számít a számlázáshoz, beleértve a japánban használt kanjit, a koreaiban használt handzsát vagy a más nyelveken használt hanzit.

Modellbetanítási és üzemeltetési idő az egyéni neurális hanghoz

Az egyéni neurális hang betanítása és üzemeltetése óránkénti és másodpercenkénti számlázással történik. A számlázási egység árának megtekintéséhez tekintse meg a Speech service díjszabását ismertető cikket.

Az egyéni neurális hang (CNV) betanítási idejét a "számítási óra" (a gép futási idejének mérésére használt egység) méri. Hangmodell betanításakor általában két számítási feladat fut párhuzamosan. Így a számított számítási órák hosszabbak lesznek, mint a tényleges betanítási idő. A CNV Lite-hangok betanítása átlagosan kevesebb mint egy számítási órát vesz igénybe; míg a CNV Pro esetében általában 20–40 számítási órát vesz igénybe egy egystílusú hang betanítása, és körülbelül 90 számítási órát a többstílusú hang betanításához. A CNV-betanítási időt 96 számítási óra korláttal kell kiszámlázni. Tehát abban az esetben, ha a hangmodellt 98 számítási óra alatt tanítják be, csak 96 számítási órát kell fizetnie.

Az egyéni neurális hang (CNV) végpontjának üzemeltetését a tényleges idő (óra) méri. Az egyes végpontok üzemeltetési idejét (óraszámát) a rendszer minden nap 00:00 UTC-kor számítja ki az előző 24 órára vonatkozóan. Ha például a végpont az első napon 24 órán át aktív, akkor a második napon 24 órán át lesz kiszámlázva 00:00(UTC) időpontban. Ha a végpont újonnan lett létrehozva, vagy a nap folyamán fel lett függesztve, akkor a rendszer a második nap 00:00-ig (UTC) számítja fel a függőben lévő futási időt. Ha a végpont jelenleg nincs üzemeltetve, a rendszer nem számláz. A napi 00:00 (UTC) időpontban történő számítás mellett a számlázás azonnal aktiválódik a végpont törlése vagy felfüggesztése esetén is. Például egy december 1-jén 08:00 (UTC) időpontban létrehozott végpont esetén a rendszer a szolgáltatási órát december 2-án 00:00-kor( UTC) 16 órára, december 3-án pedig 00:00-kor (UTC) számítja ki. Ha a felhasználó december 3-án 16:30-kor (UTC) felfüggeszti a végpont üzemeltetését, akkor a számlázáshoz az időtartam (16,5 óra) 00:00 és 16:30 (UTC) között lesz kiszámítva.

Referenciadokumentumok

Következő lépések