Mi az a szövegfelolvasás?
Ebben az áttekintésben megismerheti az Azure Cognitive Services részét képező Speech szolgáltatás szövegfelolvasási funkciójának előnyeit és képességeit.
A szövegfelolvasás lehetővé teszi az alkalmazások, eszközök és eszközök számára, hogy a szöveget emberies szintetizált beszédgé alakítsa. A szövegfelolvasás képességet beszédszintézisnek is nevezik. Használjon emberies, előre összeállított neurális hangokat a dobozból, vagy hozzon létre egy egyéni neurális hangot, amely egyedi a termék vagy a márka számára. A támogatott hangok, nyelvek és területi beállítások teljes listáját a Beszédfelismerési szolgáltatás nyelv- és hangtámogatása című témakörben találja.
Alapvető funkciók
A szövegfelolvasás a következő funkciókat tartalmazza:
Szolgáltatás | Összefoglalás | Bemutató |
---|---|---|
Előre összeállított neurális hang (a díjszabási oldalonneurális) | Nagyon természetes, beépített hangok. Hozzon létre egy Azure-fiókra és Speech Service-előfizetésre vonatkozó előfizetést, majd használja a Speech SDK-t , vagy keresse fel a Speech Studio portálját , és válassza ki az előre összeállított neurális hangokat az első lépésekhez. Tekintse meg a díjszabás részleteit. | Ellenőrizze a Hangtárat , és határozza meg az üzleti igényeinek megfelelő hangot. |
Custom Neural Voice (a díjszabási oldalonegyéni neurálisnak hívják) | Könnyen használható önkiszolgáló természetes márkahangok létrehozásához, korlátozott hozzáféréssel a felelős használathoz. Hozzon létre egy Azure-fiók- és Speech-szolgáltatás-előfizetést (az S0 szinttel), és alkalmazza az egyéni neurális funkció használatára. Miután megkapta a hozzáférést, látogasson el a Speech Studio portálra , és válassza a Custom Voice lehetőséget az első lépésekhez. Tekintse meg a díjszabás részleteit. | Ellenőrizze a hangmintákat. |
További információ a neurális szövegfelolvasási funkciókról
Az Azure Speech szolgáltatás szövegfelolvasási funkcióját teljes mértékben frissítették a neurális szövegfelolvasási motorra. Ez a motor mély neurális hálózatokat használ, hogy a számítógépek hangjai szinte megkülönböztethetetlenné legyenek az emberek felvételeiből. A szavak egyértelmű artikulációjával a neurális szövegfelolvasás jelentősen csökkenti a figyelési fáradtságot, amikor a felhasználók AI-rendszerekkel kommunikálnak.
A stressz és az intonáció mintáit a beszélt nyelvben prosodinak nevezik. A hagyományos szövegfelolvasási rendszerek külön nyelvi elemzési és akusztikai előrejelzési lépésekre bontják a produkciót, amelyeket független modellek szabályoznak. Ez megfulladt, nyüzsgő hangszintézist eredményezhet.
Az alábbiakban további információt talál a beszédfelismerési szolgáltatás neurális szövegfelolvasási funkcióiról, valamint arról, hogyan oldják meg a hagyományos szövegfelolvasási rendszerek korlátait:
Valós idejű beszédszintézis: A Speech SDK vagy a REST API használatával szövegfelolvasást alakíthat át előre összeállított neurális hangokkal vagy egyéni neurális hangokkal.
Hosszú hang aszinkron szintézise: A batch synthesis API (előzetes verzió) használatával aszinkron módon szintetizálhatja a 10 percnél hosszabb szövegfelolvasási fájlokat (például hangoskönyveket vagy előadásokat). A Speech SDK-val vagy a beszédfelismerési REST API-val végzett szintézistől eltérően a válaszok nem valós időben jelennek meg. A várakozások szerint a kérések aszinkron módon lesznek elküldve, a válaszok lekérdezhetők, és a szintetizált hang le lesz töltve, amikor a szolgáltatás elérhetővé teszi őket.
Előre összeállított neurális hangok: A Microsoft neurális szövegfelolvasási képessége mély neurális hálózatokat használ a hagyományos beszédszintézis korlátainak leküzdésére a stressz és az intonáció tekintetében a beszélt nyelven. A prosody-előrejelzés és a hangszintézis egyidejűleg történik, ami szívósabb és természetes hangzású kimeneteket eredményez. Minden előre összeállított neurális hangmodell 24kHz-es és 48kHz-es, kiváló minőségű változatban érhető el. A neurális hangokat a következőre használhatja:
- Természetesebbé és vonzóbbá teheti a csevegőrobotokkal és a hangsegédekkel folytatott interakciókat.
- Digitális szövegek, például e-könyvek átalakítása hangoskönyvekké.
- Autós navigációs rendszerek továbbfejlesztése.
A platform neurális hangjainak teljes listáját a Beszédfelismerési szolgáltatás nyelv- és hangtámogatása című témakörben találja.
A szövegfelolvasás kimenetének finomhangolása az SSML használatával: A Beszédszintézis-jelölőnyelv (SSML) egy XML-alapú korrektúranyelv, amely a szövegfelolvasási kimenetek testreszabására szolgál. Az SSML segítségével beállíthatja a hangmagasságot, szüneteltethet, javíthatja a kiejtést, módosíthatja a beszédsebességet, módosíthatja a hangerőt, és több hangot rendelhet egyetlen dokumentumhoz.
Az SSML használatával saját lexikonokat definiálhat, vagy válthat különböző beszédstílusokra. A többnyelvű hangokkal az SSML-en keresztül is módosíthatja a beszélő nyelveket. A forgatókönyv hangkimenetének finomhangolásához lásd: A szintézis javítása a Beszédszintézis jelölőnyelvvel és a Beszédszintézis a Hangtartalom-létrehozó eszközzel.
Visemes: Visemes a legfontosabb pózok a megfigyelt beszéd, beleértve a helyzet az ajkak, állkapocs, és a nyelv előállításában egy adott fokel. A Visemes erős korrelációval rendelkezik a hangokkal és a fonetikusokkal.
Ha viseme-eseményeket használ a Speech SDK-ban, arcanimációs adatokat hozhat létre. Ezek az adatok arcok animálására használhatók az olvasási kommunikációban, az oktatásban, a szórakozásban és az ügyfélszolgálatban. A Viseme jelenleg csak az
en-US
(amerikai angol) neurális hangok esetében támogatott.
Megjegyzés
Azt tervezzük, hogy 2024-ben kivonjuk a hagyományos/standard és a nem neurális egyéni hangokat. Ezt követően már nem támogatjuk őket.
Ha alkalmazásai, eszközei vagy termékei a szabványos hangok és az egyéni hangok bármelyikét használják, át kell telepítenie a neurális verzióra. További információ: Migrálás neurális hangokra.
Bevezetés
A szövegfelolvasás használatbavételéhez tekintse meg a rövid útmutatót. A szövegfelolvasás a Speech SDK-val, a REST API-val és a Speech CLI-vel érhető el.
Tipp
Ha kód nélküli megközelítéssel szeretné átalakítani a szövegfelolvasást, próbálja ki a Speech Studióban a Hangtartalom-létrehozás eszközt.
Mintakód
A szövegfelolvasás mintakódja elérhető a GitHubon. Ezek a minták a legnépszerűbb programozási nyelvek szövegfelolvasási konvertálását ismertetik:
Egyéni neurális hang
Az előre összeállított neurális hangok mellett olyan egyéni neurális hangokat is létrehozhat és finomhangolhat, amelyek egyediek a termék vagy a márka számára. Az első lépésekhez mindössze néhány hangfájlra és a kapcsolódó átiratra van szükség. További információ: Ismerkedés a Custom Neural Voice szolgáltatással.
Díjszabási megjegyzés
Számlázható karakterek
A szövegfelolvasási funkció használatakor a rendszer minden beszéddé konvertált karakter után fizetnie kell, beleértve az írásjeleket is. Bár maga az SSML-dokumentum nem számlázható, a szöveg beszéddé alakításához használt választható elemek , például a fonémák és a hangmagasságok számlázható karaktereknek számítanak. Íme egy lista a számlázható díjakról:
- A kérés SSML-törzsében a szövegfelolvasási funkciónak átadott szöveg
- A kérelemtörzs szövegmezőjében lévő összes korrektúra SSML formátumban, kivéve a és
<voice>
a címkét<speak>
- Betűk, írásjelek, szóközök, tabulátorok, korrektúra és az összes szóköz karakter
- Unicode-ban definiált összes kódpont
Részletes információkért lásd: A Speech service díjszabása.
Fontos
Minden kínai karakter két karakternek számít a számlázáshoz, beleértve a japánban használt kanjit, a koreaiban használt handzsát vagy a más nyelveken használt hanzit.
Modellbetanítási és üzemeltetési idő az egyéni neurális hanghoz
Az egyéni neurális hang betanítása és üzemeltetése óránkénti és másodpercenkénti számlázással történik. A számlázási egység árának megtekintéséhez tekintse meg a Speech service díjszabását ismertető cikket.
Az egyéni neurális hang (CNV) betanítási idejét a "számítási óra" (a gép futási idejének mérésére használt egység) méri. Hangmodell betanításakor általában két számítási feladat fut párhuzamosan. Így a számított számítási órák hosszabbak lesznek, mint a tényleges betanítási idő. A CNV Lite-hangok betanítása átlagosan kevesebb mint egy számítási órát vesz igénybe; míg a CNV Pro esetében általában 20–40 számítási órát vesz igénybe egy egystílusú hang betanítása, és körülbelül 90 számítási órát a többstílusú hang betanításához. A CNV-betanítási időt 96 számítási óra korláttal kell kiszámlázni. Tehát abban az esetben, ha a hangmodellt 98 számítási óra alatt tanítják be, csak 96 számítási órát kell fizetnie.
Az egyéni neurális hang (CNV) végpontjának üzemeltetését a tényleges idő (óra) méri. Az egyes végpontok üzemeltetési idejét (óraszámát) a rendszer minden nap 00:00 UTC-kor számítja ki az előző 24 órára vonatkozóan. Ha például a végpont az első napon 24 órán át aktív, akkor a második napon 24 órán át lesz kiszámlázva 00:00(UTC) időpontban. Ha a végpont újonnan lett létrehozva, vagy a nap folyamán fel lett függesztve, akkor a rendszer a második nap 00:00-ig (UTC) számítja fel a függőben lévő futási időt. Ha a végpont jelenleg nincs üzemeltetve, a rendszer nem számláz. A napi 00:00 (UTC) időpontban történő számítás mellett a számlázás azonnal aktiválódik a végpont törlése vagy felfüggesztése esetén is. Például egy december 1-jén 08:00 (UTC) időpontban létrehozott végpont esetén a rendszer a szolgáltatási órát december 2-án 00:00-kor( UTC) 16 órára, december 3-án pedig 00:00-kor (UTC) számítja ki. Ha a felhasználó december 3-án 16:30-kor (UTC) felfüggeszti a végpont üzemeltetését, akkor a számlázáshoz az időtartam (16,5 óra) 00:00 és 16:30 (UTC) között lesz kiszámítva.