Mi az a beszédszöveg?

Ebben az áttekintésben megismerheti az Azure AI-szolgáltatások részét képező Speech szolgáltatás szövegről beszédre funkciójának előnyeit és képességeit.

A szövegfelolvasás lehetővé teszi az alkalmazások, eszközök vagy eszközök számára, hogy a szöveget emberivé, például szintetizált beszédgé alakítják. A szövegfelolvasási képességet beszédszintézisnek is nevezik. Használjon emberi, például előre összeállított neurális hangokat a dobozból, vagy hozzon létre egy egyéni neurális hangot, amely egyedi a termék vagy a márka számára. A támogatott hangok, nyelvek és területi beállítások teljes listájáért tekintse meg a Speech szolgáltatás nyelv- és hangtámogatását.

Alapvető funkciók

A szövegfelolvasás a következő funkciókat tartalmazza:

Funkció Összegzés Bemutató
Előre összeállított neurális hang (a díjszabási oldalon neurális) Nagyon természetes, házon kívüli hangok. Hozzon létre egy Azure-fiókot és a Speech service-előfizetést, majd használja a Speech SDK-t , vagy keresse fel a Speech Studio portálját , és válassza ki az előre összeállított neurális hangokat az első lépésekhez. Tekintse meg a díjszabás részleteit. Ellenőrizze a Hangtárat , és határozza meg az üzleti igényeinek megfelelő hangot.
Egyéni neurális hang (a díjszabási oldalon egyéni neurális) Könnyen használható önkiszolgáló természetes márkahangok létrehozása, korlátozott hozzáféréssel a felelősségteljes használathoz. Hozzon létre egy Azure-fiók- és speechszolgáltatás-előfizetést (az S0 szinttel), és alkalmazza az egyéni neurális funkció használatára. Miután megkapta a hozzáférést, látogasson el a Speech Studio portálra , és válassza az Egyéni hang lehetőséget az első lépésekhez. Tekintse meg a díjszabás részleteit. Ellenőrizze a hangmintákat.

További információ a neurális szövegek beszédfunkcióiról

A szövegfelolvasás mély neurális hálózatokkal teszi a számítógépek hangját szinte megkülönböztethetetlenné az emberek felvételeiből. A szavak egyértelmű artikulációjával a neurális szövegek beszédre történő használata jelentősen csökkenti a figyelési fáradtságot, amikor a felhasználók AI-rendszerekkel kommunikálnak.

A beszélt nyelvben a stressz és az intonáció mintáit prosodiának nevezzük. A hagyományos szövegfelolvasási rendszerek a prosodisztiát különálló nyelvi elemzési és akusztikai előrejelzési lépésekre bontják, amelyeket független modellek szabályoznak. Ez elfojtott, zümmögő hangszintézist eredményezhet.

Az alábbiakban további információt talál a beszédszolgáltatás neurális szövegről beszédfunkcióira vonatkozóan, valamint arról, hogy hogyan oldják meg a hagyományos szöveg és a beszédrendszerek korlátait:

  • Valós idejű beszédszintézis: A Speech SDK vagy a REST API használatával előre összeállított neurális hangokkal vagy egyéni neurális hangokkal konvertálhat szöveget beszédté.

  • A hosszú hang aszinkron szintézise: A batch synthesis API (előzetes verzió) használatával aszinkron módon szintetizálhatja a szöveget a 10 percnél hosszabb beszédfájlokhoz (például hangoskönyvekhez vagy előadásokhoz). A Speech SDK-val vagy a Speech to text REST API-val végzett szintézissel ellentétben a válaszok nem valós időben jelennek meg. Az elvárás az, hogy a kéréseket aszinkron módon küldi el a rendszer, a rendszer lekérdezi a válaszokat, és amikor a szolgáltatás elérhetővé teszi, a rendszer letölti a szintetizált hangot.

  • Előre összeállított neurális hangok: A Microsoft neurális szövegek beszédkészsége mély neurális hálózatokkal oldja fel a hagyományos beszédszintézis korlátait a stressz és az intonáció tekintetében a beszélt nyelven. A prosody előrejelzése és a hangszintézis egyidejűleg történik, ami több folyadék- és természetes hangzású kimenetet eredményez. Minden előre összeállított neurális hangmodell 24 kHz-en és 48 kHz-en érhető el. A neurális hangokat a következőhöz használhatja:

    • A csevegőrobotokkal és a hangsegédekkel folytatott interakciók természetesebbé és vonzóbbá tétele.
    • Digitális szövegek, például e-könyvek átalakítása hangoskönyvekké.
    • Autón belüli navigációs rendszerek továbbfejlesztése.

    A platform neurális hangjainak teljes listájáért tekintse meg a Speech szolgáltatás nyelv- és hangtámogatását.

  • Szöveg finomhangolása beszédkimenetre az SSML-vel: A Beszédszintézis korrektúranyelv (SSML) egy XML-alapú korrektúranyelv, amellyel a szöveg a beszédkimenetekre szabható. Az SSML-vel beállíthatja a hangmagasságot, szüneteltethet, javíthatja a kiejtést, módosíthatja a beszédsebességet, módosíthatja a hangerőt, és több hangot rendelhet egyetlen dokumentumhoz.

    Az SSML használatával saját lexikonokat definiálhat, vagy válthat különböző beszédstílusokra. A többnyelvű hangokkal az SSML-en keresztül is módosíthatja a beszélő nyelveket. A forgatókönyvhöz tartozó hangkimenet finomhangolásához tekintse meg a Beszédszintézis korrektúranyelv és beszédszintézis továbbfejlesztése a Hangtartalom-létrehozás eszközzel című témakört.

  • Visemes: Visemes a legfontosabb pózok a megfigyelt beszéd, beleértve a helyzet az ajkak, állkapocs, és a nyelv előállításában egy adott fonál. A Visemes erős korrelációt mutat a hangokkal és a fonefonokkal.

    A Speech SDK viseme eseményeinek használatával arcanimációs adatokat hozhat létre. Ezek az adatok az arcok animálására használhatók az olvasási kommunikációban, az oktatásban, a szórakozásban és az ügyfélszolgálatban. A Viseme jelenleg csak az en-US (amerikai angol) neurális hangok esetében támogatott.

Feljegyzés

Azt tervezzük, hogy 2024-ben kivonjuk a hagyományos/standard és a nem neurális egyéni hangokat. Ezután már nem támogatjuk őket.

Ha az alkalmazások, eszközök vagy termékek bármelyik szabványos hangot és egyéni hangot használnak, át kell telepítenie a neurális verziót. További információ: Migrálás neurális hangokra.

Első lépések

A szövegfelolvasás első lépéseit a rövid útmutatóban találhatja meg. A beszédhez szükséges szöveg a Speech SDK-val, a REST API-val és a Speech CLI-vel érhető el.

Tipp.

Ha kód nélküli megközelítéssel szeretne szöveget beszédgé alakítani, próbálja ki a Hangtartalom létrehozása eszközt a Speech Studióban.

Mintakód

A szövegfelolvasás mintakódja a GitHubon érhető el. Ezek a minták a legnépszerűbb programozási nyelvek szövegről beszédre konvertálását ismertetik:

Egyéni neurális hang

Az előre összeállított neurális hangok mellett olyan egyéni neurális hangokat is létrehozhat és finomhangolhat, amelyek egyediek a termék vagy a márka számára. Az első lépésekhez mindössze néhány hangfájlra és a kapcsolódó átiratra van szükség. További információ: Ismerkedés az egyéni neurális hanggal.

Díjszabási megjegyzés

Számlázható karakterek

Amikor a szövegfelolvasási funkciót használja, a rendszer minden beszédté konvertált karakter után kiszámláz, beleértve az írásjeleket is. Bár maga az SSML-dokumentum nem számlázható, a szöveg beszédgé alakításához használt választható elemeket, például a hangmagasságot és a hangmagasságot számlázható karaktereknek kell tekinteni. Íme egy lista a számlázható díjakról:

  • A kérés SSML-törzsében a szövegfelolvasási funkciónak átadott szöveg
  • A kérelem törzsének szövegmezőjében lévő összes korrektúra <speak> SSML formátumban, a címkék kivételével <voice>
  • Betűk, írásjelek, szóközök, tabulátorok, korrektúra és minden szóköz karakter
  • Unicode-ban definiált minden kódpont

Részletes információkért lásd a Speech service díjszabását.

Fontos

Minden kínai karakter két karakternek számít a számlázáshoz, beleértve a japánul használt kanjit, a koreai nyelven használt handzsát vagy a más nyelveken használt hanzit.

Modell betanítási és üzemeltetési idő egyéni neurális hanghoz

Az egyéni neurális hangképzést és -üzemeltetést óránként és másodpercenként számlázva számítjuk ki. A számlázási egység árának megtekintéséhez tekintse meg a Speech szolgáltatás díjszabását.

Az egyéni neurális hang (CNV) betanítási idejét a "számítási óra" (a gép futási idejének mérésére használt egység) méri. Hangmodell betanításakor általában két számítási feladat fut párhuzamosan. A számított számítási órák tehát hosszabbak, mint a tényleges betanítási idő. A CNV Lite-hang betanítása átlagosan kevesebb mint egy számítási órát vesz igénybe; míg a CNV Pro esetében általában 20–40 számítási órát vesz igénybe egy egystílusú hang betanítása, a többstílusú hang betanítása pedig körülbelül 90 számítási órát vesz igénybe. A CNV betanítási ideje 96 számítási óra korláttal van kiszámlázva. Tehát abban az esetben, ha egy hangmodellt 98 számítási óra alatt tanít be, csak 96 számítási órát kell fizetnie.

Az egyéni neurális hangvégpont üzemeltetése a tényleges idő (óra) alapján történik. Az egyes végpontok üzemeltetési idejét (óraszámát) az előző 24 órában minden nap 00:00 (UTC) időpontban számítjuk ki. Ha például a végpont az első napon 24 órán keresztül aktív volt, akkor a második napon 24 órán át kell számlázni, UTC 00:00-kor. Ha a végpontot a nap folyamán újonnan hozták létre vagy függesztették fel, akkor a rendszer a második napon 00:00-ig (UTC) számítja fel a halmozott futási időt. Ha a végpont jelenleg nincs üzemeltetve, a számlázás nem történik meg. A naponta 00:00 (UTC) időpontban történő számítás mellett a számlázás azonnal aktiválódik, amikor egy végpontot törölnek vagy felfüggesztenek. Például egy december 1-jén 08:00 (UTC) időpontban létrehozott végpont esetében az üzemeltetési óra 16 órára lesz kiszámítva december 2-án 00:00(UTC), december 3-án pedig 00:00 (UTC) időpontban. Ha a felhasználó december 3-án 16:30 -kor (UTC) felfüggeszti a végpont üzemeltetését, a számlázáshoz az időtartam (16,5 óra) számítható ki 00:00 és 16:30 (UTC) között december 3-án.

Referenciadokumentumok

Felelős AI

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.

Következő lépések