Beszédszintézis a Hangtartalom létrehozása eszközzel

Cikk
01/18/2024

A Speech Studio for Text hangtartalom-létrehozási eszközével kód írása nélkül is beszédszintézist végezhet. Használhatja a kimeneti hangokat, vagy kiindulási pontként a további testreszabáshoz.

Rendkívül természetes hangtartalmakat hozhat létre különböző forgatókönyvekhez, például hangoskönyvekhez, hírközvetítésekhez, videobeszélgetésekhez és csevegőrobotokhoz. A hangtartalmak létrehozásával hatékonyan finomhangolhatja a szöveget a beszédhangokhoz, és testre szabott hangélményeket tervezhet.

Az eszköz a beszédszintézis korrektúranyelvén (SSML) alapul. Lehetővé teszi a szövegnek a beszédkimeneti attribútumokhoz való igazítását valós idejű vagy kötegszintézisben, például hangkarakterekben, hangstílusokban, beszédsebességben, kiejtésben és proszódiában.

Kód nélküli megközelítés: A Szöveg hangtartalom-létrehozási eszközével kód írása nélkül is beszédszintézist végezhet. Lehetséges, hogy a kimeneti hang lesz a végső termék, amelyet szeretne. Használhatja például a kimeneti hanganyagot podcasthoz vagy videó kísérőszöveghez.
Fejlesztőbarát: Meghallgathatja a kimeneti hangot, és módosíthatja az SSML-t a beszédszintézis javítása érdekében. Ezután a Speech SDK-val vagy a Speech CLI-vel integrálhatja az SSML-t az alkalmazásokba. Használhatja például az SSML-t egy csevegőrobot létrehozásához.

Könnyen hozzáférhet a nyelvek és hangok széles választékához. Ezek a hangok a legkorszerűbb, előre összeállított neurális hangokat és az egyéni neurális hangokat is tartalmazzák, ha készített egyet.

További információért tekintse meg a Hangtartalom létrehozása oktatóvideóját a YouTube-on.

Első lépések

A Speech Studióban a Hangtartalom létrehozása eszköz ingyenesen elérhető, de a Speech szolgáltatás használatáért fizetnie kell. Az eszköz használatához be kell jelentkeznie egy Azure-fiókkal, és létre kell hoznia egy Speech-erőforrást. Minden Azure-fiókhoz ingyenes havi beszédkvóták tartoznak, amelyek 0,5 millió karaktert tartalmaznak az előre összeállított neurális hangokhoz (a díjszabási oldalon neurálisnak nevezik). A havi allokált összeg általában elegendő egy 3-5 fős kis tartalomcsapat számára.

A következő szakaszok azt ismertetik, hogyan hozhat létre Azure-fiókot, és hogyan szerezhet be Speech-erőforrást.

1. lépés: Azure-fiók létrehozása

A hangtartalmak létrehozásához Microsoft-fiókra és Azure-fiókra van szükség.

Az Azure Portal a központosított hely az Azure-fiók kezeléséhez. Létrehozhatja a Speech-erőforrást, kezelheti a termékhozzáférést, és mindent figyelhet az egyszerű webalkalmazásoktól az összetett felhőbeli üzemelő példányokig.

2. lépés: Beszéderőforrás létrehozása

Miután regisztrál az Azure-fiókra, létre kell hoznia egy Speech-erőforrást az Azure-fiókjában a Speech-szolgáltatások eléréséhez. Speech-erőforrás létrehozása az Azure Portalon. További információ: Többszolgáltatásos erőforrás létrehozása.

Az új Speech-erőforrás üzembe helyezése néhány percet vesz igénybe. Az üzembe helyezés befejezése után megkezdheti a Hangtartalom létrehozása eszközt.

Feljegyzés

Ha neurális hangokat szeretne használni, győződjön meg arról, hogy az erőforrást olyan régióban hozza létre, amely támogatja a neurális hangokat.

Miután beszerezte az Azure-fiókot és a Speech-erőforrást, jelentkezzen be a Speech Studióba, majd válassza a Hangtartalom létrehozása lehetőséget.
Válassza ki az Azure-előfizetést és a használni kívánt Speech-erőforrást, majd válassza az Erőforrás használata lehetőséget.

Amikor legközelebb bejelentkezik a Hangtartalom létrehozása szolgáltatásba, közvetlenül az aktuális Speech-erőforrásban lévő hangmunkafájlokhoz lesz csatolva. Az Azure-előfizetés adatait és állapotát az Azure Portalon ellenőrizheti.

Ha nem rendelkezik elérhető Speech-erőforrással, és Ön egy Azure-előfizetés tulajdonosa vagy rendszergazdája, létrehozhat egy Speech-erőforrást a Speech Studióban az Új erőforrás létrehozása lehetőséget választva.

Ha rendelkezik felhasználói szerepkörrel egy bizonyos Azure-előfizetéshez, előfordulhat, hogy nincs engedélye új Speech-erőforrás létrehozására. A hozzáférésért forduljon a rendszergazdához.

Ha bármikor át szeretné váltani a Speech-erőforrást, válassza a lap tetején található Gépház.

A címtárak közötti váltáshoz válassza Gépház vagy nyissa meg a profilját.

Az eszköz használata

Az alábbi diagram a szöveg beszédkimenetekre való finomhangolásának folyamatát mutatja be.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Az előző diagram minden lépését itt ismertetjük:

Válassza ki a használni kívánt Speech-erőforrást.
Hanghangoló fájl létrehozása egyszerű szöveg vagy SSML-szkriptek használatával. Adja meg vagy töltse fel a tartalmat a hangtartalmak létrehozására.
Válassza ki a szkript tartalmának hangját és nyelvét. A hangtartalmak létrehozása magában foglalja az összes előre összeállított szöveget a beszédhangokhoz. Használhat előre összeállított neurális hangokat vagy egyéni neurális hangokat.

Feljegyzés

A kapus hozzáférés egyéni neurális hanghoz érhető el, amely lehetővé teszi a természetes hangzású beszédhez hasonló nagy felbontású hangok létrehozását. További információ: Gating process.
Jelölje ki a megtekinteni kívánt tartalmat, majd válassza a Lejátszás (háromszög ikon) lehetőséget az alapértelmezett szintéziskimenet előnézetének megtekintéséhez.

Ha módosítja a szöveget, válassza a Leállítás ikont, majd válassza újra a Lejátszás lehetőséget a hang újragenerálásához a módosított szkriptekkel.

Javítsa a kimenetet a kiejtés, a törés, a hangmagasság, a sebesség, az intonáció, a hangstílus stb. beállításával. A lehetőségek teljes listáját a Beszédszintézis korrektúranyelv című témakörben találja.

A beszédkimenet finomhangolásával kapcsolatos további információkért tekintse meg a Szöveg beszédgé alakítása a Microsoft Azure AI voices videóval című témakört .
Mentse és exportálja a hangfájlt.

Amikor menti a hangolási pályát a rendszerben, folytathatja a munkát, és iterálhat a kimeneten. Ha elégedett a kimenettel, létrehozhat egy hanglétrehozási feladatot az exportálási funkcióval. Megfigyelheti az exportálási feladat állapotát, és letöltheti a kimenetet az alkalmazásokkal és termékekkel való használatra.

Hanghangoló fájl létrehozása

A tartalmat kétféleképpen szerezheti be a Hangtartalom létrehozása eszközbe:

1\. lehetőség
1. Új hanghangoló fájl létrehozásához válassza az Új>szöveg fájlt.
2. Írja be vagy illessze be a tartalmat a szerkesztőablakba. Az egyes fájlokban megengedett karakterek száma 20 000 vagy kevesebb. Ha a szkript 20 000 karakternél több karaktert tartalmaz, a 2. lehetőséggel automatikusan feloszthatja a tartalmat több fájlra.
3. Válassza a Mentés lehetőséget.

2\. lehetőség

Válassza a Szöveg feltöltése>lehetőséget egy vagy több szövegfájl importálásához. Az egyszerű szöveg és az SSML is támogatott.

Ha a szkriptfájl több mint 20 000 karakterből áll, ossza fel a tartalmat bekezdések, karakterek vagy reguláris kifejezések szerint.

A szövegfájlok feltöltésekor győződjön meg arról, hogy megfelelnek az alábbi követelményeknek:

Tulajdonság	Leírás
Fájlformátum	Egyszerű szöveg (.txt)* SSML-szöveg (.txt)** A zip-fájlok nem támogatottak.
Kódolási formátum	UTF-8
Fájlnév	Minden fájlnak egyedi névvel kell rendelkeznie. A duplikált fájlok nem támogatottak.
Szöveg hossza	A karakterkorlát 20 000. Ha a fájlok túllépik a korlátot, ossza fel őket az eszköz utasításainak megfelelően.
SSML-korlátozások	Minden SSML-fájl csak egyetlen SSML-fájlt tartalmazhat.

* Egyszerű szöveges példa:

Welcome to use Audio Content Creation to customize audio output for your products.

** Példa SSML-szövegre:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Hangolt hang exportálása

Miután áttekinti a hangkimenetet, és elégedett a hangolással és a beállítással, exportálhatja a hangot.

Hanglétrehozási feladat létrehozásához válassza az Exportálás lehetőséget.

Javasoljuk , hogy az Exportálás hangtárba funkcióval egyszerűen tárolhassa, keresse meg és keresse meg a hangkimenetet a felhőben. Az Azure Blob Storage használatával jobban integrálhatja az alkalmazásokat. A hangot közvetlenül a helyi lemezre is letöltheti.

Válassza ki a hanganyag kimeneti formátumát. A támogatott hangformátumok és mintaarányok az alábbi táblázatban találhatók:

Formátum	8 kHz-es mintasebesség	16 kHz-es mintasebesség	24 kHz-es mintasebesség	48 kHz-es mintasebesség
Wav	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
Mp3	n/a	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

A tevékenység állapotának megtekintéséhez válassza a Feladatlista lapot.

Ha a feladat meghiúsul, tekintse meg a teljes jelentés részletes információs oldalát.
Ha a feladat befejeződött, a hanganyag letölthető a Hangtár panelen.
Válassza ki a letölteni és letölteni kívánt fájlt.

Most már készen áll az egyéni hangolás használatára az alkalmazásokban vagy termékekben.

BYOS és névtelen nyilvános olvasási hozzáférés konfigurálása blobokhoz

Ha elveszíti a saját tárterület (BYOS) hozzáférési engedélyét, nem tekinthet meg, nem hozhat létre, nem szerkeszthet és nem törölhet fájlokat. A hozzáférés folytatásához el kell távolítania az aktuális tárterületet, és újra kell konfigurálnia a BYOS-t az Azure Portalon. A BYOS konfigurálásával kapcsolatos további információkért tekintse meg az Azure Storage csatlakoztatását az App Service helyi megosztásaként.

A BYOS-engedély konfigurálása után konfigurálnia kell a névtelen nyilvános olvasási hozzáférést a kapcsolódó tárolókhoz és blobokhoz. Ellenkező esetben a blobadatok nem érhetők el nyilvános hozzáférésre, és a blobban lévő lexikonfájl nem érhető el. Alapértelmezés szerint a tároló nyilvános hozzáférési beállítása le van tiltva. Ha a névtelen felhasználók számára olvasási hozzáférést szeretne biztosítani egy tárolóhoz és annak blobjaihoz, először állítsa be a Blob nyilvános hozzáférésének engedélyezése engedélyezve lehetőséget a tárfiók nyilvános hozzáférésének engedélyezéséhez, majd állítsa be a tároló (nevesített acc-public-files) nyilvános hozzáférési szintjét (csak a blobok névtelen olvasási hozzáférését). A névtelen nyilvános olvasási hozzáférés konfigurálásáról további információt a tárolók és blobok névtelen nyilvános olvasási hozzáférésének konfigurálása című témakörben talál.

Hangtartalom-létrehozási felhasználók hozzáadása vagy eltávolítása

Ha egynél több felhasználó szeretné használni a hangtartalmak létrehozását, hozzáférést biztosíthat nekik az Azure-előfizetéshez és a Speech-erőforráshoz. Ha felhasználókat ad hozzá egy Azure-előfizetéshez, az Azure-előfizetés összes erőforrásához hozzáférhetnek. Ha azonban csak a Speech-erőforráshoz ad hozzá felhasználókat, csak a Speech-erőforráshoz férhetnek hozzá, és az Azure-előfizetés más erőforrásaihoz nem. A Speech-erőforráshoz hozzáféréssel rendelkező felhasználók használhatják a Hangtartalom létrehozása eszközt.

Azok a felhasználók, amelyekre hozzáférést ad, egy Microsoft-fiók beállításához szükségesek. Ha nincs Microsoft-fiókja, néhány perc alatt létrehozhat egyet. Használhatják a meglévő e-mail-címüket, és csatolhatják egy Microsoft-fiókhoz, vagy létrehozhatnak és használhatnak Egy Outlook-e-mail-címet Microsoft-fiókként.

Felhasználók hozzáadása beszéderőforráshoz

Ha felhasználókat szeretne hozzáadni egy Speech-erőforráshoz, hogy használni tudják a hangtartalmak létrehozását, tegye a következőket:

Az Azure Portalon válassza a Minden szolgáltatás elemet.
Ezután válassza ki az Azure AI-szolgáltatásokat, és keresse meg az adott Speech-erőforrást.

Feljegyzés

Az Azure RBAC-t teljes erőforráscsoportokhoz, előfizetésekhez vagy felügyeleti csoportokhoz is beállíthatja. Ehhez válassza ki a kívánt hatókörszintet, majd navigáljon a kívánt elemre (például válassza ki az Erőforráscsoportokat , majd kattintson a kívánt erőforráscsoportra).
A bal oldali navigációs panelen válassza a Hozzáférés-vezérlés (IAM) lehetőséget.
Válassza a Hozzáadás –>Szerepkör-hozzárendelés hozzáadása lehetőséget.
A következő képernyőn a Szerepkör lapon válassza ki a hozzáadni kívánt szerepkört (ebben az esetben tulajdonos).
A Tagok lapon adja meg a felhasználó e-mail-címét, és válassza ki a felhasználó nevét a címtárban. Az e-mail-címet egy Microsoft Entra-azonosító által megbízhatóNak tekintett Microsoft-fiókhoz kell csatolni. A felhasználók egyszerűen regisztrálhatnak Microsoft-fiókra a személyes e-mail-címükkel.
A szerepkör hozzárendeléséhez a Felülvizsgálat + hozzárendelés lapon válassza a Felülvizsgálat + hozzárendelés lehetőséget.

A következő lépés a következő:

A rendszer automatikusan e-mail-meghívót küld a felhasználóknak. A meghívás>elfogadása lehetőséget választva elfogadhatják az Azure-hoz való csatlakozáshoz az e-mailben. Ezután a rendszer átirányítja őket az Azure Portalra. Nem kell további lépéseket tenniük az Azure Portalon. Néhány pillanat múlva a rendszer hozzárendeli a szerepkört a Speech erőforrás hatóköréhez, amely hozzáférést biztosít nekik ehhez a Speech-erőforráshoz. Ha a felhasználók nem kapják meg a meghívó e-mailt, a fiókjukat a Szerepkör-hozzárendelések területen keresheti meg, és megnyithatja a profilját. Keresse meg az elfogadott identitásmeghívót>, és válassza a (kezelés) lehetőséget az e-mail-meghívó újbóli elküldéséhez. A meghívó hivatkozását is másolhatja és elküldheti nekik.

A felhasználók most meglátogatják vagy frissítik a Hangtartalom létrehozása termékoldalt, és bejelentkeznek a Microsoft-fiókjukkal. A hangtartalom-létrehozási blokkot választják az összes beszédtermék között. A Speech erőforrást az előugró ablakban vagy a jobb felső sarokban lévő beállítások között választják ki.

Ha nem találják a rendelkezésre álló Speech-erőforrást, ellenőrizhetik, hogy a megfelelő könyvtárban vannak-e. Ehhez kiválasztják a fiókprofilt a jobb felső sarokban, majd az Aktuális könyvtár mellett válassza a Váltás lehetőséget. Ha egynél több könyvtár érhető el, az azt jelenti, hogy több könyvtárhoz is hozzáférnek. Válthatnak különböző könyvtárakra, és a Gépház megnyitva megnézhetik, hogy elérhető-e a megfelelő Speech-erőforrás.

Azok a felhasználók, akik ugyanabban a Speech-erőforrásban vannak, látják egymás munkáját a Hangtartalom létrehozása eszközben. Ha azt szeretné, hogy minden egyes felhasználónak egyedi és privát munkahelye legyen a Hangtartalom-létrehozásban, hozzon létre egy új Speech-erőforrást minden felhasználó számára, és adjon minden felhasználónak egyedi hozzáférést a Speech-erőforráshoz.

Felhasználók eltávolítása a Speech-erőforrásból

Keresse meg az Azure AI-szolgáltatásokat az Azure Portalon, és válassza ki azt a Speech-erőforrást, amelyből el szeretné távolítani a felhasználókat.
Válassza a Hozzáférés-vezérlés (IAM) lehetőséget, majd válassza a Szerepkör-hozzárendelések lapot a Speech-erőforrás összes szerepkör-hozzárendelésének megtekintéséhez.
Jelölje ki az eltávolítani kívánt felhasználókat, válassza az Eltávolítás, majd az OK gombot.

A felhasználók hozzáférésének engedélyezése mások számára

Ha engedélyezni szeretné, hogy egy felhasználó hozzáférést adjon más felhasználóknak, hozzá kell rendelnie őket a Speech-erőforrás tulajdonosi szerepköréhez, és azure-címtárolvasóként kell beállítania a felhasználót.

Adja hozzá a felhasználót a Speech erőforrás tulajdonosaként. További információ: Felhasználók hozzáadása beszéderőforráshoz.
Az Azure Portalon válassza az összecsukott menüt a bal felső sarokban, válassza a Microsoft Entra-azonosítót, majd a Felhasználók lehetőséget.
Keresse meg a felhasználó Microsoft-fiókját, nyissa meg a részletes lapot, majd válassza a Hozzárendelt szerepkörök lehetőséget.
Válassza a Hozzárendelések hozzáadása könyvtárolvasók> lehetőséget. Ha a Hozzárendelések hozzáadása gomb nem érhető el, az azt jelenti, hogy nincs hozzáférése. Csak a címtár globális rendszergazdája adhat hozzá hozzárendeléseket a felhasználókhoz.

Beszédszintézis a Hangtartalom létrehozása eszközzel

Első lépések

1. lépés: Azure-fiók létrehozása

2. lépés: Beszéderőforrás létrehozása

Az eszköz használata

Hanghangoló fájl létrehozása

Hangolt hang exportálása

BYOS és névtelen nyilvános olvasási hozzáférés konfigurálása blobokhoz

Hangtartalom-létrehozási felhasználók hozzáadása vagy eltávolítása

Felhasználók hozzáadása beszéderőforráshoz

Felhasználók eltávolítása a Speech-erőforrásból

A felhasználók hozzáférésének engedélyezése mások számára

Következő lépések

További források

Beszédszintézis a Hangtartalom létrehozása eszközzel

Első lépések

1. lépés: Azure-fiók létrehozása

2. lépés: Beszéderőforrás létrehozása

3. lépés: Jelentkezzen be a hangtartalmak létrehozásába az Azure-fiókjával és a Speech-erőforrással

Az eszköz használata

Hanghangoló fájl létrehozása

Hangolt hang exportálása

BYOS és névtelen nyilvános olvasási hozzáférés konfigurálása blobokhoz

Hangtartalom-létrehozási felhasználók hozzáadása vagy eltávolítása

Felhasználók hozzáadása beszéderőforráshoz

Felhasználók eltávolítása a Speech-erőforrásból

A felhasználók hozzáférésének engedélyezése mások számára

Következő lépések

További források