Beszédszintézis a Hangtartalom létrehozása eszközzel
A Speech Studio for Text hangtartalom-létrehozási eszközével kód írása nélkül is beszédszintézist végezhet. Használhatja a kimeneti hangokat, vagy kiindulási pontként a további testreszabáshoz.
Rendkívül természetes hangtartalmakat hozhat létre különböző forgatókönyvekhez, például hangoskönyvekhez, hírközvetítésekhez, videobeszélgetésekhez és csevegőrobotokhoz. A hangtartalmak létrehozásával hatékonyan finomhangolhatja a szöveget a beszédhangokhoz, és testre szabott hangélményeket tervezhet.
Az eszköz a beszédszintézis korrektúranyelvén (SSML) alapul. Lehetővé teszi a szövegnek a beszédkimeneti attribútumokhoz való igazítását valós idejű vagy kötegszintézisben, például hangkarakterekben, hangstílusokban, beszédsebességben, kiejtésben és proszódiában.
- Kód nélküli megközelítés: A Szöveg hangtartalom-létrehozási eszközével kód írása nélkül is beszédszintézist végezhet. Lehetséges, hogy a kimeneti hang lesz a végső termék, amelyet szeretne. Használhatja például a kimeneti hanganyagot podcasthoz vagy videó kísérőszöveghez.
- Fejlesztőbarát: Meghallgathatja a kimeneti hangot, és módosíthatja az SSML-t a beszédszintézis javítása érdekében. Ezután a Speech SDK-val vagy a Speech CLI-vel integrálhatja az SSML-t az alkalmazásokba. Használhatja például az SSML-t egy csevegőrobot létrehozásához.
Könnyen hozzáférhet a nyelvek és hangok széles választékához. Ezek a hangok a legkorszerűbb, előre összeállított neurális hangokat és az egyéni neurális hangokat is tartalmazzák, ha készített egyet.
További információért tekintse meg a Hangtartalom létrehozása oktatóvideóját a YouTube-on.
Első lépések
A Speech Studióban a Hangtartalom létrehozása eszköz ingyenesen elérhető, de a Speech szolgáltatás használatáért fizetnie kell. Az eszköz használatához be kell jelentkeznie egy Azure-fiókkal, és létre kell hoznia egy Speech-erőforrást. Minden Azure-fiókhoz ingyenes havi beszédkvóták tartoznak, amelyek 0,5 millió karaktert tartalmaznak az előre összeállított neurális hangokhoz (a díjszabási oldalon neurálisnak nevezik). A havi allokált összeg általában elegendő egy 3-5 fős kis tartalomcsapat számára.
A következő szakaszok azt ismertetik, hogyan hozhat létre Azure-fiókot, és hogyan szerezhet be Speech-erőforrást.
1. lépés: Azure-fiók létrehozása
A hangtartalmak létrehozásához Microsoft-fiókra és Azure-fiókra van szükség.
Az Azure Portal a központosított hely az Azure-fiók kezeléséhez. Létrehozhatja a Speech-erőforrást, kezelheti a termékhozzáférést, és mindent figyelhet az egyszerű webalkalmazásoktól az összetett felhőbeli üzemelő példányokig.
2. lépés: Beszéderőforrás létrehozása
Miután regisztrál az Azure-fiókra, létre kell hoznia egy Speech-erőforrást az Azure-fiókjában a Speech-szolgáltatások eléréséhez. Speech-erőforrás létrehozása az Azure Portalon. További információ: Többszolgáltatásos erőforrás létrehozása.
Az új Speech-erőforrás üzembe helyezése néhány percet vesz igénybe. Az üzembe helyezés befejezése után megkezdheti a Hangtartalom létrehozása eszközt.
Feljegyzés
Ha neurális hangokat szeretne használni, győződjön meg arról, hogy az erőforrást olyan régióban hozza létre, amely támogatja a neurális hangokat.
3. lépés: Jelentkezzen be a hangtartalmak létrehozásába az Azure-fiókjával és a Speech-erőforrással
Miután beszerezte az Azure-fiókot és a Speech-erőforrást, jelentkezzen be a Speech Studióba, majd válassza a Hangtartalom létrehozása lehetőséget.
Válassza ki az Azure-előfizetést és a használni kívánt Speech-erőforrást, majd válassza az Erőforrás használata lehetőséget.
Amikor legközelebb bejelentkezik a Hangtartalom létrehozása szolgáltatásba, közvetlenül az aktuális Speech-erőforrásban lévő hangmunkafájlokhoz lesz csatolva. Az Azure-előfizetés adatait és állapotát az Azure Portalon ellenőrizheti.
Ha nem rendelkezik elérhető Speech-erőforrással, és Ön egy Azure-előfizetés tulajdonosa vagy rendszergazdája, létrehozhat egy Speech-erőforrást a Speech Studióban az Új erőforrás létrehozása lehetőséget választva.
Ha rendelkezik felhasználói szerepkörrel egy bizonyos Azure-előfizetéshez, előfordulhat, hogy nincs engedélye új Speech-erőforrás létrehozására. A hozzáférésért forduljon a rendszergazdához.
Ha bármikor át szeretné váltani a Speech-erőforrást, válassza a lap tetején található Gépház.
A címtárak közötti váltáshoz válassza Gépház vagy nyissa meg a profilját.
Az eszköz használata
Az alábbi diagram a szöveg beszédkimenetekre való finomhangolásának folyamatát mutatja be.
Az előző diagram minden lépését itt ismertetjük:
Válassza ki a használni kívánt Speech-erőforrást.
Hanghangoló fájl létrehozása egyszerű szöveg vagy SSML-szkriptek használatával. Adja meg vagy töltse fel a tartalmat a hangtartalmak létrehozására.
Válassza ki a szkript tartalmának hangját és nyelvét. A hangtartalmak létrehozása magában foglalja az összes előre összeállított szöveget a beszédhangokhoz. Használhat előre összeállított neurális hangokat vagy egyéni neurális hangokat.
Feljegyzés
A kapus hozzáférés egyéni neurális hanghoz érhető el, amely lehetővé teszi a természetes hangzású beszédhez hasonló nagy felbontású hangok létrehozását. További információ: Gating process.
Jelölje ki a megtekinteni kívánt tartalmat, majd válassza a Lejátszás (háromszög ikon) lehetőséget az alapértelmezett szintéziskimenet előnézetének megtekintéséhez.
Ha módosítja a szöveget, válassza a Leállítás ikont, majd válassza újra a Lejátszás lehetőséget a hang újragenerálásához a módosított szkriptekkel.
Javítsa a kimenetet a kiejtés, a törés, a hangmagasság, a sebesség, az intonáció, a hangstílus stb. beállításával. A lehetőségek teljes listáját a Beszédszintézis korrektúranyelv című témakörben találja.
A beszédkimenet finomhangolásával kapcsolatos további információkért tekintse meg a Szöveg beszédgé alakítása a Microsoft Azure AI voices videóval című témakört .
Mentse és exportálja a hangfájlt.
Amikor menti a hangolási pályát a rendszerben, folytathatja a munkát, és iterálhat a kimeneten. Ha elégedett a kimenettel, létrehozhat egy hanglétrehozási feladatot az exportálási funkcióval. Megfigyelheti az exportálási feladat állapotát, és letöltheti a kimenetet az alkalmazásokkal és termékekkel való használatra.
Hanghangoló fájl létrehozása
A tartalmat kétféleképpen szerezheti be a Hangtartalom létrehozása eszközbe:
1\. lehetőség
Új hanghangoló fájl létrehozásához válassza az Új>szöveg fájlt.
Írja be vagy illessze be a tartalmat a szerkesztőablakba. Az egyes fájlokban megengedett karakterek száma 20 000 vagy kevesebb. Ha a szkript 20 000 karakternél több karaktert tartalmaz, a 2. lehetőséggel automatikusan feloszthatja a tartalmat több fájlra.
Válassza a Mentés lehetőséget.
2\. lehetőség
Válassza a Szöveg feltöltése>lehetőséget egy vagy több szövegfájl importálásához. Az egyszerű szöveg és az SSML is támogatott.
Ha a szkriptfájl több mint 20 000 karakterből áll, ossza fel a tartalmat bekezdések, karakterek vagy reguláris kifejezések szerint.
A szövegfájlok feltöltésekor győződjön meg arról, hogy megfelelnek az alábbi követelményeknek:
Tulajdonság Leírás Fájlformátum Egyszerű szöveg (.txt)*
SSML-szöveg (.txt)**
A zip-fájlok nem támogatottak.Kódolási formátum UTF-8 Fájlnév Minden fájlnak egyedi névvel kell rendelkeznie. A duplikált fájlok nem támogatottak. Szöveg hossza A karakterkorlát 20 000. Ha a fájlok túllépik a korlátot, ossza fel őket az eszköz utasításainak megfelelően. SSML-korlátozások Minden SSML-fájl csak egyetlen SSML-fájlt tartalmazhat. * Egyszerű szöveges példa:
Welcome to use Audio Content Creation to customize audio output for your products.
** Példa SSML-szövegre:
<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US"> <voice name="en-US-AvaMultilingualNeural"> Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products. </voice> </speak>
Hangolt hang exportálása
Miután áttekinti a hangkimenetet, és elégedett a hangolással és a beállítással, exportálhatja a hangot.
Hanglétrehozási feladat létrehozásához válassza az Exportálás lehetőséget.
Javasoljuk , hogy az Exportálás hangtárba funkcióval egyszerűen tárolhassa, keresse meg és keresse meg a hangkimenetet a felhőben. Az Azure Blob Storage használatával jobban integrálhatja az alkalmazásokat. A hangot közvetlenül a helyi lemezre is letöltheti.
Válassza ki a hanganyag kimeneti formátumát. A támogatott hangformátumok és mintaarányok az alábbi táblázatban találhatók:
Formátum 8 kHz-es mintasebesség 16 kHz-es mintasebesség 24 kHz-es mintasebesség 48 kHz-es mintasebesség Wav riff-8khz-16bit-mono-pcm riff-16khz-16bit-mono-pcm riff-24khz-16bit-mono-pcm riff-48khz-16bit-mono-pcm Mp3 n/a audio-16khz-128kbitrate-mono-mp3 audio-24khz-160kbitrate-mono-mp3 audio-48khz-192kbitrate-mono-mp3 A tevékenység állapotának megtekintéséhez válassza a Feladatlista lapot.
Ha a feladat meghiúsul, tekintse meg a teljes jelentés részletes információs oldalát.
Ha a feladat befejeződött, a hanganyag letölthető a Hangtár panelen.
Válassza ki a letölteni és letölteni kívánt fájlt.
Most már készen áll az egyéni hangolás használatára az alkalmazásokban vagy termékekben.
BYOS és névtelen nyilvános olvasási hozzáférés konfigurálása blobokhoz
Ha elveszíti a saját tárterület (BYOS) hozzáférési engedélyét, nem tekinthet meg, nem hozhat létre, nem szerkeszthet és nem törölhet fájlokat. A hozzáférés folytatásához el kell távolítania az aktuális tárterületet, és újra kell konfigurálnia a BYOS-t az Azure Portalon. A BYOS konfigurálásával kapcsolatos további információkért tekintse meg az Azure Storage csatlakoztatását az App Service helyi megosztásaként.
A BYOS-engedély konfigurálása után konfigurálnia kell a névtelen nyilvános olvasási hozzáférést a kapcsolódó tárolókhoz és blobokhoz. Ellenkező esetben a blobadatok nem érhetők el nyilvános hozzáférésre, és a blobban lévő lexikonfájl nem érhető el. Alapértelmezés szerint a tároló nyilvános hozzáférési beállítása le van tiltva. Ha a névtelen felhasználók számára olvasási hozzáférést szeretne biztosítani egy tárolóhoz és annak blobjaihoz, először állítsa be a Blob nyilvános hozzáférésének engedélyezése engedélyezve lehetőséget a tárfiók nyilvános hozzáférésének engedélyezéséhez, majd állítsa be a tároló (nevesített acc-public-files) nyilvános hozzáférési szintjét (csak a blobok névtelen olvasási hozzáférését). A névtelen nyilvános olvasási hozzáférés konfigurálásáról további információt a tárolók és blobok névtelen nyilvános olvasási hozzáférésének konfigurálása című témakörben talál.
Hangtartalom-létrehozási felhasználók hozzáadása vagy eltávolítása
Ha egynél több felhasználó szeretné használni a hangtartalmak létrehozását, hozzáférést biztosíthat nekik az Azure-előfizetéshez és a Speech-erőforráshoz. Ha felhasználókat ad hozzá egy Azure-előfizetéshez, az Azure-előfizetés összes erőforrásához hozzáférhetnek. Ha azonban csak a Speech-erőforráshoz ad hozzá felhasználókat, csak a Speech-erőforráshoz férhetnek hozzá, és az Azure-előfizetés más erőforrásaihoz nem. A Speech-erőforráshoz hozzáféréssel rendelkező felhasználók használhatják a Hangtartalom létrehozása eszközt.
Azok a felhasználók, amelyekre hozzáférést ad, egy Microsoft-fiók beállításához szükségesek. Ha nincs Microsoft-fiókja, néhány perc alatt létrehozhat egyet. Használhatják a meglévő e-mail-címüket, és csatolhatják egy Microsoft-fiókhoz, vagy létrehozhatnak és használhatnak Egy Outlook-e-mail-címet Microsoft-fiókként.
Felhasználók hozzáadása beszéderőforráshoz
Ha felhasználókat szeretne hozzáadni egy Speech-erőforráshoz, hogy használni tudják a hangtartalmak létrehozását, tegye a következőket:
- Az Azure Portalon válassza a Minden szolgáltatás elemet.
- Ezután válassza ki az Azure AI-szolgáltatásokat, és keresse meg az adott Speech-erőforrást.
Feljegyzés
Az Azure RBAC-t teljes erőforráscsoportokhoz, előfizetésekhez vagy felügyeleti csoportokhoz is beállíthatja. Ehhez válassza ki a kívánt hatókörszintet, majd navigáljon a kívánt elemre (például válassza ki az Erőforráscsoportokat , majd kattintson a kívánt erőforráscsoportra).
- A bal oldali navigációs panelen válassza a Hozzáférés-vezérlés (IAM) lehetőséget.
- Válassza a Hozzáadás –>Szerepkör-hozzárendelés hozzáadása lehetőséget.
- A következő képernyőn a Szerepkör lapon válassza ki a hozzáadni kívánt szerepkört (ebben az esetben tulajdonos).
- A Tagok lapon adja meg a felhasználó e-mail-címét, és válassza ki a felhasználó nevét a címtárban. Az e-mail-címet egy Microsoft Entra-azonosító által megbízhatóNak tekintett Microsoft-fiókhoz kell csatolni. A felhasználók egyszerűen regisztrálhatnak Microsoft-fiókra a személyes e-mail-címükkel.
- A szerepkör hozzárendeléséhez a Felülvizsgálat + hozzárendelés lapon válassza a Felülvizsgálat + hozzárendelés lehetőséget.
A következő lépés a következő:
A rendszer automatikusan e-mail-meghívót küld a felhasználóknak. A meghívás>elfogadása lehetőséget választva elfogadhatják az Azure-hoz való csatlakozáshoz az e-mailben. Ezután a rendszer átirányítja őket az Azure Portalra. Nem kell további lépéseket tenniük az Azure Portalon. Néhány pillanat múlva a rendszer hozzárendeli a szerepkört a Speech erőforrás hatóköréhez, amely hozzáférést biztosít nekik ehhez a Speech-erőforráshoz. Ha a felhasználók nem kapják meg a meghívó e-mailt, a fiókjukat a Szerepkör-hozzárendelések területen keresheti meg, és megnyithatja a profilját. Keresse meg az elfogadott identitásmeghívót>, és válassza a (kezelés) lehetőséget az e-mail-meghívó újbóli elküldéséhez. A meghívó hivatkozását is másolhatja és elküldheti nekik.
A felhasználók most meglátogatják vagy frissítik a Hangtartalom létrehozása termékoldalt, és bejelentkeznek a Microsoft-fiókjukkal. A hangtartalom-létrehozási blokkot választják az összes beszédtermék között. A Speech erőforrást az előugró ablakban vagy a jobb felső sarokban lévő beállítások között választják ki.
Ha nem találják a rendelkezésre álló Speech-erőforrást, ellenőrizhetik, hogy a megfelelő könyvtárban vannak-e. Ehhez kiválasztják a fiókprofilt a jobb felső sarokban, majd az Aktuális könyvtár mellett válassza a Váltás lehetőséget. Ha egynél több könyvtár érhető el, az azt jelenti, hogy több könyvtárhoz is hozzáférnek. Válthatnak különböző könyvtárakra, és a Gépház megnyitva megnézhetik, hogy elérhető-e a megfelelő Speech-erőforrás.
Azok a felhasználók, akik ugyanabban a Speech-erőforrásban vannak, látják egymás munkáját a Hangtartalom létrehozása eszközben. Ha azt szeretné, hogy minden egyes felhasználónak egyedi és privát munkahelye legyen a Hangtartalom-létrehozásban, hozzon létre egy új Speech-erőforrást minden felhasználó számára, és adjon minden felhasználónak egyedi hozzáférést a Speech-erőforráshoz.
Felhasználók eltávolítása a Speech-erőforrásból
Keresse meg az Azure AI-szolgáltatásokat az Azure Portalon, és válassza ki azt a Speech-erőforrást, amelyből el szeretné távolítani a felhasználókat.
Válassza a Hozzáférés-vezérlés (IAM) lehetőséget, majd válassza a Szerepkör-hozzárendelések lapot a Speech-erőforrás összes szerepkör-hozzárendelésének megtekintéséhez.
Jelölje ki az eltávolítani kívánt felhasználókat, válassza az Eltávolítás, majd az OK gombot.
A felhasználók hozzáférésének engedélyezése mások számára
Ha engedélyezni szeretné, hogy egy felhasználó hozzáférést adjon más felhasználóknak, hozzá kell rendelnie őket a Speech-erőforrás tulajdonosi szerepköréhez, és azure-címtárolvasóként kell beállítania a felhasználót.
Adja hozzá a felhasználót a Speech erőforrás tulajdonosaként. További információ: Felhasználók hozzáadása beszéderőforráshoz.
Az Azure Portalon válassza az összecsukott menüt a bal felső sarokban, válassza a Microsoft Entra-azonosítót, majd a Felhasználók lehetőséget.
Keresse meg a felhasználó Microsoft-fiókját, nyissa meg a részletes lapot, majd válassza a Hozzárendelt szerepkörök lehetőséget.
Válassza a Hozzárendelések hozzáadása könyvtárolvasók> lehetőséget. Ha a Hozzárendelések hozzáadása gomb nem érhető el, az azt jelenti, hogy nincs hozzáférése. Csak a címtár globális rendszergazdája adhat hozzá hozzárendeléseket a felhasználókhoz.