Co je osobní hlas (Preview) pro převod textu na řeč?
Poznámka:
Osobní hlas pro převod textu na řeč je aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučuje se pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Pomocí osobního hlasu můžete během několika sekund získat replikaci hlasu (nebo uživatelů aplikace) vygenerovanou pomocí umělé inteligence. Jako zvukový dotaz zadáte ukázku jednominutové řeči a pak ji použijete k vygenerování řeči v libovolném z více než 90 jazyků podporovaných ve více než 100 národních prostředích.
Poznámka:
Osobní hlas je k dispozici v těchto oblastech: Západní Evropa, USA – východ a Jihovýchodní Asie. Podporovaná národní prostředí najdete v tématu podpora jazyka osobního hlasu.
Následující tabulka shrnuje rozdíl mezi osobním hlasem a profesionálním vlastním neurálním hlasem.
Porovnání | Osobní hlas (Preview) | Profesionální hlas |
---|---|---|
Cílové scénáře | Podnikoví zákazníci můžou vytvořit aplikaci, která uživatelům umožní vytvářet a používat vlastní osobní hlas v aplikaci. | Profesionální scénáře, jako jsou hlasy značek a znaků pro chatovací roboty nebo čtení zvukového obsahu. |
Případy použití | Omezeno na omezené případy použití. Podívejte se na poznámku transparentnosti. Schválení zákazníci by měli mít plán podpory více než 1 000 osobních hlasů. | Omezeno na omezené případy použití. Podívejte se na poznámku transparentnosti. |
Data pro trénink | Ujistěte se, že dodržujete pravidla chování. | Přineste si vlastní data. Doporučuje se nahrávání v profesionálním studiu. |
Požadovaná velikost dat | Jedna minuta lidské řeči. | 300–2000 promluv (asi 30 minut až 3 hodiny lidské řeči). |
Doba trénování | Méně než 5 sekund | Přibližně 20 až 40 výpočetních hodin. |
Kvalita hlasu | Přírodní | Vysoce přírodní |
Podpora více jazyků | Ano. Hlas dokáže mluvit o 100 jazycích s povolenou automatickou detekcí jazyka. | Ano. Pokud chcete vytrénovat model, který mluví jiným jazykem než trénovací data, musíte vybrat funkci Neurální – křížový jazyk. |
Dostupnost | Ukázka v sadě Speech Studio je k dispozici po registraci. Přístup k rozhraní API je omezený na oprávněné zákazníky a schválené případy použití. Požádejte o přístup prostřednictvím formuláře pro příjem. | Model CNV Pro můžete trénovat a nasazovat pouze po schválení přístupu. Přístup CNV Pro je omezený na základě kritérií způsobilosti a použití. Požádejte o přístup prostřednictvím formuláře pro příjem. |
Ceny | "Oficiální ceny veřejné verze Preview pro osobní hlas budou oznámeny v lednu 2024. Před dalším oznámením se použití osobního hlasu bude účtovat stejná cena jako výchozí neurální text řeči. | Podrobnosti o cenách najdete tady. |
Zodpovědné požadavky na AI | Vyžaduje se ústní prohlášení mluvčího. Nejsou povoleny žádné neschválené případy použití. | Vyžaduje se ústní prohlášení mluvčího. Nejsou povoleny žádné neschválené případy použití. |
Vyzkoušet ukázkovou verzi
Pokud máte prostředek S0, můžete získat přístup k osobní ukázce hlasu v sadě Speech Studio. Pokud chcete použít osobní hlasové rozhraní API, můžete požádat o přístup zde.
Přejít do sady Speech Studio
Vyberte osobní hlasovou kartu.
Můžete nahrát vlastní hlas a vyzkoušet ukázky hlasových výstupů v různých jazycích. Ukázka obsahuje podmnožinu jazyků podporovaných osobním hlasem.
Jak vytvořit osobní hlas
Začněte tím, že tady je souhrn kroků pro vytvoření osobního hlasu:
- Vytvořte projekt.
- Nahrání souboru souhlasu U funkce osobního hlasu je nutné, aby se každý hlas vytvořil s výslovným souhlasem uživatele. Vyžaduje se zaznamenané prohlášení od uživatele s potvrzením, že zákazník (vlastník prostředku Azure AI Speech) vytvoří a použije svůj hlas.
- Získejte ID profilu mluvčího pro osobní hlas. Id profilu mluvčího získáte na základě ústního vyjádření souhlasu mluvčího a zvukové výzvy. Vlastnosti hlasu uživatele jsou kódovány ve
speakerProfileId
vlastnosti, která se používá pro převod textu na řeč.
Jakmile budete mít osobní hlas, můžete ho použít k syntetizaci řeči v libovolném z 91 jazyků podporovaných ve více než 100 národních prostředích. Značka národního prostředí není povinná. Osobní hlas používá automatické rozpoznávání jazyka na úrovni věty. Další informace najdete v tématu Použití osobního hlasu v aplikaci.
Tip
Podívejte se na ukázky kódu v úložišti Speech SDK na GitHubu a podívejte se, jak používat osobní hlas ve vaší aplikaci.
Referenční dokumentace
Zodpovědná AI
Záleží nám na lidech, kteří používají AI, a o lidi, na které bude mít vliv stejně jako na technologie. Další informace najdete v poznámkách k transparentnosti zodpovědné umělé inteligence.
Další kroky
- Vytvořte projekt.
- Další informace o vlastním neurálním hlasu najdete v přehledu.
- Další informace o sadě Speech Studio najdete v přehledu.