Co je osobní hlas (Preview) pro převod textu na řeč?

Poznámka:

Osobní hlas pro převod textu na řeč je aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučuje se pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Pomocí osobního hlasu můžete během několika sekund získat replikaci hlasu (nebo uživatelů aplikace) vygenerovanou pomocí umělé inteligence. Jako zvukový dotaz zadáte ukázku jednominutové řeči a pak ji použijete k vygenerování řeči v libovolném z více než 90 jazyků podporovaných ve více než 100 národních prostředích.

Poznámka:

Osobní hlas je k dispozici v těchto oblastech: Západní Evropa, USA – východ a Jihovýchodní Asie. Podporovaná národní prostředí najdete v tématu podpora jazyka osobního hlasu.

Následující tabulka shrnuje rozdíl mezi osobním hlasem a profesionálním vlastním neurálním hlasem.

Porovnání Osobní hlas (Preview) Profesionální hlas
Cílové scénáře Podnikoví zákazníci můžou vytvořit aplikaci, která uživatelům umožní vytvářet a používat vlastní osobní hlas v aplikaci. Profesionální scénáře, jako jsou hlasy značek a znaků pro chatovací roboty nebo čtení zvukového obsahu.
Případy použití Omezeno na omezené případy použití. Podívejte se na poznámku transparentnosti. Schválení zákazníci by měli mít plán podpory více než 1 000 osobních hlasů. Omezeno na omezené případy použití. Podívejte se na poznámku transparentnosti.
Data pro trénink Ujistěte se, že dodržujete pravidla chování. Přineste si vlastní data. Doporučuje se nahrávání v profesionálním studiu.
Požadovaná velikost dat Jedna minuta lidské řeči. 300–2000 promluv (asi 30 minut až 3 hodiny lidské řeči).
Doba trénování Méně než 5 sekund Přibližně 20 až 40 výpočetních hodin.
Kvalita hlasu Přírodní Vysoce přírodní
Podpora více jazyků Ano. Hlas dokáže mluvit o 100 jazycích s povolenou automatickou detekcí jazyka. Ano. Pokud chcete vytrénovat model, který mluví jiným jazykem než trénovací data, musíte vybrat funkci Neurální – křížový jazyk.
Dostupnost Ukázka v sadě Speech Studio je k dispozici po registraci. Přístup k rozhraní API je omezený na oprávněné zákazníky a schválené případy použití. Požádejte o přístup prostřednictvím formuláře pro příjem. Model CNV Pro můžete trénovat a nasazovat pouze po schválení přístupu. Přístup CNV Pro je omezený na základě kritérií způsobilosti a použití. Požádejte o přístup prostřednictvím formuláře pro příjem.
Ceny "Oficiální ceny veřejné verze Preview pro osobní hlas budou oznámeny v lednu 2024. Před dalším oznámením se použití osobního hlasu bude účtovat stejná cena jako výchozí neurální text řeči. Podrobnosti o cenách najdete tady.
Zodpovědné požadavky na AI Vyžaduje se ústní prohlášení mluvčího. Nejsou povoleny žádné neschválené případy použití. Vyžaduje se ústní prohlášení mluvčího. Nejsou povoleny žádné neschválené případy použití.

Vyzkoušet ukázkovou verzi

Pokud máte prostředek S0, můžete získat přístup k osobní ukázce hlasu v sadě Speech Studio. Pokud chcete použít osobní hlasové rozhraní API, můžete požádat o přístup zde.

  1. Přejít do sady Speech Studio

  2. Vyberte osobní hlasovou kartu.

    Snímek obrazovky domovské stránky sady Speech Studio s viditelnou osobní hlasovou kartou

  3. Můžete nahrát vlastní hlas a vyzkoušet ukázky hlasových výstupů v různých jazycích. Ukázka obsahuje podmnožinu jazyků podporovaných osobním hlasem.

    Snímek obrazovky s osobním prostředím pro ukázku hlasu v sadě Speech Studio

Jak vytvořit osobní hlas

Začněte tím, že tady je souhrn kroků pro vytvoření osobního hlasu:

  1. Vytvořte projekt.
  2. Nahrání souboru souhlasu U funkce osobního hlasu je nutné, aby se každý hlas vytvořil s výslovným souhlasem uživatele. Vyžaduje se zaznamenané prohlášení od uživatele s potvrzením, že zákazník (vlastník prostředku Azure AI Speech) vytvoří a použije svůj hlas.
  3. Získejte ID profilu mluvčího pro osobní hlas. Id profilu mluvčího získáte na základě ústního vyjádření souhlasu mluvčího a zvukové výzvy. Vlastnosti hlasu uživatele jsou kódovány ve speakerProfileId vlastnosti, která se používá pro převod textu na řeč.

Jakmile budete mít osobní hlas, můžete ho použít k syntetizaci řeči v libovolném z 91 jazyků podporovaných ve více než 100 národních prostředích. Značka národního prostředí není povinná. Osobní hlas používá automatické rozpoznávání jazyka na úrovni věty. Další informace najdete v tématu Použití osobního hlasu v aplikaci.

Tip

Podívejte se na ukázky kódu v úložišti Speech SDK na GitHubu a podívejte se, jak používat osobní hlas ve vaší aplikaci.

Referenční dokumentace

Zodpovědná AI

Záleží nám na lidech, kteří používají AI, a o lidi, na které bude mít vliv stejně jako na technologie. Další informace najdete v poznámkách k transparentnosti zodpovědné umělé inteligence.

Další kroky

  • Vytvořte projekt.
  • Další informace o vlastním neurálním hlasu najdete v přehledu.
  • Další informace o sadě Speech Studio najdete v přehledu.