Sdílet prostřednictvím


Co je překlad řeči?

V tomto článku se dozvíte o výhodách a možnostech překladu pomocí služby Azure AI Speech. Služba Speech podporuje překlad zvukových streamů v reálném čase, vícejazyčný převod řeči na řeč a převod řeči na text.

Pomocí sady Speech SDK nebo rozhraní příkazového řádku služby Speech můžete svým aplikacím, nástrojům a zařízením poskytnout přístup ke zdrojovým přepisům a výstupům překladu pro poskytnutý zvuk. Průběžné přepisy a výsledky překladu se vrátí při zjištění řeči a konečné výsledky je možné převést na syntetizovanou řeč.

Seznam jazyků podporovaných pro překlad řeči najdete v tématu Podpora jazyka a hlasu.

Tip

Přejděte do sady Speech Studio a rychle otestujte a přeložte řeč do jiných jazyků podle vašeho výběru s nízkou latencí.

Základní funkce

Mezi základní funkce překladu řeči patří:

Překlad řeči na text

Standardní funkce nabízená službou Speech je schopnost přijímat vstupní zvukový stream v zadaném zdrojovém jazyce a překládat ho a výstupem jako text v zadaném cílovém jazyce.

Překlad řeči na řeč

Jako doplněk k výše uvedené funkci nabízí služba Speech také možnost číst nahlas přeložený text pomocí naší velké databáze předem natrénovaných hlasů, což umožňuje přirozený výstup vstupní řeči.

Překlad vícejazyčné řeči

Vícejazyčný překlad řeči implementuje novou úroveň technologie překladu řeči, která odemyká různé funkce, včetně toho, že nemá zadaný jazyk zadávání, zpracovává jazykové přepínače ve stejné relaci a podporuje překlady živého streamování do angličtiny. Tyto funkce umožňují novou úroveň možností překladu řeči, které je možné implementovat do vašich produktů.

  • Nespecifikovaný jazyk zadávání Překlad vícejazyčné řeči může přijímat zvuk v široké škále jazyků a není nutné určit, jaký je očekávaný jazyk zadávání.
  • Přepínání jazyka Překlad vícejazyčné řeči umožňuje, aby během stejné relace bylo mluvené více jazyků a všechny je přeložily do stejného cílového jazyka. Relaci nemusíte restartovat, když se jazyk zadávání změní nebo jakékoli jiné akce.
  • Transkripce. Služba vypíše přepis v zadaném cílovém jazyce. Přepis zdrojového jazyka ještě není k dispozici.

Mezi případy použití vícejazyčného překladu řeči patří:

  • Cestovní interpret. Při cestování do zahraničí nabízí vícejazyčný překlad řeči možnost vytvořit řešení, které zákazníkům umožňuje přeložit jakýkoli vstupní zvuk do místního jazyka a z místního jazyka. To jim umožní komunikovat s místními obyvateli a lépe porozumět jejich okolí.
  • Obchodní schůzka. Při schůzce s lidmi, kteří mluví různými jazyky, vícejazyčný překlad řeči umožňuje členům schůzky komunikovat mezi sebou přirozeně, jako by neexistovala jazyková bariéra.

Seznam podporovaných vstupních (zdrojových) jazyků najdete v dokumentaci k jazykům převodu řeči na text. Seznam podporovaných jazyků výstupu (cílových jazyků) najdete v dokumentaci k jazyku překladu řeči v tabulce Přeložit do textového jazyka.

Další informace o vícejazyčného překladu řeči najdete v překladu řeči, který vám ukáže průvodce a ukázky překladu řeči na GitHubu.

Překlad více cílových jazyků

Ve scénářích, ve kterých chcete výstup v několika jazycích, nabízí služba Speech přímo možnost přeložit vstupní jazyk do dvou cílových jazyků. Díky tomu můžou přijímat dva výstupy a sdílet tyto překlady širší cílové skupině s jedním voláním rozhraní API. Pokud se vyžaduje více výstupních jazyků, můžete vytvořit prostředek s více službami nebo použít samostatné překladatelské služby.

Pokud potřebujete překlad do více než dvou cílových jazyků, musíte buď vytvořit prostředek služeb Azure AI, nebo využít samostatné překladatelské služby pro více jazyků, než je druhý. Pokud se rozhodnete volat službu překladu řeči s více službami, mějte na paměti, že poplatky za překlad platí pro každý jazyk mimo sekundu na základě počtu znaků překladu.

Pokud chcete vypočítat použitý poplatek za překlad, projděte si ceny služby Azure AI Translator.

Ceny překladu více cílových jazyků

Je důležité si uvědomit, že služba překladu řeči funguje v reálném čase a výsledky převodu řeči se překládají za účelem generování průběžných výsledků překladu. Skutečné množství překladu je proto větší než tokeny vstupního zvuku. Účtuje se vám přepis řeči na text a překlad textu pro každý cílový jazyk.

Řekněme například, že chcete překlady textu z hodinového zvukového souboru na tři cílové jazyky. Pokud počáteční přepis řeči na text obsahuje 10 000 znaků, může se vám účtovat 2,80 USD.

Upozorňující

Ceny v tomto příkladu jsou určené pouze pro ilustrativní účely. Nejnovější informace o cenách najdete v cenách služby Azure AI Speech a cenách služby Azure AI Translator.

Předchozí ukázková cena 2,80 USD se vypočítala kombinací přepisu řeči na text a nákladů na překlad textu. Výpočet byl proveden takto:

  • Cena seznamu překladu řeči je 2,50 USD za hodinu, která pokrývá až 2 cílové jazyky. Cena se používá jako příklad výpočtu nákladů. Informace o nejaktuálnějších cenách najdete v tabulce s cenami služby Azure AI Speech na platformě Pay as You Go>Speech>Standard.
  • Náklady na překlad třetího jazyka jsou v tomto příkladu 30 centů. Cena seznamu překladů je 10 USD za milion znaků. Vzhledem k tomu, že zvukový soubor obsahuje 10 000 znaků, náklady na překlad jsou 10 000 USD / 1 000 000 × 3 = 0,3 USD. Číslo "3" v této rovnici představuje koeficient váhy zprostředkujícího provozu, který se může lišit v závislosti na příslušných jazycích. Cena se používá jako příklad výpočtu nákladů. Nejnovější informace o cenách najdete v tabulce s cenami služby Azure AI Translator v části Průběžný>překlad> textu podle standardu.

Začínáme

Jako první krok vyzkoušejte rychlý start pro překlad řeči. Služba překladu řeči je dostupná prostřednictvím sady Speech SDK a rozhraní příkazového řádku služby Speech.

Na GitHubu najdete ukázky řeči na text a překlad sady Speech SDK. Tyto ukázky pokrývají běžné scénáře, jako je čtení zvuku ze souboru nebo streamu, průběžné rozpoznávání a překlad s jedním snímkem a práce s vlastními modely.

Další kroky