Sdílet prostřednictvím


Co je model Šept?

Model Whisper je model převodu řeči na text od OpenAI, který můžete použít k přepisu nebo překladu zvukových souborů. Model se vytrénuje na velké datové sadě anglického zvuku a textu.

  • Model je optimalizovaný pro přepis zvukových souborů, které obsahují řeč v angličtině.
  • Model lze také použít k překladu zvukových souborů, které obsahují řeč v jiných jazycích. Výstup přepisu je anglický text.

Šeptající modely jsou dostupné prostřednictvím Azure OpenAI v azure AI Foundry Models nebo přes Azure AI Speech. Tyto funkce se u těchto nabídek liší. V Azure AI Speech (dávkové přepisy) je Šept jen jedním z několika modelů, které můžete použít pro převod řeči na text.

Možná se budete ptát:

  • Je šeptající model dobrou volbou pro můj scénář, nebo je lepší model Azure AI Speech? Jaké jsou porovnání rozhraní API mezi dvěma typy modelů?

  • Pokud chci použít model Šeptání, mám ho použít přes Azure OpenAI nebo Azure AI Speech? Jaké jsou scénáře, které mě provedou použitím jedné nebo druhé?

Šeptající model nebo modely Azure AI Speech

Model Šeptejte nebo modely Azure AI Speech jsou vhodné v závislosti na vašich scénářích. Pokud se rozhodnete používat Azure AI Speech, můžete si vybrat z několika modelů, včetně modelu Whisper. Následující tabulka porovnává možnosti s doporučeními, kde začít.

Scénář Model šeptání Modely Azure AI Speech
Přepisy, titulky a titulky v reálném čase pro zvuk a video Není k dispozici Doporučené
Přepisy, titulky a titulky pro předem zaznamenaný zvuk a video Model Whisper přes Azure OpenAI se doporučuje pro rychlé zpracování jednotlivých zvukových souborů. Model Whisper prostřednictvím služby Azure AI Speech (dávkový přepis) se doporučuje pro dávkové zpracování velkých souborů. Další informace najdete v tématu Šeptající model prostřednictvím dávkového přepisu služby Azure AI Speech nebo přes Azure OpenAI? Doporučuje se pro dávkové zpracování velkých souborů, diarizace a časových razítek na úrovni slov.
Přepis záznamů telefonních hovorů a analýz, jako je shrnutí hovorů, mínění, klíčová témata a vlastní přehledy. dostupný Doporučené
Přepis a analýzy v reálném čase, které pomáhají agentům call center s dotazy zákazníků. Není k dispozici Doporučené
Přepis nahrávek a analýz schůzek, jako je souhrn schůzky, kapitoly schůzky a extrakce položek akcí. dostupný Doporučené
Zadávání textu v reálném čase a generování dokumentu prostřednictvím hlasového diktování Není k dispozici Doporučené
Hlasový agent kontaktního centra: Směrování hovorů a interaktivní hlasová odezva pro call centra. dostupný Doporučené
Hlasová asistentka: Pomocník pro konkrétní aplikaci pro nastavení top boxu, mobilní aplikaci, v autě a další scénáře. dostupný Doporučené
Hodnocení výslovnosti: Posouzení výslovnosti hlasu mluvčího Není k dispozici Doporučené
Překlad živého zvuku z jednoho jazyka do druhého Není k dispozici Doporučeno prostřednictvím API pro překlad řeči.
Přeložit předem zaznamenaný zvuk z jiných jazyků do angličtiny. Doporučené K dispozici je také prostřednictvím rozhraní API pro překlad řeči.
Přeložit předem zaznamenaný zvuk do jiných jazyků než angličtiny. Není k dispozici Doporučeno prostřednictvím API pro překlad řeči.

Šeptej model přes Azure AI Speech nebo Azure OpenAI?

Pokud se rozhodnete použít model Šeptejte, máte dvě možnosti. Můžete se rozhodnout, jestli chcete použít model Šeptaní přes Azure OpenAI nebo Azure AI Speech (dávkový přepis). V obou případech je čitelnost přepisovaného textu stejná.

Šeptající model přes Azure OpenAI může být nejvhodnější pro:

  • Rychlé přepisování zvukových souborů po jednom.
  • Přeložit zvuk z jiných jazyků do angličtiny. Můžete zadat zvuk ve smíšeném jazyce a výstup je v angličtině.
  • Zadejte pokyn, který povede výstup modelu.
  • Podporované formáty souborů: mp3, mp4, mpweg, mpga, m4a, wav a webm.
  • Pro název souboru se podporuje jenom znak ASCII.

Šeptající model prostřednictvím dávkového přepisu služby Azure AI Speech může být nejvhodnější pro:

  • Přepis souborů větších než 25 MB (až 1 GB) Limit velikosti souboru pro model Azure OpenAI Whisper je 25 MB.
  • Přepisování velkých dávek zvukových souborů
  • Diarizace pro rozlišení mezi různými mluvčími, kteří se účastní konverzace. Služba Speech poskytuje informace o tom, který mluvčí mluvil o konkrétní části přepisované řeči. Model Whisper prostřednictvím Azure OpenAI nepodporuje diarizaci.
  • Časová razítka na úrovni wordu
  • Podporované formáty souborů: mp3, wav a ogg.

Regionální podpora je dalším aspektem.

  • Model Whisper přes Azure OpenAI je k dispozici v následujících oblastech: USA – východ 2, Indie – jih, Středosever, Norsko – východ, Švédsko – střed, Švýcarsko – sever a Západní Evropa.
  • Model Whisper prostřednictvím služby Azure AI Speech je k dispozici v následujících oblastech: Austrálie – východ, USA – východ, USA – středosever, USA – středojiž, Jihovýchodní Asie a Západní Evropa.