Sdílet prostřednictvím


Co je model Šept?

Model Šeptejte je textový model řeči z OpenAI, který můžete použít k přepisu zvukových souborů. Model se vytrénuje na velké datové sadě anglického zvuku a textu. Model je optimalizovaný pro přepis zvukových souborů, které obsahují řeč v angličtině. Model lze také použít k přepisu zvukových souborů, které obsahují řeč v jiných jazycích. Výstupem modelu je anglický text.

Modely šeptají se prostřednictvím služby Azure OpenAI nebo Azure AI Speech. Tyto funkce se u těchto nabídek liší. V Azure AI Speech je Šept jen jedním z několika řečových modelů, které můžete použít.

Možná se budete ptát:

  • Je šeptající model dobrou volbou pro můj scénář, nebo je lepší model Azure AI Speech? Jaké jsou porovnání rozhraní API mezi dvěma typy modelů?

  • Pokud chci použít model Šeptání, mám ho použít přes službu Azure OpenAI nebo azure AI Speech? Jaké jsou scénáře, které mě provedou použitím jedné nebo druhé?

Šeptající model nebo modely Azure AI Speech

Model Šeptejte nebo modely Azure AI Speech jsou vhodné v závislosti na vašich scénářích. Pokud se rozhodnete používat Azure AI Speech, můžete si vybrat z několika modelů, včetně modelu Whisper. Následující tabulka porovnává možnosti s doporučeními, kde začít.

Scénář Model šeptání Modely Azure AI Speech
Přepisy v reálném čase, popis a titulky pro zvuk a video. Není k dispozici Doporučené
Přepisy, popis a titulky pro předem zaznamenaný zvuk a video Model Whisper přes Azure OpenAI se doporučuje pro rychlé zpracování jednotlivých zvukových souborů. Model Whisper prostřednictvím služby Azure AI Speech se doporučuje pro dávkové zpracování velkých souborů. Další informace najdete v tématu Šeptající model prostřednictvím služby Azure AI Speech nebo azure OpenAI Service? Doporučuje se pro dávkové zpracování velkých souborů, diarizace a časových razítek na úrovni slov.
Přepis záznamů telefonních hovorů a analýz, jako je shrnutí hovorů, mínění, klíčová témata a vlastní přehledy. dostupný Doporučené
Přepis a analýzy v reálném čase, které pomáhají agentům call center s dotazy zákazníků. Není k dispozici Doporučené
Přepis nahrávek a analýz schůzek, jako je souhrn schůzky, kapitoly schůzky a extrakce položek akcí. dostupný Doporučené
Zadávání textu v reálném čase a generování dokumentu prostřednictvím hlasového diktování Není k dispozici Doporučené
Hlasový agent kontaktního centra: Směrování hovorů a interaktivní hlasová odezva pro call centra. dostupný Doporučené
Hlasová asistentka: Pomocník pro konkrétní aplikaci pro nastavení top boxu, mobilní aplikaci, v autě a další scénáře. dostupný Doporučené
Hodnocení výslovnosti: Posouzení výslovnosti hlasu mluvčího Není k dispozici Doporučené
Překlad živého zvuku z jednoho jazyka do druhého Není k dispozici Doporučeno prostřednictvím rozhraní API pro překlad řeči
Přeložit předem zaznamenaný zvuk z jiných jazyků do angličtiny. Doporučené K dispozici prostřednictvím rozhraní API pro překlad řeči
Přeložit předem zaznamenaný zvuk do jiných jazyků než angličtiny. Není k dispozici Doporučeno prostřednictvím rozhraní API pro překlad řeči

Šeptej model přes Azure AI Speech nebo přes službu Azure OpenAI?

Pokud se rozhodnete použít model Šeptejte, máte dvě možnosti. Můžete zvolit, jestli chcete použít model Šeptaní přes Azure OpenAI nebo Azure AI Speech. V obou případech je čitelnost přepisovaného textu stejná. Můžete zadat zvuk ve smíšeném jazyce a výstup je v angličtině.

Šeptající model prostřednictvím služby Azure OpenAI může být nejvhodnější pro:

  • Rychlé přepisování zvukových souborů po jednom
  • Překlad zvuku z jiných jazyků do angličtiny
  • Zadejte výzvu k provedení výstupu modelu.
  • Podporované formáty souborů: mp3, mp4, mpweg, mpga, m4a, wav a webm

Šeptající model přes Azure AI Speech může být nejvhodnější pro:

  • Přepis souborů větších než 25 MB (až 1 GB) Limit velikosti souboru pro model Azure OpenAI Whisper je 25 MB.
  • Přepis velkých dávek zvukových souborů
  • Diarizace pro rozlišení mezi různými mluvčími, kteří se účastní konverzace. Služba Speech poskytuje informace o tom, který mluvčí mluvil o konkrétní části přepisované řeči. Model Whisper prostřednictvím Azure OpenAI nepodporuje diarizaci.
  • Časová razítka na úrovni wordu
  • Podporované formáty souborů: mp3, wav a ogg
  • Přizpůsobení základního modelu Šeptu za účelem zlepšení přesnosti pro váš scénář (připravujeme)

Regionální podpora je dalším aspektem.

  • Model Whisper prostřednictvím služby Azure OpenAI je k dispozici v následujících oblastech: EASTUS 2, Indie – jih, Severní střed, Norsko – východ, Švédsko – střed a Západní Evropa.
  • Model Whisper prostřednictvím služby Azure AI Speech je k dispozici v následujících oblastech: Austrálie – východ, USA – východ, USA – středosever, USA – středojiž, Jihovýchodní Asie, Velká Británie – jih a Západní Evropa.

Další kroky