Co je model Šept?

Článek
04/07/2024

Model Šeptejte je textový model řeči z OpenAI, který můžete použít k přepisu zvukových souborů. Model se vytrénuje na velké datové sadě anglického zvuku a textu. Model je optimalizovaný pro přepis zvukových souborů, které obsahují řeč v angličtině. Model lze také použít k přepisu zvukových souborů, které obsahují řeč v jiných jazycích. Výstupem modelu je anglický text.

Modely šeptají se prostřednictvím služby Azure OpenAI nebo Azure AI Speech. Tyto funkce se u těchto nabídek liší. V Azure AI Speech je Šept jen jedním z několika řečových modelů, které můžete použít.

Možná se budete ptát:

Je šeptající model dobrou volbou pro můj scénář, nebo je lepší model Azure AI Speech? Jaké jsou porovnání rozhraní API mezi dvěma typy modelů?
Pokud chci použít model Šeptání, mám ho použít přes službu Azure OpenAI nebo azure AI Speech? Jaké jsou scénáře, které mě provedou použitím jedné nebo druhé?

Šeptající model nebo modely Azure AI Speech

Model Šeptejte nebo modely Azure AI Speech jsou vhodné v závislosti na vašich scénářích. Pokud se rozhodnete používat Azure AI Speech, můžete si vybrat z několika modelů, včetně modelu Whisper. Následující tabulka porovnává možnosti s doporučeními, kde začít.

Scénář	Model šeptání	Modely Azure AI Speech
Přepisy v reálném čase, popis a titulky pro zvuk a video.	Není k dispozici	Doporučené
Přepisy, popis a titulky pro předem zaznamenaný zvuk a video	Model Whisper přes Azure OpenAI se doporučuje pro rychlé zpracování jednotlivých zvukových souborů. Model Whisper prostřednictvím služby Azure AI Speech se doporučuje pro dávkové zpracování velkých souborů. Další informace najdete v tématu Šeptající model prostřednictvím služby Azure AI Speech nebo azure OpenAI Service?	Doporučuje se pro dávkové zpracování velkých souborů, diarizace a časových razítek na úrovni slov.
Přepis záznamů telefonních hovorů a analýz, jako je shrnutí hovorů, mínění, klíčová témata a vlastní přehledy.	dostupný	Doporučené
Přepis a analýzy v reálném čase, které pomáhají agentům call center s dotazy zákazníků.	Není k dispozici	Doporučené
Přepis nahrávek a analýz schůzek, jako je souhrn schůzky, kapitoly schůzky a extrakce položek akcí.	dostupný	Doporučené
Zadávání textu v reálném čase a generování dokumentu prostřednictvím hlasového diktování	Není k dispozici	Doporučené
Hlasový agent kontaktního centra: Směrování hovorů a interaktivní hlasová odezva pro call centra.	dostupný	Doporučené
Hlasová asistentka: Pomocník pro konkrétní aplikaci pro nastavení top boxu, mobilní aplikaci, v autě a další scénáře.	dostupný	Doporučené
Hodnocení výslovnosti: Posouzení výslovnosti hlasu mluvčího	Není k dispozici	Doporučené
Překlad živého zvuku z jednoho jazyka do druhého	Není k dispozici	Doporučeno prostřednictvím rozhraní API pro překlad řeči
Přeložit předem zaznamenaný zvuk z jiných jazyků do angličtiny.	Doporučené	K dispozici prostřednictvím rozhraní API pro překlad řeči
Přeložit předem zaznamenaný zvuk do jiných jazyků než angličtiny.	Není k dispozici	Doporučeno prostřednictvím rozhraní API pro překlad řeči

Šeptej model přes Azure AI Speech nebo přes službu Azure OpenAI?

Pokud se rozhodnete použít model Šeptejte, máte dvě možnosti. Můžete zvolit, jestli chcete použít model Šeptaní přes Azure OpenAI nebo Azure AI Speech. V obou případech je čitelnost přepisovaného textu stejná. Můžete zadat zvuk ve smíšeném jazyce a výstup je v angličtině.

Šeptající model prostřednictvím služby Azure OpenAI může být nejvhodnější pro:

Rychlé přepisování zvukových souborů po jednom
Překlad zvuku z jiných jazyků do angličtiny
Zadejte výzvu k provedení výstupu modelu.
Podporované formáty souborů: mp3, mp4, mpweg, mpga, m4a, wav a webm

Šeptající model přes Azure AI Speech může být nejvhodnější pro:

Přepis souborů větších než 25 MB (až 1 GB) Limit velikosti souboru pro model Azure OpenAI Whisper je 25 MB.
Přepis velkých dávek zvukových souborů
Diarizace pro rozlišení mezi různými mluvčími, kteří se účastní konverzace. Služba Speech poskytuje informace o tom, který mluvčí mluvil o konkrétní části přepisované řeči. Model Whisper prostřednictvím Azure OpenAI nepodporuje diarizaci.
Časová razítka na úrovni wordu
Podporované formáty souborů: mp3, wav a ogg
Přizpůsobení základního modelu Šeptu za účelem zlepšení přesnosti pro váš scénář (připravujeme)

Regionální podpora je dalším aspektem.

Model Whisper prostřednictvím služby Azure OpenAI je k dispozici v následujících oblastech: EASTUS 2, Indie – jih, Severní střed, Norsko – východ, Švédsko – střed a Západní Evropa.
Model Whisper prostřednictvím služby Azure AI Speech je k dispozici v následujících oblastech: Austrálie – východ, USA – východ, USA – středosever, USA – středojiž, Jihovýchodní Asie, Velká Británie – jih a Západní Evropa.

Sdílet prostřednictvím

Co je model Šept?

Šeptající model nebo modely Azure AI Speech

Šeptej model přes Azure AI Speech nebo přes službu Azure OpenAI?

Další kroky

Váš názor

Váš názor

Další materiály