Mi a Whisper modell?

2025-05-23

A Whisper-modell az OpenAI beszéd- és szövegmodellje, amellyel átírhatja vagy lefordíthatja a hangfájlokat. A modell egy nagy méretű, angol nyelvű hang- és szövegkészleten van betanítve.

A modell az angol nyelvű beszédet tartalmazó hangfájlok átírására van optimalizálva.
A modell más nyelveken beszédet tartalmazó hangfájlok fordítására is használható. Az átirat kimenete angol szöveg.

A Whisper-modellek az Azure OpenAI-on keresztül érhetők el az Azure AI Foundry-modellekben vagy az Azure AI Speechen keresztül. Ezek a funkciók eltérnek az ajánlatoktól. Az Azure AI Speechben (kötegelt átírás) a Whisper csak egyike a számos olyan modellnek, amelyet a szövegfelolvasáshoz használhat.

Felteheti például a következő kérdést:

A Whisper Modell jó választás a forgatókönyvemhez, vagy jobb az Azure AI Speech-modell? Milyen API-összehasonlítások vannak a két modelltípus között?
Ha a Whisper-modellt szeretném használni, használjam az Azure OpenAI-on vagy az Azure AI Speechen keresztül? Milyen forgatókönyvek vezetnek az egyik vagy a másik használatához?

Whisper-modell vagy Azure AI Speech-modellek

A Whisper-modell vagy az Azure AI Speech-modellek a forgatókönyvek függvényében megfelelőek. Ha az Azure AI Speech használata mellett dönt, számos modell közül választhat, beleértve a Whisper-modellt is. Az alábbi táblázat összehasonlítja a beállításokat a kezdési helyre vonatkozó javaslatokkal.

Eset	Suttogó modell	Azure AI Speech-modellek
Valós idejű átiratok, feliratok és feliratok hang- és videoképekhez.	Nem elérhető	Ajánlott
Átiratok, feliratok és feliratok az előre rögzített hang- és videoképekhez.	A Whisper-modell az Azure OpenAI-on keresztül ajánlott az egyes hangfájlok gyors feldolgozásához. A Whisper-modell az Azure AI Speech (kötegelt átírás) használatával nagy fájlok kötegelt feldolgozásához ajánlott. További információkért lásd: Whisper-modell az Azure AI Speech kötegelt átírása vagy az Azure OpenAI használata esetén	Nagy fájlok kötegelt feldolgozásához, diarizáláshoz és szószintű időbélyegekhez ajánlott.
A telefonhívások felvételeinek és elemzéseinek átirata, például a hívás összegzése, a hangulat, a fő témakörök és az egyéni elemzések.	Rendelkezésre áll	Ajánlott
Valós idejű átírás és elemzés, amely segít a call center-ügynököknek az ügyfelekkel kapcsolatos kérdések megválaszolásában.	Nem elérhető	Ajánlott
Az értekezletek felvételeinek és elemzéseinek átirata, például az értekezlet összefoglalása, az értekezlet fejezetei és a műveletelemek kinyerése.	Rendelkezésre áll	Ajánlott
Valós idejű szövegbevitel és dokumentumkészítés hangdiktációval.	Nem elérhető	Ajánlott
Contact center voice agent: Hívásirányítás és interaktív hangválasz a call centerekhez.	Rendelkezésre áll	Ajánlott
Hangsegéd: Alkalmazásspecifikus hangsegéd set-top boxhoz, mobilalkalmazáshoz, autón belüli és egyéb forgatókönyvekhez.	Rendelkezésre áll	Ajánlott
Kiejtési értékelés: A beszélő hangjának kiejtésének értékelése.	Nem elérhető	Ajánlott
Élő hang fordítása egyik nyelvről a másikra.	Nem elérhető	A beszédfordítási API által ajánlott.
Előre felvett hang fordítása más nyelvekről angolra.	Ajánlott	A beszédfordítási API-val is elérhető.
Az előre felvett hang fordítása az angoltól eltérő nyelvekre.	Nem elérhető	A beszédfordítási API által ajánlott.

Suttogó modell az Azure AI Speechen vagy az Azure OpenAI-on keresztül?

Ha úgy dönt, hogy a Whisper modellt használja, két lehetősége van. Kiválaszthatja, hogy a Whisper-modellt az Azure OpenAI-n vagy az Azure AI Speechen (kötegelt átíráson) keresztül szeretné-e használni. Mindkét esetben az átírt szöveg olvashatósága megegyezik.

Az Azure OpenAI-on keresztüli Suttogó modell a következő esetekben lehet a legjobb:

Hangfájlok gyors átírása egyenként.
Hang fordítása más nyelvekről angolra. A vegyes nyelvű hangot beírhatja, a kimenet pedig angolul.
Adjon meg egy kérést a modellnek a kimenet irányításához.
Támogatott fájlformátumok: mp3, mp4, mpweg, mpga, m4a, wav és webm.
Csak a fájlnév esetében támogatott ASCII-karakter.

A Whisper Model az Azure AI Speech kötegelt átírásán keresztül a legjobb megoldás lehet:

25 MB-nál nagyobb fájlok (legfeljebb 1 GB) átírása. Az Azure OpenAI Whisper-modell fájlméretkorlátja 25 MB.
Nagy mennyiségű hangfájl átírása.
Diarizálás a beszélgetésben részt vevő különböző előadók megkülönböztetéséhez. A Speech szolgáltatás információt nyújt arról, hogy melyik beszélő beszélt az átírt beszéd egy bizonyos részén. Az Azure OpenAI-on keresztüli Whisper modell nem támogatja az átrizálást.
Word szintű időbélyegek
Támogatott fájlformátumok: mp3, wav és ogg.

A regionális támogatás egy másik szempont.

A Whisper modell az Azure OpenAI-n keresztül az alábbi régiókban érhető el: USA 2. keleti régiója, Dél-India, Észak-Közép-, Kelet-Norvégia, Közép-Svédország, Észak-Svájc és Nyugat-Európa.
A Whisper modell az Azure AI Speech használatával a következő régiókban érhető el: Kelet-Ausztrália, USA keleti régiója, USA északi középső régiója, USA déli középső régiója, Délkelet-Ázsia és Nyugat-Európa.

Megosztás a következőn keresztül:

Mi a Whisper modell?

Whisper-modell vagy Azure AI Speech-modellek

Suttogó modell az Azure AI Speechen vagy az Azure OpenAI-on keresztül?

Kapcsolódó tartalom

Visszajelzés

További források