Share via


Mi a Whisper modell?

A Whisper-modell az OpenAI beszéd-szövegmodellje, amellyel átírhatja a hangfájlokat. A modell egy nagy méretű, angol nyelvű hang- és szövegkészleten van betanítve. A modell az angol nyelvű beszédet tartalmazó hangfájlok átírására van optimalizálva. A modell más nyelveken beszédet tartalmazó hangfájlok átírására is használható. A modell kimenete angol szöveg.

A Whisper-modellek az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül érhetők el. Ezek a funkciók eltérnek az ajánlatoktól. Az Azure AI Speechben a Whisper csak egyike a számos használható beszéd-szövegmodellnek.

Felteheti például a következő kérdést:

  • A Whisper Modell jó választás a forgatókönyvemhez, vagy jobb az Azure AI Speech-modell? Milyen API-összehasonlítások vannak a két modelltípus között?

  • Ha a Whisper-modellt szeretném használni, használjam az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül? Milyen forgatókönyvek vezetnek az egyik vagy a másik használatához?

Whisper-modell vagy Azure AI Speech-modellek

A Whisper-modell vagy az Azure AI Speech-modellek a forgatókönyvek függvényében megfelelőek. Ha az Azure AI Speech használata mellett dönt, számos modell közül választhat, beleértve a Whisper-modellt is. Az alábbi táblázat összehasonlítja a beállításokat a kezdési helyre vonatkozó javaslatokkal.

Eset Suttogó modell Azure AI Speech-modellek
Valós idejű átiratok, képaláírás és feliratok hang- és videoképekhez. Nem elérhető Ajánlott
Átiratok, képaláírás és feliratok előre rögzített hanghoz és videóhoz. A Whisper-modell az Azure OpenAI-on keresztül ajánlott az egyes hangfájlok gyors feldolgozásához. A Whisper-modell az Azure AI Speech használatával nagy fájlok kötegelt feldolgozásához ajánlott. További információ: Whisper modell az Azure AI Speechen vagy az Azure OpenAI Szolgáltatáson keresztül? Nagy fájlok kötegelt feldolgozásához, diarizáláshoz és szószintű időbélyegekhez ajánlott.
A telefonhívások felvételeinek és elemzéseinek átirata, például a hívás összegzése, a hangulat, a fő témakörök és az egyéni elemzések. Rendelkezésre áll Ajánlott
Valós idejű átírás és elemzés, amely segít a call center-ügynököknek az ügyfelekkel kapcsolatos kérdések megválaszolásában. Nem elérhető Ajánlott
Az értekezletek felvételeinek és elemzéseinek átirata, például az értekezlet összefoglalása, az értekezlet fejezetei és a műveletelemek kinyerése. Rendelkezésre áll Ajánlott
Valós idejű szövegbevitel és dokumentumkészítés hangdiktációval. Nem elérhető Ajánlott
Contact center voice agent: Hívásirányítás és interaktív hangválasz a call centerekhez. Rendelkezésre áll Ajánlott
Hangsegéd: Alkalmazásspecifikus hangsegéd set-top boxhoz, mobilalkalmazáshoz, autón belüli és egyéb forgatókönyvekhez. Rendelkezésre áll Ajánlott
Kiejtési értékelés: A beszélő hangjának kiejtésének értékelése. Nem elérhető Ajánlott
Élő hang fordítása egyik nyelvről a másikra. Nem elérhető Ajánlott a beszédfordítási API-val
Előre felvett hang fordítása más nyelvekről angolra. Ajánlott Elérhető a beszédfordítási API-val
Az előre felvett hang fordítása az angoltól eltérő nyelvekre. Nem elérhető Ajánlott a beszédfordítási API-val

Suttogó modell az Azure AI Speechen vagy az Azure OpenAI Szolgáltatáson keresztül?

Ha úgy dönt, hogy a Whisper modellt használja, két lehetősége van. Kiválaszthatja, hogy a Whisper-modellt az Azure OpenAI-on vagy az Azure AI Speechen keresztül szeretné-e használni. Mindkét esetben az átírt szöveg olvashatósága megegyezik. A vegyes nyelvű hangot beírhatja, a kimenet pedig angolul.

A Whisper Model az Azure OpenAI szolgáltatáson keresztül a legjobb megoldás lehet:

  • Hangfájlok gyors átírása egyenként
  • Hang fordítása más nyelvekről angolra
  • Adjon meg egy kérést a modellnek a kimenet irányításához
  • Támogatott fájlformátumok: mp3, mp4, mpweg, mpga, m4a, wav és webm

A Whisper Model az Azure AI Speech használatával a legjobb megoldás lehet:

  • 25 MB-nál nagyobb fájlok (legfeljebb 1 GB) átírása. Az Azure OpenAI Whisper-modell fájlméretkorlátja 25 MB.
  • Nagy mennyiségű hangfájl átírása
  • Diarizálás a beszélgetésben részt vevő különböző előadók megkülönböztetéséhez. A Speech szolgáltatás információt nyújt arról, hogy melyik beszélő beszélt az átírt beszéd egy bizonyos részén. Az Azure OpenAI-on keresztüli Whisper modell nem támogatja az átrizálást.
  • Word szintű időbélyegek
  • Támogatott fájlformátumok: mp3, wav és ogg
  • A Whisper alapmodell testreszabása a forgatókönyv pontosságának javítása érdekében (hamarosan elérhető)

A regionális támogatás egy másik szempont.

  • A Whisper modell az Azure OpenAI szolgáltatáson keresztül a következő régiókban érhető el: EastUS 2, India Déli, Észak-Közép, Kelet-Norvégia, Közép-Svédország és Nyugat-Európa.
  • A Whisper modell az Azure AI Speech használatával a következő régiókban érhető el: Kelet-Ausztrália, USA keleti régiója, USA északi középső régiója, USA déli középső régiója, Délkelet-Ázsia, Egyesült Királyság déli régiója és Nyugat-Európa.

Következő lépések