Megosztás a következőn keresztül:


Mi a Whisper modell?

A Whisper-modell az OpenAI beszéd- és szövegmodellje, amellyel átírhatja vagy lefordíthatja a hangfájlokat. A modell egy nagy méretű, angol nyelvű hang- és szövegkészleten van betanítve.

  • A modell az angol nyelvű beszédet tartalmazó hangfájlok átírására van optimalizálva.
  • A modell más nyelveken beszédet tartalmazó hangfájlok fordítására is használható. Az átirat kimenete angol szöveg.

A Whisper-modellek az Azure OpenAI-on keresztül érhetők el az Azure AI Foundry-modellekben vagy az Azure AI Speechen keresztül. Ezek a funkciók eltérnek az ajánlatoktól. Az Azure AI Speechben (kötegelt átírás) a Whisper csak egyike a számos olyan modellnek, amelyet a szövegfelolvasáshoz használhat.

Felteheti például a következő kérdést:

  • A Whisper Modell jó választás a forgatókönyvemhez, vagy jobb az Azure AI Speech-modell? Milyen API-összehasonlítások vannak a két modelltípus között?

  • Ha a Whisper-modellt szeretném használni, használjam az Azure OpenAI-on vagy az Azure AI Speechen keresztül? Milyen forgatókönyvek vezetnek az egyik vagy a másik használatához?

Whisper-modell vagy Azure AI Speech-modellek

A Whisper-modell vagy az Azure AI Speech-modellek a forgatókönyvek függvényében megfelelőek. Ha az Azure AI Speech használata mellett dönt, számos modell közül választhat, beleértve a Whisper-modellt is. Az alábbi táblázat összehasonlítja a beállításokat a kezdési helyre vonatkozó javaslatokkal.

Eset Suttogó modell Azure AI Speech-modellek
Valós idejű átiratok, feliratok és feliratok hang- és videoképekhez. Nem elérhető Ajánlott
Átiratok, feliratok és feliratok az előre rögzített hang- és videoképekhez. A Whisper-modell az Azure OpenAI-on keresztül ajánlott az egyes hangfájlok gyors feldolgozásához. A Whisper-modell az Azure AI Speech (kötegelt átírás) használatával nagy fájlok kötegelt feldolgozásához ajánlott. További információkért lásd: Whisper-modell az Azure AI Speech kötegelt átírása vagy az Azure OpenAI használata esetén Nagy fájlok kötegelt feldolgozásához, diarizáláshoz és szószintű időbélyegekhez ajánlott.
A telefonhívások felvételeinek és elemzéseinek átirata, például a hívás összegzése, a hangulat, a fő témakörök és az egyéni elemzések. Rendelkezésre áll Ajánlott
Valós idejű átírás és elemzés, amely segít a call center-ügynököknek az ügyfelekkel kapcsolatos kérdések megválaszolásában. Nem elérhető Ajánlott
Az értekezletek felvételeinek és elemzéseinek átirata, például az értekezlet összefoglalása, az értekezlet fejezetei és a műveletelemek kinyerése. Rendelkezésre áll Ajánlott
Valós idejű szövegbevitel és dokumentumkészítés hangdiktációval. Nem elérhető Ajánlott
Contact center voice agent: Hívásirányítás és interaktív hangválasz a call centerekhez. Rendelkezésre áll Ajánlott
Hangsegéd: Alkalmazásspecifikus hangsegéd set-top boxhoz, mobilalkalmazáshoz, autón belüli és egyéb forgatókönyvekhez. Rendelkezésre áll Ajánlott
Kiejtési értékelés: A beszélő hangjának kiejtésének értékelése. Nem elérhető Ajánlott
Élő hang fordítása egyik nyelvről a másikra. Nem elérhető A beszédfordítási API által ajánlott.
Előre felvett hang fordítása más nyelvekről angolra. Ajánlott A beszédfordítási API-val is elérhető.
Az előre felvett hang fordítása az angoltól eltérő nyelvekre. Nem elérhető A beszédfordítási API által ajánlott.

Suttogó modell az Azure AI Speechen vagy az Azure OpenAI-on keresztül?

Ha úgy dönt, hogy a Whisper modellt használja, két lehetősége van. Kiválaszthatja, hogy a Whisper-modellt az Azure OpenAI-n vagy az Azure AI Speechen (kötegelt átíráson) keresztül szeretné-e használni. Mindkét esetben az átírt szöveg olvashatósága megegyezik.

Az Azure OpenAI-on keresztüli Suttogó modell a következő esetekben lehet a legjobb:

  • Hangfájlok gyors átírása egyenként.
  • Hang fordítása más nyelvekről angolra. A vegyes nyelvű hangot beírhatja, a kimenet pedig angolul.
  • Adjon meg egy kérést a modellnek a kimenet irányításához.
  • Támogatott fájlformátumok: mp3, mp4, mpweg, mpga, m4a, wav és webm.
  • Csak a fájlnév esetében támogatott ASCII-karakter.

A Whisper Model az Azure AI Speech kötegelt átírásán keresztül a legjobb megoldás lehet:

  • 25 MB-nál nagyobb fájlok (legfeljebb 1 GB) átírása. Az Azure OpenAI Whisper-modell fájlméretkorlátja 25 MB.
  • Nagy mennyiségű hangfájl átírása.
  • Diarizálás a beszélgetésben részt vevő különböző előadók megkülönböztetéséhez. A Speech szolgáltatás információt nyújt arról, hogy melyik beszélő beszélt az átírt beszéd egy bizonyos részén. Az Azure OpenAI-on keresztüli Whisper modell nem támogatja az átrizálást.
  • Word szintű időbélyegek
  • Támogatott fájlformátumok: mp3, wav és ogg.

A regionális támogatás egy másik szempont.

  • A Whisper modell az Azure OpenAI-n keresztül az alábbi régiókban érhető el: USA 2. keleti régiója, Dél-India, Észak-Közép-, Kelet-Norvégia, Közép-Svédország, Észak-Svájc és Nyugat-Európa.
  • A Whisper modell az Azure AI Speech használatával a következő régiókban érhető el: Kelet-Ausztrália, USA keleti régiója, USA északi középső régiója, USA déli középső régiója, Délkelet-Ázsia és Nyugat-Európa.