Mi a Whisper modell?
A Whisper-modell az OpenAI beszéd-szövegmodellje, amellyel átírhatja a hangfájlokat. A modell egy nagy méretű, angol nyelvű hang- és szövegkészleten van betanítve. A modell az angol nyelvű beszédet tartalmazó hangfájlok átírására van optimalizálva. A modell más nyelveken beszédet tartalmazó hangfájlok átírására is használható. A modell kimenete angol szöveg.
A Whisper-modellek az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül érhetők el. Ezek a funkciók eltérnek az ajánlatoktól. Az Azure AI Speechben (kötegelt átírás) a Whisper csak egyike a számos olyan modellnek, amelyet a szövegfelolvasáshoz használhat.
Felteheti például a következő kérdést:
A Whisper Modell jó választás a forgatókönyvemhez, vagy jobb az Azure AI Speech-modell? Milyen API-összehasonlítások vannak a két modelltípus között?
Ha a Whisper-modellt szeretném használni, használjam az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül? Milyen forgatókönyvek vezetnek az egyik vagy a másik használatához?
Whisper-modell vagy Azure AI Speech-modellek
A Whisper-modell vagy az Azure AI Speech-modellek a forgatókönyvek függvényében megfelelőek. Ha az Azure AI Speech használata mellett dönt, számos modell közül választhat, beleértve a Whisper-modellt is. Az alábbi táblázat összehasonlítja a beállításokat a kezdési helyre vonatkozó javaslatokkal.
Eset | Suttogó modell | Azure AI Speech-modellek |
---|---|---|
Valós idejű átiratok, feliratok és feliratok hang- és videoképekhez. | Nem elérhető | Ajánlott |
Átiratok, feliratok és feliratok az előre rögzített hang- és videoképekhez. | A Whisper-modell az Azure OpenAI-on keresztül ajánlott az egyes hangfájlok gyors feldolgozásához. A Whisper-modell az Azure AI Speech (kötegelt átírás) használatával nagy fájlok kötegelt feldolgozásához ajánlott. További információ: Whisper-modell az Azure AI Speech kötegelt átírásával vagy az Azure OpenAI szolgáltatáson keresztül? | Nagy fájlok kötegelt feldolgozásához, diarizáláshoz és szószintű időbélyegekhez ajánlott. |
A telefonhívások felvételeinek és elemzéseinek átirata, például a hívás összegzése, a hangulat, a fő témakörök és az egyéni elemzések. | Rendelkezésre áll | Ajánlott |
Valós idejű átírás és elemzés, amely segít a call center-ügynököknek az ügyfelekkel kapcsolatos kérdések megválaszolásában. | Nem elérhető | Ajánlott |
Az értekezletek felvételeinek és elemzéseinek átirata, például az értekezlet összefoglalása, az értekezlet fejezetei és a műveletelemek kinyerése. | Rendelkezésre áll | Ajánlott |
Valós idejű szövegbevitel és dokumentumkészítés hangdiktációval. | Nem elérhető | Ajánlott |
Contact center voice agent: Hívásirányítás és interaktív hangválasz a call centerekhez. | Rendelkezésre áll | Ajánlott |
Hangsegéd: Alkalmazásspecifikus hangsegéd set-top boxhoz, mobilalkalmazáshoz, autón belüli és egyéb forgatókönyvekhez. | Rendelkezésre áll | Ajánlott |
Kiejtési értékelés: A beszélő hangjának kiejtésének értékelése. | Nem elérhető | Ajánlott |
Élő hang fordítása egyik nyelvről a másikra. | Nem elérhető | Ajánlott a beszédfordítási API-val |
Előre felvett hang fordítása más nyelvekről angolra. | Ajánlott | Elérhető a beszédfordítási API-val |
Az előre felvett hang fordítása az angoltól eltérő nyelvekre. | Nem elérhető | Ajánlott a beszédfordítási API-val |
Suttogó modell az Azure AI Speechen vagy az Azure OpenAI Szolgáltatáson keresztül?
Ha úgy dönt, hogy a Whisper modellt használja, két lehetősége van. Kiválaszthatja, hogy a Whisper-modellt az Azure OpenAI-n vagy az Azure AI Speechen (kötegelt átíráson) keresztül szeretné-e használni. Mindkét esetben az átírt szöveg olvashatósága megegyezik. A vegyes nyelvű hangot beírhatja, a kimenet pedig angolul.
A Whisper Model az Azure OpenAI szolgáltatáson keresztül a legjobb megoldás lehet:
- Hangfájlok gyors átírása egyenként
- Hang fordítása más nyelvekről angolra
- Adjon meg egy kérést a modellnek a kimenet irányításához
- Támogatott fájlformátumok: mp3, mp4, mpweg, mpga, m4a, wav és webm
A Whisper Model az Azure AI Speech kötegelt átírásán keresztül a legjobb megoldás lehet:
- 25 MB-nál nagyobb fájlok (legfeljebb 1 GB) átírása. Az Azure OpenAI Whisper-modell fájlméretkorlátja 25 MB.
- Nagy mennyiségű hangfájl átírása.
- Diarizálás a beszélgetésben részt vevő különböző előadók megkülönböztetéséhez. A Speech szolgáltatás információt nyújt arról, hogy melyik beszélő beszélt az átírt beszéd egy bizonyos részén. Az Azure OpenAI-on keresztüli Whisper modell nem támogatja az átrizálást.
- Word szintű időbélyegek
- Támogatott fájlformátumok: mp3, wav és ogg.
A regionális támogatás egy másik szempont.
- A Whisper modell az Azure OpenAI szolgáltatáson keresztül az alábbi régiókban érhető el: USA 2. keleti régiója, Dél-India, Észak-Közép-, Kelet-Norvégia, Közép-Svédország, Észak-Svájc és Nyugat-Európa.
- A Whisper modell az Azure AI Speech használatával a következő régiókban érhető el: Kelet-Ausztrália, USA keleti régiója, USA északi középső régiója, USA déli középső régiója, Délkelet-Ázsia, Egyesült Királyság déli régiója és Nyugat-Európa.