Mi a Whisper modell?
A Whisper-modell az OpenAI beszéd-szövegmodellje, amellyel átírhatja a hangfájlokat. A modell egy nagy méretű, angol nyelvű hang- és szövegkészleten van betanítve. A modell az angol nyelvű beszédet tartalmazó hangfájlok átírására van optimalizálva. A modell más nyelveken beszédet tartalmazó hangfájlok átírására is használható. A modell kimenete angol szöveg.
A Whisper-modellek az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül érhetők el. Ezek a funkciók eltérnek az ajánlatoktól. Az Azure AI Speechben a Whisper csak egyike a számos használható beszéd-szövegmodellnek.
Felteheti például a következő kérdést:
A Whisper Modell jó választás a forgatókönyvemhez, vagy jobb az Azure AI Speech-modell? Milyen API-összehasonlítások vannak a két modelltípus között?
Ha a Whisper-modellt szeretném használni, használjam az Azure OpenAI szolgáltatáson vagy az Azure AI Speechen keresztül? Milyen forgatókönyvek vezetnek az egyik vagy a másik használatához?
Whisper-modell vagy Azure AI Speech-modellek
A Whisper-modell vagy az Azure AI Speech-modellek a forgatókönyvek függvényében megfelelőek. Ha az Azure AI Speech használata mellett dönt, számos modell közül választhat, beleértve a Whisper-modellt is. Az alábbi táblázat összehasonlítja a beállításokat a kezdési helyre vonatkozó javaslatokkal.
Eset | Suttogó modell | Azure AI Speech-modellek |
---|---|---|
Valós idejű átiratok, képaláírás és feliratok hang- és videoképekhez. | Nem elérhető | Ajánlott |
Átiratok, képaláírás és feliratok előre rögzített hanghoz és videóhoz. | A Whisper-modell az Azure OpenAI-on keresztül ajánlott az egyes hangfájlok gyors feldolgozásához. A Whisper-modell az Azure AI Speech használatával nagy fájlok kötegelt feldolgozásához ajánlott. További információ: Whisper modell az Azure AI Speechen vagy az Azure OpenAI Szolgáltatáson keresztül? | Nagy fájlok kötegelt feldolgozásához, diarizáláshoz és szószintű időbélyegekhez ajánlott. |
A telefonhívások felvételeinek és elemzéseinek átirata, például a hívás összegzése, a hangulat, a fő témakörök és az egyéni elemzések. | Rendelkezésre áll | Ajánlott |
Valós idejű átírás és elemzés, amely segít a call center-ügynököknek az ügyfelekkel kapcsolatos kérdések megválaszolásában. | Nem elérhető | Ajánlott |
Az értekezletek felvételeinek és elemzéseinek átirata, például az értekezlet összefoglalása, az értekezlet fejezetei és a műveletelemek kinyerése. | Rendelkezésre áll | Ajánlott |
Valós idejű szövegbevitel és dokumentumkészítés hangdiktációval. | Nem elérhető | Ajánlott |
Contact center voice agent: Hívásirányítás és interaktív hangválasz a call centerekhez. | Rendelkezésre áll | Ajánlott |
Hangsegéd: Alkalmazásspecifikus hangsegéd set-top boxhoz, mobilalkalmazáshoz, autón belüli és egyéb forgatókönyvekhez. | Rendelkezésre áll | Ajánlott |
Kiejtési értékelés: A beszélő hangjának kiejtésének értékelése. | Nem elérhető | Ajánlott |
Élő hang fordítása egyik nyelvről a másikra. | Nem elérhető | Ajánlott a beszédfordítási API-val |
Előre felvett hang fordítása más nyelvekről angolra. | Ajánlott | Elérhető a beszédfordítási API-val |
Az előre felvett hang fordítása az angoltól eltérő nyelvekre. | Nem elérhető | Ajánlott a beszédfordítási API-val |
Suttogó modell az Azure AI Speechen vagy az Azure OpenAI Szolgáltatáson keresztül?
Ha úgy dönt, hogy a Whisper modellt használja, két lehetősége van. Kiválaszthatja, hogy a Whisper-modellt az Azure OpenAI-on vagy az Azure AI Speechen keresztül szeretné-e használni. Mindkét esetben az átírt szöveg olvashatósága megegyezik. A vegyes nyelvű hangot beírhatja, a kimenet pedig angolul.
A Whisper Model az Azure OpenAI szolgáltatáson keresztül a legjobb megoldás lehet:
- Hangfájlok gyors átírása egyenként
- Hang fordítása más nyelvekről angolra
- Adjon meg egy kérést a modellnek a kimenet irányításához
- Támogatott fájlformátumok: mp3, mp4, mpweg, mpga, m4a, wav és webm
A Whisper Model az Azure AI Speech használatával a legjobb megoldás lehet:
- 25 MB-nál nagyobb fájlok (legfeljebb 1 GB) átírása. Az Azure OpenAI Whisper-modell fájlméretkorlátja 25 MB.
- Nagy mennyiségű hangfájl átírása
- Diarizálás a beszélgetésben részt vevő különböző előadók megkülönböztetéséhez. A Speech szolgáltatás információt nyújt arról, hogy melyik beszélő beszélt az átírt beszéd egy bizonyos részén. Az Azure OpenAI-on keresztüli Whisper modell nem támogatja az átrizálást.
- Word szintű időbélyegek
- Támogatott fájlformátumok: mp3, wav és ogg
- A Whisper alapmodell testreszabása a forgatókönyv pontosságának javítása érdekében (hamarosan elérhető)
A regionális támogatás egy másik szempont.
- A Whisper modell az Azure OpenAI szolgáltatáson keresztül a következő régiókban érhető el: EastUS 2, India Déli, Észak-Közép, Kelet-Norvégia, Közép-Svédország és Nyugat-Európa.
- A Whisper modell az Azure AI Speech használatával a következő régiókban érhető el: Kelet-Ausztrália, USA keleti régiója, USA északi középső régiója, USA déli középső régiója, Délkelet-Ázsia, Egyesült Királyság déli régiója és Nyugat-Európa.