Azure AI-beszédfelismerési és -generációs technológia kiválasztása
Az Azure AI-szolgáltatások segítségével a számítási feladatok tervezői és fejlesztői intelligens, élvonalbeli, piacra kész és felelős alkalmazásokat hozhatnak létre beépített, előre összeállított és testre szabható API-k és modellek használatával.
Ez a cikk olyan Azure AI-szolgáltatásokat ismertet, amelyek beszédfelismerési és generációs képességeket kínálnak, például beszéd-szöveg és szöveg-beszéd konverziókat, hangfordítást, beszélőfelismerést, valamint olvasási támogatást a tanulási különbségekkel rendelkező felhasználók számára.
Feljegyzés
Ha kifejezésekkel vagy kifejezésekkel kapcsolatos megállapításokat szeretne gyűjteni, vagy részletes kontextuselemzést szeretne kapni a beszélt vagy írott nyelvről, olvassa el az Azure AI célzott nyelvfeldolgozási technológia kiválasztása című témakört.
Szolgáltatások
Az alábbi Azure AI-szolgáltatások beszédfelismerési és -létrehozási képességeket biztosítanak a számítási feladatokhoz.
Az Azure AI Speech természetes nyelvi feldolgozást biztosít a szövegelemzéshez.
- A Beszédszolgáltatást akkor használhatja , ha át kell írnia vagy lefordítania a beszélt beszédet, és azonosítania kell a beszélőt egy beszélgetésben. A szolgáltatást a természetes hangzású beszédgenerálás alacsonyabb költségű alternatívaként is használhatja az OpenAI-modellekben a magasabb minőségű Whisperre .
- Ne használja a Speech szolgáltatást csevegéshez, tartalomösszesítéshez, moderáláshoz vagy a felhasználók szkripteken keresztüli irányításához. Használjon más modelleket ezekhez a dolgokhoz.
Modern olvasó egy olyan eszköz, amely bevált technikákat alkalmaz az olvasás megértésének javítására a feltörekvő olvasók, a nyelvtanulók és a tanulási különbségekkel küzdők számára.
- A Modern olvasó használatával jobb olvashatóságot biztosíthat a nyelvtanulók vagy a tanulási különbségekben szenvedők számára.
- Ne használjon Modern olvasó hagyományos szövegfelolvasási esetekhez.
Azure AI Beszéd
Az Azure AI Speech beszéd- és szövegfelolvasási képességeket biztosít egy Speech-erőforrással. Nagy pontossággal átírhatja a beszédet a szövegre, természetes hangzású szöveget készíthet beszédhangokra, lefordíthatja a beszélt hangot, és beszédfelismerést használhat beszélgetések során. Egyéni hangokat hozhat létre, és az alapszókincshez egyedi szavakat is hozzáadhat, de létrehozhatja a saját modelljeit is. A beszédszolgáltatásokat bárhol futtathatja – a felhőben vagy a peremhálózati tárolókban egyaránt.
A beszéd számos nyelvhez és régióhoz elérhető.
Képességek
Az alábbi táblázat az Azure AI Speech szolgáltatásban elérhető képességek listáját tartalmazza.
Funkció | Leírás |
---|---|
Batch-átírás | Nagy mennyiségű hangadat átírása a tárolóban. A Speech to text REST API és a Speech CLI egyaránt támogatja a kötegelt átírást. |
Szándékfelismerés | A szándék az, amit a felhasználó tenni szeretne: például repülőutat foglalni, megnézni az időjárást vagy telefonhívást indítani. A szándékfelismeréssel az alkalmazások, eszközök és eszközök meg tudják határozni, hogy a felhasználó mit szeretne kezdeményezni vagy végrehajtani a beállítások alapján. A felhasználói szándékot a szándék felismerője vagy a beszélgetési nyelv megértése (CLU) modellben határozhatja meg. |
Kiejtés értékelése | Kiértékeli a beszéd kiejtését, és visszajelzést ad a beszélőknek a beszélt hang pontosságáról és folyékonyságáról. |
Beszélőfelismerés | A beszélőfelismerés segíthet meghatározni, hogy ki beszél egy hangklipben. A szolgáltatás a hang biometriával ellenőrizheti és azonosíthatja a hangszórókat egyedi hangtulajdonságuk alapján. |
Beszédfelismerés | A hangstreameket valós időben vagy kötegben szöveggé alakítja. |
Szövegfelolvasás | Lehetővé teszi az alkalmazások, eszközök vagy eszközök számára, hogy emberi beszédgé alakítsa a szöveget. |
Beszédfordítás | Többnyelvű beszéd- és beszédfordítást biztosít a hangstreamek számára. |
Videó fordítása | Automatikusan lefordíthat és létrehozhat videókat több nyelven. |
Használati esetek
Az alábbi táblázat az Azure AI Speech használatának néhány módját ismerteti.
Használati eset | Használható képesség | Leírás |
---|---|---|
Hangtartalom létrehozása | Beszédfelismerés | Neurális hangokkal természetesebbé és vonzóbbá teheti a csevegőrobotokkal és a hangsegédekkel folytatott interakciókat, digitális szövegeket, például e-könyveket alakíthat át hangoskönyvekké, és javíthatja az autón belüli navigációs rendszereket. |
Hívásközpont átírása | Beszédfelismerés | Valós időben átírhatja a hívásokat, vagy feldolgozhat egy hívásköteget, személyre szabott azonosítási adatokat hozhat létre, és olyan megállapításokat nyerhet ki, mint a hangulat, amelyek segítenek a call center használati ügyében. |
Képszöveg | Beszédfelismerés | Szinkronizálja a feliratokat a bemeneti hanggal, alkalmazzon trágár szűrőket, kapjon részleges eredményeket, alkalmazza a testreszabásokat, és azonosítsa a beszélt nyelveket többnyelvű forgatókönyvekhez. |
Nyelvtanulás | Beszédfelismerés | Kiejtésértékelési visszajelzést adhat a nyelvtanulóknak, támogathatja a távtanulási beszélgetések valós idejű átírását, és neurális hangokkal felolvastathatja a hangos tananyagokat. |
Hangvezérelt asszisztensek | Szövegfelolvasás | Természetes, emberi jellegű beszélgetési felületeket hozhat létre alkalmazásaikhoz és élményeikhez. A hangsegéd funkció gyors és megbízható interakciót biztosít az eszköz és az asszisztens implementációja között. |
Modern olvasó
Modern olvasó, amely az Azure AI-szolgáltatások része, egy olyan befogadóan megtervezett eszköz, amely bevált technikákat alkalmaz az olvasási megértés javítására az új olvasók, a nyelvtanulók és a tanulási különbségekkel, például diszlexiával küzdők számára. Az Modern olvasó ügyféloldali kódtárral a Microsoft Wordben és a Microsoft OneNote-ban használt technológiával nagyszerű élményt biztosíthat a számítási feladatok felhasználóinak.
Képességek
Az alábbiakban felsoroljuk azokat a képességeket, amelyekkel a számítási feladat segítheti a felhasználókat az olvasási célok elérésében.
- Tartalom elkülönítése az olvashatóság javítása érdekében
- Képek megjelenítése a gyakori szavakhoz és kifejezésekhez
- Az igék, főnevek, névmások és egyebek kiemelésével segít megérteni a beszéd és a nyelvhelyesség egyes részeit
- A tartalom felolvasása, például a felhasználó által kijelölt szöveg felolvasása a számítási feladat felhasználói felületén
- Tartalom lefordítása több nyelvre valós időben, ami segít javítani a megértést az új nyelvet tanuló olvasók számára
- Szótagokra bonthatja a szavakat az olvashatóság javítása vagy az új szavak kihangosítása érdekében
Következő lépések
- Mi a Speech szolgáltatás?
- Képzési terv: Természetes nyelvi feldolgozási megoldások fejlesztése az Azure AI-szolgáltatásokkal