Megosztás a következőn keresztül:


Azure AI-beszédfelismerési és -generációs technológia kiválasztása

Az Azure AI-szolgáltatások segítségével a számítási feladatok tervezői és fejlesztői intelligens, élvonalbeli, piacra kész és felelős alkalmazásokat hozhatnak létre beépített, előre összeállított és testre szabható API-k és modellek használatával.

Ez a cikk olyan Azure AI-szolgáltatásokat ismertet, amelyek beszédfelismerési és generációs képességeket kínálnak, például beszéd-szöveg és szöveg-beszéd konverziókat, hangfordítást, beszélőfelismerést, valamint olvasási támogatást a tanulási különbségekkel rendelkező felhasználók számára.

Feljegyzés

Ha kifejezésekkel vagy kifejezésekkel kapcsolatos megállapításokat szeretne gyűjteni, vagy részletes kontextuselemzést szeretne kapni a beszélt vagy írott nyelvről, olvassa el az Azure AI célzott nyelvfeldolgozási technológia kiválasztása című témakört.

Szolgáltatások

Az alábbi Azure AI-szolgáltatások beszédfelismerési és -létrehozási képességeket biztosítanak a számítási feladatokhoz.

  • Az Azure AI Speech természetes nyelvi feldolgozást biztosít a szövegelemzéshez.

    • A Beszédszolgáltatást akkor használhatja , ha át kell írnia vagy lefordítania a beszélt beszédet, és azonosítania kell a beszélőt egy beszélgetésben. A szolgáltatást a természetes hangzású beszédgenerálás alacsonyabb költségű alternatívaként is használhatja az OpenAI-modellekben a magasabb minőségű Whisperre .
    • Ne használja a Speech szolgáltatást csevegéshez, tartalomösszesítéshez, moderáláshoz vagy a felhasználók szkripteken keresztüli irányításához. Használjon más modelleket ezekhez a dolgokhoz.
  • Modern olvasó egy olyan eszköz, amely bevált technikákat alkalmaz az olvasás megértésének javítására a feltörekvő olvasók, a nyelvtanulók és a tanulási különbségekkel küzdők számára.

    • A Modern olvasó használatával jobb olvashatóságot biztosíthat a nyelvtanulók vagy a tanulási különbségekben szenvedők számára.
    • Ne használjon Modern olvasó hagyományos szövegfelolvasási esetekhez.

Azure AI Beszéd

Az Azure AI Speech beszéd- és szövegfelolvasási képességeket biztosít egy Speech-erőforrással. Nagy pontossággal átírhatja a beszédet a szövegre, természetes hangzású szöveget készíthet beszédhangokra, lefordíthatja a beszélt hangot, és beszédfelismerést használhat beszélgetések során. Egyéni hangokat hozhat létre, és az alapszókincshez egyedi szavakat is hozzáadhat, de létrehozhatja a saját modelljeit is. A beszédszolgáltatásokat bárhol futtathatja – a felhőben vagy a peremhálózati tárolókban egyaránt.

A beszéd számos nyelvhez és régióhoz elérhető.

Képességek

Az alábbi táblázat az Azure AI Speech szolgáltatásban elérhető képességek listáját tartalmazza.

Funkció Leírás
Batch-átírás Nagy mennyiségű hangadat átírása a tárolóban. A Speech to text REST API és a Speech CLI egyaránt támogatja a kötegelt átírást.
Szándékfelismerés A szándék az, amit a felhasználó tenni szeretne: például repülőutat foglalni, megnézni az időjárást vagy telefonhívást indítani. A szándékfelismeréssel az alkalmazások, eszközök és eszközök meg tudják határozni, hogy a felhasználó mit szeretne kezdeményezni vagy végrehajtani a beállítások alapján. A felhasználói szándékot a szándék felismerője vagy a beszélgetési nyelv megértése (CLU) modellben határozhatja meg.
Kiejtés értékelése Kiértékeli a beszéd kiejtését, és visszajelzést ad a beszélőknek a beszélt hang pontosságáról és folyékonyságáról.
Beszélőfelismerés A beszélőfelismerés segíthet meghatározni, hogy ki beszél egy hangklipben. A szolgáltatás a hang biometriával ellenőrizheti és azonosíthatja a hangszórókat egyedi hangtulajdonságuk alapján.
Beszédfelismerés A hangstreameket valós időben vagy kötegben szöveggé alakítja.
Szövegfelolvasás Lehetővé teszi az alkalmazások, eszközök vagy eszközök számára, hogy emberi beszédgé alakítsa a szöveget.
Beszédfordítás Többnyelvű beszéd- és beszédfordítást biztosít a hangstreamek számára.
Videó fordítása Automatikusan lefordíthat és létrehozhat videókat több nyelven.

Használati esetek

Az alábbi táblázat az Azure AI Speech használatának néhány módját ismerteti.

Használati eset Használható képesség Leírás
Hangtartalom létrehozása Beszédfelismerés Neurális hangokkal természetesebbé és vonzóbbá teheti a csevegőrobotokkal és a hangsegédekkel folytatott interakciókat, digitális szövegeket, például e-könyveket alakíthat át hangoskönyvekké, és javíthatja az autón belüli navigációs rendszereket.
Hívásközpont átírása Beszédfelismerés Valós időben átírhatja a hívásokat, vagy feldolgozhat egy hívásköteget, személyre szabott azonosítási adatokat hozhat létre, és olyan megállapításokat nyerhet ki, mint a hangulat, amelyek segítenek a call center használati ügyében.
Képszöveg Beszédfelismerés Szinkronizálja a feliratokat a bemeneti hanggal, alkalmazzon trágár szűrőket, kapjon részleges eredményeket, alkalmazza a testreszabásokat, és azonosítsa a beszélt nyelveket többnyelvű forgatókönyvekhez.
Nyelvtanulás Beszédfelismerés Kiejtésértékelési visszajelzést adhat a nyelvtanulóknak, támogathatja a távtanulási beszélgetések valós idejű átírását, és neurális hangokkal felolvastathatja a hangos tananyagokat.
Hangvezérelt asszisztensek Szövegfelolvasás Természetes, emberi jellegű beszélgetési felületeket hozhat létre alkalmazásaikhoz és élményeikhez. A hangsegéd funkció gyors és megbízható interakciót biztosít az eszköz és az asszisztens implementációja között.

Modern olvasó

Modern olvasó, amely az Azure AI-szolgáltatások része, egy olyan befogadóan megtervezett eszköz, amely bevált technikákat alkalmaz az olvasási megértés javítására az új olvasók, a nyelvtanulók és a tanulási különbségekkel, például diszlexiával küzdők számára. Az Modern olvasó ügyféloldali kódtárral a Microsoft Wordben és a Microsoft OneNote-ban használt technológiával nagyszerű élményt biztosíthat a számítási feladatok felhasználóinak.

Képességek

Az alábbiakban felsoroljuk azokat a képességeket, amelyekkel a számítási feladat segítheti a felhasználókat az olvasási célok elérésében.

  • Tartalom elkülönítése az olvashatóság javítása érdekében
  • Képek megjelenítése a gyakori szavakhoz és kifejezésekhez
  • Az igék, főnevek, névmások és egyebek kiemelésével segít megérteni a beszéd és a nyelvhelyesség egyes részeit
  • A tartalom felolvasása, például a felhasználó által kijelölt szöveg felolvasása a számítási feladat felhasználói felületén
  • Tartalom lefordítása több nyelvre valós időben, ami segít javítani a megértést az új nyelvet tanuló olvasók számára
  • Szótagokra bonthatja a szavakat az olvashatóság javítása vagy az új szavak kihangosítása érdekében

Következő lépések