Mi az a beszédfordítás?

Ebben a cikkben megismerheti a fordítás előnyeit és képességeit az Azure AI Speech használatával. A Speech szolgáltatás támogatja a hangstreamek valós idejű, többnyelvű beszéd- és beszédfordítását.

A Speech SDK vagy a Speech CLI használatával hozzáférést adhat az alkalmazásoknak, eszközöknek és eszközöknek a forrásátiratokhoz és a fordítási kimenetekhez a megadott hanghoz. A rendszer a beszéd észlelésekor ideiglenes átírási és fordítási eredményeket ad vissza, és a végső eredmények szintetizált beszédgé alakíthatók.

A beszédfordításhoz támogatott nyelvek listáját a Nyelv és a hangtámogatás című témakörben találja.

Tipp.

A Speech Studióban gyorsan tesztelheti és lefordíthatja a beszédet más, ön által választott nyelvekre, alacsony késéssel.

Alapvető funkciók

A beszédfordítás alapvető jellemzői a következők:

Beszédszöveg fordítása

A Speech szolgáltatás által kínált standard funkció az a képesség, hogy bemeneti hangstreamet fogadjon a megadott forrásnyelven, és lefordítsa és szövegként adja ki a megadott célnyelven.

Beszédfordítás

A fenti funkció kiegészítéseként a Speech szolgáltatás azt is lehetővé teszi, hogy felolvassa a lefordított szöveget az előre betanított hangok nagy adatbázisával, lehetővé téve a bemeneti beszéd természetes kimenetét.

Többnyelvű beszédfordítás (előzetes verzió)

A többnyelvű beszédfordítás a beszédfordítás új szintjét valósítja meg, amely különböző képességeket biztosít, beleértve a megadott beviteli nyelv használatát, a nyelvi kapcsolók kezelését ugyanazon a munkameneten belül, és támogatja az élő streamelési fordításokat angol nyelvre. Ezek a funkciók lehetővé teszik a termékekben implementálható beszédfordítási képességek új szintjét.

  • Meghatározatlan beviteli nyelv. A többnyelvű beszédfordítás számos nyelven képes hangokat fogadni, és nem kell megadni, hogy mi a várt bemeneti nyelv.
  • Nyelvváltás. A többnyelvű beszédfordítás lehetővé teszi, hogy ugyanazon a munkameneten belül több nyelvet is beszélhessenek, és az összeset ugyanarra a célnyelvre fordítsák le. Nem szükséges újraindítani a munkamenetet, amikor a bemeneti nyelv megváltozik, vagy ha Ön más műveleteket hajt végre.
  • Átírás. A szolgáltatás egy átiratot ad ki a megadott célnyelven. A forrásnyelv átírása még nem érhető el.

A többnyelvű beszédfordítás néhány használati esete:

  • Utazási tolmács. Ha külföldre utazik, a többnyelvű beszédfordítás lehetővé teszi, hogy olyan megoldást hozzon létre, amely lehetővé teszi az ügyfelek számára, hogy bármilyen bemeneti hangot lefordítsa a helyi nyelvre és nyelvről. Ez lehetővé teszi számukra, hogy kommunikáljanak a helyiekkel, és jobban megértsék a környezetüket.
  • Üzleti értekezlet. A különböző nyelveket beszélőkkel folytatott értekezleteken a többnyelvű beszédfordítás lehetővé teszi, hogy az értekezlet tagjai természetes módon kommunikáljanak egymással, mintha nem lett volna nyelvi akadály.

Többnyelvű beszédfordításhoz: ezek azok a nyelvek, amelyeket a Speech Service képes automatikusan észlelni és váltani a bemenetről: arab (ar), baszk (eu), bosnyák (bs), bolgár (bg), kínai egyszerűsített (zh), kínai hagyományos (zhh), cseh (cs), dán (da), holland (nl), angol (en), észt (et), finn (fi), francia (fr), galíciai (gl), német (de), görög (el), hindi (hi), Magyar (hu), indonéz (id), olasz (it), japán (ja), koreai (ko), lett (lv), litván (lt), macedón (mk), norvég (nb), lengyel (pl), portugál (pt), román (ro), orosz (ru), szerb (sr), szlovák (sk), szlovén (sl), spanyol (es), svéd (sv), thai (th), török (tr), ukrán (uk), vietnami (vi), és walesi (cy).

A támogatott kimeneti (célnyelvi) nyelvek listáját a Fordítás szövegnyelvre táblában találja a nyelvi és hangtámogatási dokumentációban.

A többnyelvű beszédfordítással kapcsolatos további információkért tekintse meg a beszédfordítási útmutatót és a beszédfordítási mintákat a GitHubon.

Több célnyelv fordítása

Olyan helyzetekben, amikor több nyelven szeretné a kimenetet használni, a Speech szolgáltatás közvetlenül lehetővé teszi a bemeneti nyelv két célnyelvre való fordítását. Ez lehetővé teszi számukra, hogy két kimenetet fogadjanak, és egyetlen API-hívással megosztják ezeket a fordításokat egy szélesebb közönséggel. Ha több kimeneti nyelvre van szükség, létrehozhat egy többszolgáltatásos erőforrást, vagy használhat külön fordítási szolgáltatásokat.

Ha több célnyelvre is szüksége van fordításra, akkor vagy többszolgáltatásos erőforrást kell létrehoznia, vagy külön fordítási szolgáltatásokat kell használnia a másodiknál több nyelvhez. Ha úgy dönt, hogy többszolgáltatásos erőforrással hívja meg a beszédfordítási szolgáltatást, vegye figyelembe, hogy a fordítás karakterszáma alapján a fordítási díjak a másodikon túl minden nyelvre érvényesek.

Az alkalmazott fordítási díj kiszámításához tekintse meg az Azure AI Translator díjszabását.

Több célnyelv fordítási díjszabása

Fontos megjegyezni, hogy a beszédfordítási szolgáltatás valós időben működik, és a köztes beszéderedmények lefordítva köztes fordítási eredményeket hoznak létre. Ezért a fordítás tényleges mennyisége nagyobb, mint a bemeneti hang jogkivonatai. Az egyes célnyelvek beszédének átírásáért és szövegfordításáért díjat számítunk fel.

Tegyük fel például, hogy szöveges fordításokat szeretne egy egyórás hangfájlból három célnyelvre. Ha a szövegbe írt eredeti beszéd 10 000 karaktert tartalmaz, akkor 2,80 usd díjat számítunk fel.

Figyelmeztetés

A példában szereplő árak csak szemléltető célokra szolgálnak. A legfrissebb díjszabási információkért tekintse meg az Azure AI Speech díjszabását és az Azure AI Translator díjszabását .

Az előző 2,80 usd-s példaár kiszámítása a beszéd és a szövegfordítás költségeinek kombinálásával történt. A számítás a következőképpen történt:

  • A beszédfordítási lista ára óránként 2,50 usd, amely legfeljebb 2 célnyelvet fed le. Az ár példaként szolgál a költségek kiszámítására. A legfrissebb díjszabási információkért tekintse meg az Azure AI Speech díjszabási táblázatának Pay as You Go>Speech translation>Standard című részét.
  • A harmadik nyelvi fordítás költsége ebben a példában 30 cent. A fordítási lista ára 10 USD/millió karakter. Mivel a hangfájl 10 000 karaktert tartalmaz, a fordítás költsége $10 * 10 000 / 1 000 000 * 3 = $0,3. A "3" szám ebben az egyenletben a köztes forgalom súlyozási együtthatóját jelöli, amely az érintett nyelvektől függően változhat. Az ár példaként szolgál a költségek kiszámítására. A legfrissebb díjszabási információkért tekintse meg a Pay as You Go>Standard fordítás>szövegfordítását az Azure AI Translator díjszabási táblázatában.

Első lépések

Első lépésként próbálja ki a beszédfordítás rövid útmutatóját. A beszédfordítási szolgáltatás a Speech SDK-val és a Speech CLI-vel érhető el.

A Speech SDK szöveg- és fordításmintákat talál a GitHubon. Ezek a minták olyan gyakori forgatókönyveket fednek le, mint a hangfájlból vagy streamből való olvasás, a folyamatos és egyetlen lövéses felismerés és fordítás, valamint az egyéni modellek használata.

Következő lépések