Megosztás a következőn keresztül:


Médiaátírási, fordítási és nyelvi azonosítási elemzések lekérése

Médiaátírás, fordítás és nyelvazonosítás

Az átírás, a fordítás és a nyelvi azonosítás több mint 50 nyelvre észleli, átírja és lefordítja a médiafájlokban lévő beszédet.

Az Azure AI Video Indexer (VI) feldolgozza a hangfájlban lévő beszédet, hogy kinyerje a sok nyelvre lefordított átiratot. Ha egy adott nyelvre történő fordítást választ, az átirat és az olyan megállapítások, mint a kulcsszavak, a témakörök, a címkék vagy az OCR is a megadott nyelvre lesznek lefordítva. Az átirat használható a beszélői megállapításokkal együtt, vagy kombinálható az átiratok leképezésével és a hangszórókhoz való hozzárendelésével. Egy hangfájlban több hangszóró is észlelhető. Minden beszélőhöz hozzárendel egy azonosítót, és az átírt beszéd alatt jelenik meg.

A nyelvi azonosítás (LID) felismeri a videófájlban támogatott domináns beszélt nyelvet. További információ: LID alkalmazása.

A többnyelvű azonosítás (MLID) automatikusan felismeri a hangfájl különböző szegmenseiben lévő beszélt nyelveket, és elküldi az egyes szegmenseket az azonosított nyelvekre való átíráshoz. A folyamat végén a rendszer az összes átiratot ugyanabba a fájlba egyesíti. További információ: MLID alkalmazása. Az eredményként kapott megállapítások egy JSON-fájl kategorizált listájában jönnek létre, amely tartalmazza az azonosítót, a nyelvet, az átírt szöveget, az időtartamot és a megbízhatósági pontszámot.

Több hangszóróval rendelkező médiafájlok indexelésekor az Azure AI Video Indexer beszélő-diarizálást végez, amely azonosítja a videó egyes hangszóróit, és az egyes átírt sorokat egy hangszóróhoz rendeli. A hangszórók egyedi identitást kapnak, például a Speaker #1 és a Speaker #2. Ez lehetővé teszi a beszélők azonosítását a beszélgetések során, és hasznos lehet különböző helyzetekben, például orvos-beteg beszélgetésekben, ügynök-ügyfél interakciókban és bírósági eljárásokban.

Médiaátírási, fordítási és nyelvi azonosítási használati esetek

  • Az akadálymentesség előmozdítása a hallássérült felhasználók számára az Azure AI Video Indexer használatával történő elérhetővé tételével, amely beszédszöveg-átírást és fordítást hoz létre több nyelvre.
  • Az Azure AI Video Indexer átirati és fordítási képességeinek használatával a tartalomterjesztés javítása a különböző régiókban és nyelveken lévő különböző célközönségek számára.
  • Az Azure AI Video Indexer átirati és fordítási képességeinek használatával, valamint az Azure AI Video Indexer által létrehozott, a támogatott formátumok egyikében létrehozott feliratokkal javíthatja és javíthatja a manuális feliratok és feliratok létrehozását.
  • Nyelvazonosítás (LID) vagy többnyelvű azonosítás (MLID) használata a videók ismeretlen nyelvű átírásához, hogy az Azure AI Video Indexer automatikusan azonosítsa a videóban megjelenő nyelveket, és ennek megfelelően hozza létre az átírást.

A JSON-megállapítás megtekintése a webes portálon

Miután feltöltött és indexelt egy videót, az elemzések JSON formátumban érhetők el a webes portálon való letöltéshez.

  1. Válassza a Tár lapot.
  2. Válassza ki a használni kívánt adathordozót.
  3. Válassza a Letöltés és az Elemzések (JSON) lehetőséget. A JSON-fájl megnyílik egy új böngészőlapon.
  4. Keresse meg a példaválaszban leírt kulcspárt.

Az API használata

  1. Használja a Videoindex lekérése kérést. Javasoljuk, hogy adja át.&includeSummarizedInsights=false
  2. Keresse meg a példaválaszban leírt kulcspárokat.

Példaválasz

A videóban észlelt összes nyelv a sourceLanauge alatt található, és az átírási szektin minden példánya tartalmazza az írott nyelvet.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Fontos

Fontos elolvasni az összes VI-funkció átláthatósági megjegyzésének áttekintését . Minden megállapítás saját átláthatósági megjegyzésekkel is rendelkezik:

Átírási, fordítási és nyelvi azonosítási jegyzetek

Felelősségteljes és körültekintő használat esetén az Azure AI Video Indexer számos iparág számára értékes eszköz. Mindig tiszteletben kell tartania mások magánéletét és biztonságát, és meg kell felelnie a helyi és globális előírásoknak. Az alábbiakat javasoljuk:

  • Körültekintően vegye figyelembe az eredmények pontosságát, hogy pontosabb adatokat népszerűsítsen, ellenőrizze a hang minőségét, a gyenge minőségű hang befolyásolhatja az észlelt megállapításokat.
  • A Video Indexer nem végzi el a beszélőfelismerést, így a hangszórók nem kapnak azonosítót több fájlhoz. Nem tud egyéni beszélőt keresni több fájlban vagy átiratban.
  • A beszélőazonosítók véletlenszerűen vannak hozzárendelve, és csak egyetlen fájl különböző hangszóróinak megkülönböztetésére használhatók.
  • Beszédközi és egymást átfedő beszéd: Ha több beszélő egyidejűleg beszél vagy megszakítja egymást, a modell számára kihívást jelent a megfelelő szöveg pontos megkülönböztetése és hozzárendelése a megfelelő hangszórókhoz.
  • A beszélő átfedésben van: Előfordulhat, hogy az előadók hasonló beszédmintákkal, ékezetekkel rendelkeznek, vagy hasonló szókészletet használnak, ami megnehezíti a modell számára a különbségtételt.
  • Zajos hang: A gyenge hangminőség, a háttérzaj vagy a gyenge minőségű felvételek akadályozhatják a modell hangszóróinak helyes azonosítását és átírását.
  • Érzelmi beszéd: A beszéd érzelmi változatai, például a kiabálás, a sírás vagy a szélsőséges izgalom befolyásolhatják a modell beszédhangok pontos diarizálásának képességét.
  • Beszélő álcázása vagy megszemélyesítése: Ha egy beszélő szándékosan próbálja utánozni vagy álcázni a hangját, a modell félrevezetheti a beszélőt.
  • Nem egyértelmű beszélőazonosítás: Előfordulhat, hogy a beszéd egyes szegmensei nem rendelkeznek elegendő egyedi jellemzővel ahhoz, hogy a modell magabiztosan attribútumot adjon egy adott beszélőnek.
  • A kiválasztott nyelveken kívüli nyelveket tartalmazó hang váratlan eredményeket eredményez.
  • Az egyes nyelvek észlelésének minimális szegmenshossza 15 másodperc.
  • A nyelvészlelés eltolása átlagosan 3 másodperc.
  • A beszéd várhatóan folyamatos lesz. A nyelvek közötti gyakori váltakozások hatással lehetnek a modell teljesítményére.
  • A nem natív beszélők beszéde befolyásolhatja a modell teljesítményét (például amikor a beszélők az első nyelvet használják, és másik nyelvre váltanak).
  • A modell úgy lett kialakítva, hogy felismerje a spontán beszélgetési beszédet ésszerű hangakusztikai (nem hangparancsokkal, énekléssel stb.).
  • A projekt létrehozása és szerkesztése nem érhető el több nyelvű videókhoz.
  • Az egyéni nyelvi modellek nem érhetők el többnyelvű észlelés használatakor.
  • A kulcsszavak hozzáadása nem támogatott.
  • A nyelv jelzése nem szerepel az exportált feliratfájlban.
  • Az API frissítési átirata nem támogat több nyelvi fájlt.
  • A modell úgy lett kialakítva, hogy felismerjen egy spontán társalgási beszédet (nem hangparancsokat, éneklést stb.).
  • Ha az Azure AI Video Indexer nem tudja elég magabiztosan azonosítani a nyelvet (0,6-nál nagyobb), a tartalék nyelv az angol.

Íme a támogatott nyelvek listája.

Átírási, fordítási és nyelvazonosítási összetevők

Az átírási, fordítási és nyelvi azonosítási eljárás során a médiafájlban lévő beszéd feldolgozása az alábbiak szerint történik:

Összetevő Definíció
Forrásnyelv A felhasználó feltölti a forrásfájlt az indexeléshez, és a következők valamelyikét:
– Meghatározza a videó forrásnyelvét.
– A fájl nyelvének azonosításához kiválasztja az önálló nyelv automatikus észlelését (LID). A kimenetet külön menti a rendszer.
– A több nyelv automatikus észlelését (MLID) választja ki a fájl több nyelvének azonosításához. Az egyes nyelvek kimenete külön lesz mentve.
Transcription API A hangfájlt a rendszer elküldi az Azure AI-szolgáltatásoknak az átírt és lefordított kimenet lekéréséhez. Ha egy nyelv meg van adva, annak megfelelően lesz feldolgozva. Ha nincs megadva nyelv, egy LID- vagy MLID-folyamat fut a fájl feldolgozásának nyelvének azonosításához.
Kimeneti egyesítés Az átírt és lefordított fájlok ugyanabba a fájlba vannak egyesítve. A kimeneti adatok tartalmazzák az egyes kinyert mondatok beszélőazonosítóját és megbízhatósági szintjét.
Megbízhatósági érték Az egyes mondatok becsült megbízhatósági szintje 0 és 1 közötti tartományként van kiszámítva. A megbízhatósági pontszám az eredmény pontosságának bizonyosságát jelzi. A 82%-os biztonság például 0,82-es pontszámként jelenik meg.

Mintakód

A VI-hoz tartozó összes minta megtekintése