Identifiera och transkribera innehåll på flera språk automatiskt

Azure AI Video Indexer stöder automatisk språkidentifiering och transkription i innehåll på flera språk. Den här processen innebär att automatiskt identifiera det talade språket i olika segment från ljud, skicka varje segment av mediefilen som ska transkriberas och kombinera transkriptionen tillbaka till en enhetlig transkription.

Välja flerspråkig identifiering vid indexering med portalen

Du kan välja identifiering på flera språk när du laddar upp och indexerar videon. Du kan också välja identifiering med flera språk när du indexerar om videon. Följande steg beskriver hur du indexerar om:

  1. Bläddra till webbplatsen för Azure AI Video Indexer och logga in.

  2. Gå till sidan Bibliotek och hovra över namnet på videon som du vill indexera om.

  3. I det högra nedre hörnet väljer du knappen Indexeringsvideo .

  4. I dialogrutan Omindexering av video väljer du identifiering med flera språk i listrutan Videokällaspråk .

    • När en video indexeras som flera språk kan användaren visa vilket segment som transkriberas på vilket språk.
    • Översättning till alla språk är fullt tillgänglig från avskriften på flera språk.
    • Alla andra insikter visas på det språk som identifierade mest i ljudet.
    • Stängd bildtext på spelaren finns även på flera språk.

Portalupplevelse

Välja flerspråkig identifiering vid indexering med API

När du indexerar eller indexerar om en video med hjälp av API:et multi-language detection väljer du alternativet i parametern sourceLanguage .

Modell-utdata

Modellen hämtar alla språk som identifierats i videon i en lista

"sourceLanguage": null,
"sourceLanguages": [
    "es-ES",
    "en-US"
],

Dessutom innehåller varje instans i transkriptionsavsnittet det språk där den transkriberades

{
  "id": 136,
  "text": "I remember well when my youth Minister took me to hear Doctor King I was a teenager.",
  "confidence": 0.9343,
  "speakerId": 1,
  "language": "en-US",
  "instances": [
    {
       "adjustedStart": "0:21:10.42",
       "adjustedEnd": "0:21:17.48",
       "start": "0:21:10.42",
       "end": "0:21:17.48"
    }
  ]
},

Riktlinjer och begränsningar

  • Ljud som innehåller andra språk än de du valde ger oväntade resultat.
  • Den minsta segmentlängden för att identifiera varje språk är 15 sekunder.
  • Språkidentifieringsförskjutningen är i genomsnitt 3 sekunder.
  • Tal förväntas vara kontinuerligt. Frekventa alternationer mellan språk kan påverka modellens prestanda.
  • Tal av icke-infödda talare kan påverka modellens prestanda (till exempel när talare använder sitt första språk och de byter till ett annat språk).
  • Modellen är utformad för att känna igen spontant konversationstal med rimlig ljudakustik (inte röstkommandon, sång osv.).
  • Projektskapande och redigering är inte tillgängliga för videor med flera språk.
  • Anpassade språkmodeller är inte tillgängliga när du använder identifiering av flera språk.
  • Det går inte att lägga till nyckelord.
  • Språkindikeringen ingår inte i den exporterade stängda bildtext-filen.
  • Uppdateringsavskriften i API:et stöder inte flera språkfiler.