Trascrizione multimediale, traduzione e identificazione della lingua

Articolo
03/25/2024

Importante

A causa dell'annuncio di ritiro Servizi multimediali di Azure, Azure AI Video Indexer annuncia le modifiche alle funzionalità di Azure AI Video Indexer. Vedere Modifiche correlate al ritiro di Servizi multimediali di Azure (AMS) per comprendere cosa significa per l'account Video Indexer di Azure per intelligenza artificiale. Vedere la guida alla preparazione per il ritiro di AMS: aggiornamento VI e migrazione.

La trascrizione, la traduzione e l'identificazione della lingua di Video Indexer di Azure per intelligenza artificiale rileva, trascrive e converte automaticamente il parlato nei file multimediali in più di 50 lingue.

Video Indexer di Azure per intelligenza artificiale elabora il parlato nel file audio per estrarre la trascrizione che viene quindi tradotta in molte lingue. Quando si sceglie di tradurre in una lingua specifica, sia la trascrizione che le informazioni dettagliate, ad esempio parole chiave, argomenti, etichette o OCR, vengono tradotte nella lingua specificata. La trascrizione può essere usata così com'è o essere combinata con informazioni dettagliate sull'altoparlante che eseguono il mapping e assegnano le trascrizioni in altoparlanti. È possibile rilevare più altoparlanti in un file audio. Un ID viene assegnato a ogni altoparlante e viene visualizzato sotto il parlato trascritto.
Azure AI Video Indexer Language Identification (LID) riconosce automaticamente la lingua parlata dominante supportata nel file video. Per altre informazioni, vedere Applicazione del COPERCHIo.
Azure AI Video Indexer multi-language identification (MLID) riconosce automaticamente le lingue parlate in segmenti diversi nel file audio e invia ogni segmento da trascrivere nelle lingue identificate. Al termine di questo processo, tutte le trascrizioni vengono combinate nello stesso file. Per altre informazioni, vedere Applicazione di MLID. Le informazioni dettagliate risultanti vengono generate in un elenco categorizzato in un file JSON che include l'ID, la lingua, il testo trascritto, la durata e il punteggio di attendibilità.
Quando si indicizzano file multimediali con più altoparlanti, Azure AI Video Indexer esegue la diarizzazione dell'altoparlante che identifica ogni altoparlante in un video e attributi ogni riga trascritta a un altoparlante. Ai relatori viene assegnata un'identità univoca, ad esempio Speaker #1 e Speaker #2. Ciò consente l'identificazione dei relatori durante le conversazioni e può essere utile in diversi scenari, ad esempio conversazioni medico-paziente, interazioni agente-cliente e procedimenti giudiziari.

Prerequisiti

Panoramica delle note sulla trasparenza

Principi generali

Questo articolo illustra la trascrizione, la traduzione e l'identificazione della lingua e le considerazioni chiave per usare questa tecnologia in modo responsabile. Quando si decide come usare e implementare una funzionalità basata su intelligenza artificiale, è necessario prendere in considerazione molti aspetti:

Questa funzionalità funziona correttamente nello scenario? Prima di usare la trascrizione, la traduzione e l'identificazione della lingua nello scenario, testare le prestazioni usando i dati reali e assicurarsi che possa offrire l'accuratezza necessaria.
È possibile identificare e rispondere agli errori? I prodotti e le funzionalità basati sull'intelligenza artificiale non saranno accurati al 100%, quindi valutare come identificare e rispondere a eventuali errori che possono verificarsi.

Visualizzare le informazioni dettagliate

Per visualizzare le informazioni dettagliate sul sito Web:

Passare a Informazioni dettagliate e scorrere fino a Trascrizione e traduzione.

Per visualizzare informazioni dettagliate sul linguaggio in insights.json, eseguire le operazioni seguenti:

Selezionare Download -> Insights (JSON).

Copiare l'elemento desiderato, in insightse incollarlo nel visualizzatore JSON online.

"insights": {
  "version": "1.0.0.0",
  "duration": "0:01:50.486",
  "sourceLanguage": "en-US",
  "sourceLanguages": [
    "en-US"
  ],
  "language": "en-US",
  "languages": [
    "en-US"
  ],
  "transcript": [
    {
      "id": 1,
      "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
      "confidence": 0.8879,
      "speakerId": 1,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:00",
          "adjustedEnd": "0:00:05.75",
          "start": "0:00:00",
          "end": "0:00:05.75"
        }
      ]
    },
    {
      "id": 2,
      "text": "Emily Tran, with office graphics.",
      "confidence": 0.8879,
      "speakerId": 1,
      "language": "en-US",
      "instances": [
        {
          "adjustedStart": "0:00:05.75",
          "adjustedEnd": "0:00:07.01",
          "start": "0:00:05.75",
          "end": "0:00:07.01"
        }
      ]
    },

Per scaricare il file JSON tramite l'API, usare il portale per sviluppatori di Video Indexer per intelligenza artificiale di Azure.

Componenti di trascrizione, traduzione e identificazione della lingua

Durante la trascrizione, la traduzione e la procedura di identificazione della lingua, il riconoscimento vocale in un file multimediale viene elaborato, come indicato di seguito:

Componente	Definizione
Lingua di origine	L'utente carica il file di origine per l'indicizzazione e: - Specifica la lingua di origine video. - Seleziona il rilevamento automatico di una singola lingua (LID) per identificare la lingua del file. L'output viene salvato separatamente. - Seleziona il rilevamento automatico di più lingue (MLID) per identificare più lingue nel file. L'output di ogni lingua viene salvato separatamente.
API di trascrizione	Il file audio viene inviato ai servizi di intelligenza artificiale di Azure per ottenere l'output trascritto e tradotto. Se è stata specificata una lingua, viene elaborata di conseguenza. Se non viene specificata alcuna lingua, viene eseguito un processo LID o MLID per identificare la lingua dopo la quale viene elaborato il file.
Unificazione dell'output	I file trascritti e tradotti vengono unificati nello stesso file. I dati restituiti includono l'ID voce di ogni frase estratta insieme al relativo livello di attendibilità.
Valore di attendibilità	Il livello di attendibilità stimato di ogni frase viene calcolato come intervallo compreso tra 0 e 1. Il punteggio di attendibilità rappresenta la certezza nell'accuratezza del risultato. Ad esempio, una certezza dell'82% è rappresentata come punteggio di 0,82.

Caso d'uso di esempio

Promuovere l'accessibilità rendendo disponibile il contenuto per le persone con problemi di udito usando Azure AI Video Indexer per generare la trascrizione del testo e la traduzione in più lingue.
Miglioramento della distribuzione dei contenuti a un pubblico diversificato in aree e lingue diverse offrendo contenuto in più lingue usando le funzionalità di trascrizione e traduzione di Video Indexer di Azure AI.
Miglioramento e miglioramento manuale della generazione di didascalia e sottotitoli chiusi sfruttando le funzionalità di trascrizione e traduzione di Video Indexer per intelligenza artificiale di Azure e usando le didascalia chiuse generate da Azure AI Video Indexer in uno dei formati supportati.
Usando l'identificazione della lingua (LID) o MLID (Multi Language Identification) per trascrivere video in lingue sconosciute per consentire ad Azure AI Video Indexer di identificare automaticamente le lingue visualizzate nel video e generare di conseguenza la trascrizione.

Considerazioni e limitazioni quando si sceglie un caso d'uso

Quando viene usato in modo responsabile e attento, Azure AI Video Indexer è uno strumento prezioso per molti settori. Per rispettare la privacy e la sicurezza di altri utenti e per rispettare le normative locali e globali, è consigliabile:

Considerare attentamente l'accuratezza dei risultati, per promuovere dati più accurati, controllare la qualità dell'audio, l'audio di bassa qualità potrebbe influire sulle informazioni rilevate.
Rispetta sempre il diritto di un individuo alla privacy e inserisce solo video per scopi legittimi e giustificabili.
Non divulgare intenzionalmente media inappropriati che mostrano bambini o familiari di celebrità o altri contenuti che possono essere dannosi o rappresentare una minaccia per la libertà personale di un individuo.
Impegnarsi a rispettare e promuovere i diritti umani nella progettazione e nella distribuzione dei media analizzati.
Quando si usano materiali di terze parti, tenere presente eventuali copyright o autorizzazioni esistenti necessari prima di distribuirli.
Cercare sempre consigli legali quando si usano supporti provenienti da fonti sconosciute.
Ottenere sempre consigli legali e professionali appropriati per garantire che i video caricati siano protetti e abbiano controlli adeguati per preservare l'integrità del contenuto e per impedire l'accesso non autorizzato.
Fornire un canale di feedback che consente a utenti e utenti di segnalare problemi con il servizio.
Tenere presente eventuali leggi o normative applicabili presenti nell'area relativa all'elaborazione, all'analisi e alla condivisione di contenuti multimediali contenenti persone.
Mantenere un essere umano nel ciclo. Non usare alcuna soluzione come sostituzione per la supervisione umana e il processo decisionale.
Esaminare e esaminare completamente il potenziale di qualsiasi modello di intelligenza artificiale in uso per comprendere le funzionalità e le limitazioni.
Video Indexer non esegue il riconoscimento del parlante, quindi agli altoparlanti non viene assegnato un identificatore tra più file. Non è possibile cercare un singolo altoparlante in più file o trascrizioni.
Gli identificatori del parlante vengono assegnati in modo casuale e possono essere usati solo per distinguere altoparlanti diversi in un singolo file.
Parlato incrociato e parlato sovrapposto: quando più altoparlanti parlano simultaneamente o si interrompono l'uno dall'altro, diventa difficile per il modello distinguere e assegnare accuratamente il testo corretto agli altoparlanti corrispondenti.
Sovrapposizioni del parlante: a volte, i parlanti possono avere modelli vocali simili, accenti o usare un vocabolario simile, rendendo difficile per il modello distinguerli.
Audio rumoroso: qualità audio scarsa, rumore di fondo o registrazioni di bassa qualità possono ostacolare la capacità del modello di identificare e trascrivere correttamente gli altoparlanti.
Parlato emotivo: le variazioni emotivo del parlato, ad esempio grida, pianto o eccitazione estrema, possono influire sulla capacità del modello di diarizzare accuratamente gli altoparlanti.
Travestimento o rappresentazione dell'altoparlante: se un altoparlante tenta intenzionalmente di imitare o mascherare la voce, il modello potrebbe indicare erroneamente l'altoparlante.
Identificazione ambigua dell'altoparlante: alcuni segmenti di parlato potrebbero non avere caratteristiche univoco sufficienti per il modello per attribuire in modo sicuro a un altoparlante specifico.

Per altre informazioni, vedere Linee guida e limitazioni nel rilevamento e nella trascrizione della lingua.

Share via