Ottenere informazioni dettagliate sulla trascrizione, la traduzione e l'identificazione della lingua multimediale
Trascrizione multimediale, traduzione e identificazione della lingua
La trascrizione, la traduzione e l'identificazione della lingua rileva, trascrive e converte il parlato nei file multimediali in più di 50 lingue.
Azure AI Video Indexer (VI) elabora il parlato nel file audio per estrarre la trascrizione che viene quindi tradotta in molte lingue. Quando si sceglie di tradurre in una lingua specifica, sia la trascrizione che le informazioni dettagliate, ad esempio parole chiave, argomenti, etichette o OCR, vengono tradotte nella lingua specificata. La trascrizione può essere usata così com'è o essere combinata con informazioni dettagliate sull'altoparlante che eseguono il mapping e assegnano le trascrizioni in altoparlanti. È possibile rilevare più altoparlanti in un file audio. Un ID viene assegnato a ogni altoparlante e viene visualizzato sotto il parlato trascritto.
L'identificazione della lingua (LID) riconosce la lingua parlata dominante supportata nel file video. Per altre informazioni, vedere Applicazione del COPERCHIo.
L'identificazione in più lingue (MLID) riconosce automaticamente le lingue parlate in segmenti diversi nel file audio e invia ogni segmento da trascrivere nelle lingue identificate. Al termine di questo processo, tutte le trascrizioni vengono combinate nello stesso file. Per altre informazioni, vedere Applicazione di MLID. Le informazioni dettagliate risultanti vengono generate in un elenco categorizzato in un file JSON che include l'ID, la lingua, il testo trascritto, la durata e il punteggio di attendibilità.
Quando si indicizzano file multimediali con più altoparlanti, Azure AI Video Indexer esegue la diarizzazione del parlante che identifica ogni altoparlante in un video e attributi ogni linea trascritta a un altoparlante. Ai relatori viene assegnata un'identità univoca, ad esempio Speaker #1 e Speaker #2. Ciò consente l'identificazione dei relatori durante le conversazioni e può essere utile in vari scenari, ad esempio conversazioni medico-paziente, interazioni con agente-cliente e procedimenti giudiziari.
Casi d'uso di trascrizione, traduzione e identificazione della lingua multimediale
- Promuovere l'accessibilità rendendo disponibile il contenuto per le persone con problemi di udito usando Azure AI Video Indexer per generare la trascrizione del testo e la traduzione in più lingue.
- Miglioramento della distribuzione dei contenuti a un pubblico diversificato in aree e lingue diverse offrendo contenuto in più lingue usando le funzionalità di trascrizione e traduzione di Video Indexer di Azure AI.
- Miglioramento e miglioramento della generazione manuale di sottotitoli e sottotitoli usando le funzionalità di trascrizione e traduzione di Video Indexer per intelligenza artificiale di Azure e usando le didascalie chiuse generate da Azure AI Video Indexer in uno dei formati supportati.
- Usando l'identificazione della lingua (LID) o MLID (Multi Language Identification) per trascrivere video in lingue sconosciute per consentire ad Azure AI Video Indexer di identificare automaticamente le lingue visualizzate nel video e generare di conseguenza la trascrizione.
Visualizzare il codice JSON di informazioni dettagliate con il portale Web
Dopo aver caricato e indicizzato un video, le informazioni dettagliate sono disponibili in formato JSON per il download tramite il portale Web.
- Selezionare la scheda Libreria .
- Selezionare i supporti con cui si vuole lavorare.
- Selezionare Download (Download) e Insights (JSON).Select Download and the Insights (JSON). Il file JSON viene aperto in una nuova scheda del browser.
- Cercare la coppia di chiavi descritta nella risposta di esempio.
Usare l'API
- Usare la richiesta Recupera indice video . È consigliabile
&includeSummarizedInsights=false
passare . - Cercare le coppie chiave descritte nella risposta di esempio.
Esempio di risposta
Tutte le lingue rilevate nel video sono sotto sourceLanauge e ogni istanza nella sectin trascrizione include la lingua trascritta.
"insights": {
"version": "1.0.0.0",
"duration": "0:01:50.486",
"sourceLanguage": "en-US",
"sourceLanguages": [
"es-ES",
"en-US"
],
"language": "en-US",
"languages": [
"en-US"
],
"transcript": [
{
"id": 1,
"text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:00",
"adjustedEnd": "0:00:05.75",
"start": "0:00:00",
"end": "0:00:05.75"
}
]
},
{
"id": 2,
"text": "Emily Tran, with office graphics.",
"confidence": 0.8879,
"speakerId": 1,
"language": "en-US",
"instances": [
{
"adjustedStart": "0:00:05.75",
"adjustedEnd": "0:00:07.01",
"start": "0:00:05.75",
"end": "0:00:07.01"
}
]
},
Importante
È importante leggere la panoramica delle note sulla trasparenza per tutte le funzionalità vi. Ogni informazione ha anche note sulla trasparenza proprie:
Trascrizione, traduzione e note di identificazione della lingua
Quando viene usato in modo responsabile e attento, Azure AI Video Indexer è uno strumento prezioso per molti settori. È sempre necessario rispettare la privacy e la sicurezza degli altri e rispettare le normative locali e globali. Consigliamo:
- Considerare attentamente l'accuratezza dei risultati, per promuovere dati più accurati, controllare la qualità dell'audio, l'audio di bassa qualità potrebbe influire sulle informazioni rilevate.
- Video Indexer non esegue il riconoscimento del parlante, quindi agli altoparlanti non viene assegnato un identificatore in più file. Non è possibile cercare un singolo altoparlante in più file o trascrizioni.
- Gli identificatori del parlante vengono assegnati in modo casuale e possono essere usati solo per distinguere altoparlanti diversi in un singolo file.
- Parlato incrociato e parlato sovrapposto: quando più altoparlanti parlano simultaneamente o si interrompono l'uno dall'altro, diventa difficile per il modello distinguere e assegnare accuratamente il testo corretto agli altoparlanti corrispondenti.
- Sovrapposizioni del parlante: a volte, i parlanti potrebbero avere modelli vocali simili, accenti o usare un vocabolario simile, rendendo difficile per il modello distinguerli.
- Audio rumoroso: qualità audio scarsa, rumore di fondo o registrazioni di bassa qualità possono ostacolare la capacità del modello di identificare e trascrivere correttamente gli altoparlanti.
- Parlato emotivo: le variazioni emotivo del parlato, ad esempio grida, pianto o eccitazione estrema, possono influire sulla capacità del modello di diarizzare accuratamente gli altoparlanti.
- Travestimento o rappresentazione dell'altoparlante: se un altoparlante tenta intenzionalmente di imitare o mascherare la voce, il modello potrebbe indicare erroneamente l'altoparlante.
- Identificazione ambigua dell'altoparlante: alcuni segmenti di parlato potrebbero non avere caratteristiche univoco sufficienti per il modello per attribuire in modo sicuro a un parlante specifico.
- L'audio che contiene lingue diverse da quelle selezionate produce risultati imprevisti.
- La lunghezza minima del segmento per il rilevamento di ogni lingua è di 15 secondi.
- L'offset di rilevamento della lingua è di 3 secondi in media.
- È previsto che il riconoscimento vocale sia continuo. Le frequenti alternanze tra lingue possono influire sulle prestazioni del modello.
- Il parlato dei parlanti non nativi potrebbe influire sulle prestazioni del modello( ad esempio, quando gli altoparlanti usano la prima lingua e passano a un'altra lingua).
- Il modello è progettato per riconoscere il parlato conversazionale spontaneo con acustica audio ragionevole (non comandi vocali, canto e così via).
- La creazione e la modifica del progetto non sono disponibili per video multilingue.
- I modelli linguistici personalizzati non sono disponibili quando si usa il rilevamento multilingue.
- L'aggiunta di parole chiave non è supportata.
- L'indicazione della lingua non è inclusa nel file di sottotitoli chiusi esportato.
- La trascrizione degli aggiornamenti nell'API non supporta più file di lingue.
- Il modello è progettato per riconoscere un parlato conversazionale spontaneo (non comandi vocali, canto e così via).
- Se Video Indexer di Intelligenza artificiale di Azure non riesce a identificare la lingua con un livello di attendibilità sufficiente (maggiore di 0,6), la lingua di fallback è l'inglese.
Ecco un elenco delle lingue supportate.
Componenti di trascrizione, traduzione e identificazione della lingua
Durante la trascrizione, la traduzione e la procedura di identificazione della lingua, il riconoscimento vocale in un file multimediale viene elaborato, come indicato di seguito:
Componente | Definizione |
---|---|
Lingua di origine | L'utente carica il file di origine per l'indicizzazione e: - Specifica la lingua di origine video. - Seleziona il rilevamento automatico di una singola lingua (LID) per identificare la lingua del file. L'output viene salvato separatamente. - Seleziona il rilevamento automatico di più lingue (MLID) per identificare più lingue nel file. L'output di ogni lingua viene salvato separatamente. |
API di trascrizione | Il file audio viene inviato ai servizi di intelligenza artificiale di Azure per ottenere l'output trascritto e tradotto. Se viene specificata una lingua, viene elaborata di conseguenza. Se non viene specificata alcuna lingua, viene eseguito un processo LID o MLID per identificare la lingua dopo la quale viene elaborato il file. |
Unificazione dell'output | I file trascritti e tradotti vengono unificati nello stesso file. I dati restituiti includono l'ID voce di ogni frase estratta insieme al relativo livello di attendibilità. |
Valore di attendibilità | Il livello di attendibilità stimato di ogni frase viene calcolato come intervallo compreso tra 0 e 1. Il punteggio di attendibilità rappresenta la certezza nell'accuratezza del risultato. Ad esempio, una certezza dell'82% è rappresentata come punteggio di 0,82. |