Personalizzare un modello di riconoscimento vocale
Nota
La personalizzazione del modello di riconoscimento vocale, incluso il training della pronuncia, è supportata solo negli account di valutazione di Video Indexer di Azure e negli account di Resource Manager. Non è supportato negli account classici. Per indicazioni su come aggiornare il tipo di account senza costi, vedere Aggiornare l'account di Azure AI Video Indexer. Per indicazioni sull'uso dell'esperienza di linguaggio personalizzata, vedere Personalizzare un modello linguistico.
Video Indexer di Azure per intelligenza artificiale consente di creare modelli di riconoscimento vocale personalizzati per personalizzare il riconoscimento vocale caricando set di dati usati per creare un modello di riconoscimento vocale. Questo articolo illustra i passaggi da eseguire tramite il sito Web di Video Indexer. È anche possibile usare l'API, come descritto in Personalizzare il modello di riconoscimento vocale usando l'API.
Per una panoramica dettagliata e procedure consigliate per i modelli di riconoscimento vocale personalizzati, vedere Personalizzare un modello di riconoscimento vocale con Video Indexer di Intelligenza artificiale di Azure.
Prerequisiti
- Leggere la guida alle procedure consigliate per il training del modello di riconoscimento vocale.
- Un account Azure
- Un account Video Indexer di Azure per intelligenza artificiale
Creare un set di dati
Poiché tutti i modelli personalizzati devono contenere un set di dati, si inizierà con il processo di creazione e gestione dei set di dati.
- Selezionare il pulsante Di personalizzazione del modello.
- Selezionare la scheda Voce (nuova).
- Selezionare Carica set di dati.
- Selezionare Testo normale o Pronuncia dal menu a discesa Tipo di set di dati. Ogni modello di riconoscimento vocale deve avere un set di dati di testo normale e può facoltativamente avere un set di dati di pronuncia.
- Selezionare Sfoglia e selezionare il file del set di dati. È possibile sceglierne uno solo.
- Selezionare una lingua per il modello. Scegliere la lingua parlata nei file multimediali che si prevede di indicizzare con questo modello. Il nome del set di dati è prepopolato con il nome del file, ma è possibile modificare il nome.
- Facoltativamente, è possibile aggiungere una descrizione del set di dati. Questo può essere utile per distinguere ogni set di dati se si prevede di avere più set di dati.
- Selezionare Carica. Al termine della creazione del set di dati, è possibile usarlo per il training e la creazione di nuovi modelli.
Esaminare e aggiornare un set di dati
È possibile visualizzare un set di dati e le relative proprietà in base a:
- Fare clic sul nome del set di dati
- Passaggio del mouse sul set di dati
- Selezione dei puntini di sospensione
Selezionare quindi Visualizza set di dati.
È quindi possibile visualizzare il nome, la descrizione, la lingua e lo stato del set di dati, oltre alle proprietà seguenti:
Numero di righe: indica il numero di righe caricate correttamente dal numero totale di righe nel file. Se l'intero file viene caricato correttamente, i numeri corrispondono (ad esempio, 10 di 10 normalizzati). Se i numeri non corrispondono (ad esempio, 7 di 10 normalizzati), significa che solo alcune righe sono state caricate correttamente e il resto ha avuto errori. Le cause comuni degli errori sono problemi di formattazione con una riga, ad esempio la mancata spaziatura di una scheda tra ogni parola in un file di pronuncia. Esaminare i dati di testo normale e pronuncia per gli articoli di training dovrebbe essere utile per trovare il problema. Per risolvere la causa, esaminare i dettagli dell'errore contenuti nel report. Selezionare Visualizza report per visualizzare i dettagli dell'errore relativi alle righe che non sono state caricate correttamente (errorKind). Questa opzione può essere visualizzata anche selezionando la scheda Report .
ID set di dati: ogni set di dati ha un GUID univoco, necessario quando si usa l'API per le operazioni che fanno riferimento al set di dati.
Testo normale (normalizzato): contiene il testo normalizzato del file del set di dati caricato. Il testo normalizzato è il testo riconosciuto in formato normale senza formattazione.
Modifica dettagli: per modificare il nome o la descrizione di un set di dati, quando si passa il puntatore del mouse sul set di dati, selezionare i puntini di sospensione e quindi selezionare Modifica dettagli. È quindi possibile modificare il nome e la descrizione del set di dati.
Nota
I dati in un set di dati non possono essere modificati o aggiornati dopo il caricamento del set di dati. Se è necessario modificare o aggiornare i dati in un set di dati, scaricare il set di dati, eseguire le modifiche, salvare il file e caricare il nuovo file del set di dati.
Download: per scaricare un file del set di dati, quando si passa il puntatore del mouse sul set di dati, selezionare i puntini di sospensione e quindi selezionare Scarica. In alternativa, quando si visualizza il set di dati, è possibile selezionare Scarica e quindi scegliere di scaricare il file del set di dati o il report di caricamento in formato JSON.
Elimina: per eliminare un set di dati, quando si passa il puntatore del mouse sul set di dati, selezionare i puntini di sospensione e quindi selezionare Elimina.
Creare un modello di conversione voce/testo personalizzato
I set di dati vengono usati nella creazione e nel training dei modelli. Dopo aver creato un set di dati di testo normale, è possibile creare e iniziare a usare un modello di riconoscimento vocale personalizzato.
Quando si creano e si usano modelli di riconoscimento vocale personalizzati, tenere presente quanto segue:
- Un nuovo modello deve includere almeno un set di dati di testo normale e può avere più set di dati di testo normale.
- È facoltativo includere un set di dati di pronuncia e non è possibile includerne più di uno.
- Dopo aver creato un modello, non è possibile aggiungere altri set di dati o apportare modifiche ai relativi set di dati. Se è necessario aggiungere o modificare set di dati, creare un nuovo modello.
- Se è stato indicizzato un video usando un modello di riconoscimento vocale personalizzato e quindi si elimina il modello, la trascrizione non è interessata a meno che non si esegua una reindicizzazione.
- Se è stato eliminato un set di dati usato per eseguire il training di un modello personalizzato, poiché il modello di riconoscimento vocale è già stato sottoposto a training dal set di dati, continua a usarlo fino all'eliminazione del modello di riconoscimento vocale.
- Se si elimina un modello personalizzato, non ha alcun impatto sulla trascrizione dei video già indicizzati usando il modello.
Eseguire il training di un modello
Nota
Dopo aver creato un modello, non è possibile aggiungere set di dati. Un modello può contenere solo set di dati della stessa lingua.
Esistono due modi per eseguire il training di un modello, tramite la scheda set di dati e la scheda del modello.
Eseguire il training di un modello tramite la scheda Set di dati
- Visualizzare l'elenco dei set di dati.
- Selezionare un set di dati di testo normale. È quindi possibile selezionare l'icona Train new model (Esegui training nuovo modello sopra).
- Selezionare Train new model (Esegui training nuovo modello).
- Immettere un nome per il modello, una lingua e, facoltativamente, aggiungere una descrizione.
- Selezionare la scheda Set di dati
- Selezionare i set di dati da includere nel modello.
- Selezionare Crea ed esegui il training.
Eseguire il training di un modello tramite la scheda Modelli
- Selezionare la scheda Modelli.
- Selezionare l'icona Train new model (Esegui training nuovo modello ).
- Selezionare i set di dati che si desidera far parte del modello.
- Immettere un nome per il modello, una lingua e, facoltativamente, aggiungere una descrizione.
- Selezionare la scheda Set di dati.
- Selezionare i set di dati da includere nel modello.
- Selezionare Crea ed esegui il training.
Esaminare e aggiornare un modello
Visualizza modello: è possibile visualizzare un modello e le relative proprietà facendo clic sul nome del modello o passando il puntatore del mouse sul modello, facendo clic sui puntini di sospensione e quindi selezionando Visualizza modello.
Nella scheda Dettagli verrà quindi visualizzato il nome, la descrizione, la lingua e lo stato del modello, oltre alle proprietà seguenti:
ID modello: ogni modello ha un GUID univoco, necessario quando si usa l'API per le operazioni che fanno riferimento al modello.
Creato in: data di creazione del modello.
Modifica dettagli: per modificare il nome o la descrizione di un modello, quando si passa il puntatore del mouse sul modello, selezionare i puntini di sospensione e quindi selezionare Modifica dettagli. Sarà quindi possibile modificare il nome e la descrizione del modello.
Nota
È possibile modificare solo il nome e la descrizione del modello. Se si desidera apportare modifiche ai set di dati o aggiungere set di dati, è necessario creare un nuovo modello.
Elimina: per eliminare un modello, quando si passa il puntatore del mouse sul set di dati, selezionare i puntini di sospensione e quindi selezionare Elimina.
Set di dati inclusi: selezionare la scheda Set di dati inclusi per visualizzare i set di dati del modello.
Usare un modello linguistico personalizzato durante l'indicizzazione di un video
Un modello linguistico personalizzato non viene usato per impostazione predefinita per i processi di indicizzazione, pertanto deve essere selezionato durante il processo di caricamento dell'indice.
- Durante il processo di caricamento, selezionare l'origine del modello linguistico personalizzato dal menu a discesa lingua .
- Selezionare Carica.
Gli stessi passaggi si applicano quando si vuole reindicizzare un video con un modello personalizzato.