Personalizzare un modello di riconoscimento vocale

Articolo
10/09/2024

Nota

La personalizzazione del modello di riconoscimento vocale, incluso il training della pronuncia, è supportata solo negli account di valutazione di Video Indexer di Azure e negli account di Resource Manager. Non è supportato negli account classici. Per indicazioni su come aggiornare il tipo di account senza costi, vedere Aggiornare l'account di Azure AI Video Indexer. Per indicazioni sull'uso dell'esperienza di linguaggio personalizzata, vedere Personalizzare un modello linguistico.

Video Indexer di Azure per intelligenza artificiale consente di creare modelli di riconoscimento vocale personalizzati per personalizzare il riconoscimento vocale caricando set di dati usati per creare un modello di riconoscimento vocale. Questo articolo illustra i passaggi da eseguire tramite il sito Web di Video Indexer. È anche possibile usare l'API, come descritto in Personalizzare il modello di riconoscimento vocale usando l'API.

Per una panoramica dettagliata e procedure consigliate per i modelli di riconoscimento vocale personalizzati, vedere Personalizzare un modello di riconoscimento vocale con Video Indexer di Intelligenza artificiale di Azure.

Prerequisiti

Leggere la guida alle procedure consigliate per il training del modello di riconoscimento vocale.
Un account Azure
Un account Video Indexer di Azure per intelligenza artificiale

Portale Web
API

Creare un set di dati

Poiché tutti i modelli personalizzati devono contenere un set di dati, si inizierà con il processo di creazione e gestione dei set di dati.

Selezionare il pulsante Di personalizzazione del modello.
Selezionare la scheda Voce (nuova).
Selezionare Carica set di dati.
Selezionare Testo normale o Pronuncia dal menu a discesa Tipo di set di dati. Ogni modello di riconoscimento vocale deve avere un set di dati di testo normale e può facoltativamente avere un set di dati di pronuncia.
Selezionare Sfoglia e selezionare il file del set di dati. È possibile sceglierne uno solo.
Selezionare una lingua per il modello. Scegliere la lingua parlata nei file multimediali che si prevede di indicizzare con questo modello. Il nome del set di dati è prepopolato con il nome del file, ma è possibile modificare il nome.
Facoltativamente, è possibile aggiungere una descrizione del set di dati. Questo può essere utile per distinguere ogni set di dati se si prevede di avere più set di dati.
Selezionare Carica. Al termine della creazione del set di dati, è possibile usarlo per il training e la creazione di nuovi modelli.

Esaminare e aggiornare un set di dati

È possibile visualizzare un set di dati e le relative proprietà in base a:

Fare clic sul nome del set di dati
Passaggio del mouse sul set di dati
Selezione dei puntini di sospensione

Selezionare quindi Visualizza set di dati.

È quindi possibile visualizzare il nome, la descrizione, la lingua e lo stato del set di dati, oltre alle proprietà seguenti:

Numero di righe: indica il numero di righe caricate correttamente dal numero totale di righe nel file. Se l'intero file viene caricato correttamente, i numeri corrispondono (ad esempio, 10 di 10 normalizzati). Se i numeri non corrispondono (ad esempio, 7 di 10 normalizzati), significa che solo alcune righe sono state caricate correttamente e il resto ha avuto errori. Le cause comuni degli errori sono problemi di formattazione con una riga, ad esempio la mancata spaziatura di una scheda tra ogni parola in un file di pronuncia. Esaminare i dati di testo normale e pronuncia per gli articoli di training dovrebbe essere utile per trovare il problema. Per risolvere la causa, esaminare i dettagli dell'errore contenuti nel report. Selezionare Visualizza report per visualizzare i dettagli dell'errore relativi alle righe che non sono state caricate correttamente (errorKind). Questa opzione può essere visualizzata anche selezionando la scheda Report .

ID set di dati: ogni set di dati ha un GUID univoco, necessario quando si usa l'API per le operazioni che fanno riferimento al set di dati.

Testo normale (normalizzato): contiene il testo normalizzato del file del set di dati caricato. Il testo normalizzato è il testo riconosciuto in formato normale senza formattazione.

Modifica dettagli: per modificare il nome o la descrizione di un set di dati, quando si passa il puntatore del mouse sul set di dati, selezionare i puntini di sospensione e quindi selezionare Modifica dettagli. È quindi possibile modificare il nome e la descrizione del set di dati.

Nota

I dati in un set di dati non possono essere modificati o aggiornati dopo il caricamento del set di dati. Se è necessario modificare o aggiornare i dati in un set di dati, scaricare il set di dati, eseguire le modifiche, salvare il file e caricare il nuovo file del set di dati.

Download: per scaricare un file del set di dati, quando si passa il puntatore del mouse sul set di dati, selezionare i puntini di sospensione e quindi selezionare Scarica. In alternativa, quando si visualizza il set di dati, è possibile selezionare Scarica e quindi scegliere di scaricare il file del set di dati o il report di caricamento in formato JSON.

Elimina: per eliminare un set di dati, quando si passa il puntatore del mouse sul set di dati, selezionare i puntini di sospensione e quindi selezionare Elimina.

Creare un modello di conversione voce/testo personalizzato

I set di dati vengono usati nella creazione e nel training dei modelli. Dopo aver creato un set di dati di testo normale, è possibile creare e iniziare a usare un modello di riconoscimento vocale personalizzato.

Quando si creano e si usano modelli di riconoscimento vocale personalizzati, tenere presente quanto segue:

Un nuovo modello deve includere almeno un set di dati di testo normale e può avere più set di dati di testo normale.
È facoltativo includere un set di dati di pronuncia e non è possibile includerne più di uno.
Dopo aver creato un modello, non è possibile aggiungere altri set di dati o apportare modifiche ai relativi set di dati. Se è necessario aggiungere o modificare set di dati, creare un nuovo modello.
Se è stato indicizzato un video usando un modello di riconoscimento vocale personalizzato e quindi si elimina il modello, la trascrizione non è interessata a meno che non si esegua una reindicizzazione.
Se è stato eliminato un set di dati usato per eseguire il training di un modello personalizzato, poiché il modello di riconoscimento vocale è già stato sottoposto a training dal set di dati, continua a usarlo fino all'eliminazione del modello di riconoscimento vocale.
Se si elimina un modello personalizzato, non ha alcun impatto sulla trascrizione dei video già indicizzati usando il modello.

Eseguire il training di un modello

Nota

Dopo aver creato un modello, non è possibile aggiungere set di dati. Un modello può contenere solo set di dati della stessa lingua.

Esistono due modi per eseguire il training di un modello, tramite la scheda set di dati e la scheda del modello.

Eseguire il training di un modello tramite la scheda Set di dati

Visualizzare l'elenco dei set di dati.
Selezionare un set di dati di testo normale. È quindi possibile selezionare l'icona Train new model (Esegui training nuovo modello sopra).
Selezionare Train new model (Esegui training nuovo modello).
Immettere un nome per il modello, una lingua e, facoltativamente, aggiungere una descrizione.
Selezionare la scheda Set di dati
Selezionare i set di dati da includere nel modello.
Selezionare Crea ed esegui il training.

Eseguire il training di un modello tramite la scheda Modelli

Selezionare la scheda Modelli.
Selezionare l'icona Train new model (Esegui training nuovo modello ).
Selezionare i set di dati che si desidera far parte del modello.
Immettere un nome per il modello, una lingua e, facoltativamente, aggiungere una descrizione.
Selezionare la scheda Set di dati.
Selezionare i set di dati da includere nel modello.
Selezionare Crea ed esegui il training.

Esaminare e aggiornare un modello

Visualizza modello: è possibile visualizzare un modello e le relative proprietà facendo clic sul nome del modello o passando il puntatore del mouse sul modello, facendo clic sui puntini di sospensione e quindi selezionando Visualizza modello.

Nella scheda Dettagli verrà quindi visualizzato il nome, la descrizione, la lingua e lo stato del modello, oltre alle proprietà seguenti:

ID modello: ogni modello ha un GUID univoco, necessario quando si usa l'API per le operazioni che fanno riferimento al modello.

Creato in: data di creazione del modello.

Modifica dettagli: per modificare il nome o la descrizione di un modello, quando si passa il puntatore del mouse sul modello, selezionare i puntini di sospensione e quindi selezionare Modifica dettagli. Sarà quindi possibile modificare il nome e la descrizione del modello.

Nota

È possibile modificare solo il nome e la descrizione del modello. Se si desidera apportare modifiche ai set di dati o aggiungere set di dati, è necessario creare un nuovo modello.

Elimina: per eliminare un modello, quando si passa il puntatore del mouse sul set di dati, selezionare i puntini di sospensione e quindi selezionare Elimina.

Set di dati inclusi: selezionare la scheda Set di dati inclusi per visualizzare i set di dati del modello.

Usare un modello linguistico personalizzato durante l'indicizzazione di un video

Un modello linguistico personalizzato non viene usato per impostazione predefinita per i processi di indicizzazione, pertanto deve essere selezionato durante il processo di caricamento dell'indice.

Durante il processo di caricamento, selezionare l'origine del modello linguistico personalizzato dal menu a discesa lingua .
Selezionare Carica.

Gli stessi passaggi si applicano quando si vuole reindicizzare un video con un modello personalizzato.

Nota

Di seguito è riportata una tabella di descrizioni di alcuni parametri usati con le richieste del modello di riconoscimento vocale:

Nome	Digitare	Descrizione
`displayName`	string	Nome desiderato del set di dati/modello.
`locale`	string	Codice linguistico del set di dati/modello. Per l'elenco completo, vedere Supporto linguistico.
`kind`	integer	0 per un set di dati di testo normale, 1 per un set di dati di pronuncia.
`description`	string	Descrizione facoltativa del set di dati/modello.
`contentUrl`	Uri	URL del file di origine usato nella creazione del set di dati.
`customProperties`	oggetto	Proprietà facoltative del set di dati/modello.

Creare un set di dati voce

La richiesta Crea set di dati voce crea un set di dati per il training di un modello di riconoscimento vocale. Caricare un file usato per creare un set di dati con questa richiesta. Il contenuto di un set di dati non può essere modificato dopo la creazione.

Definire i parametri nel corpo della richiesta, incluso un URL del file di testo da caricare. I campi della descrizione e delle proprietà personalizzate sono facoltativi. Questo è un esempio di corpo della richiesta:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Esempio di risposta

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Creare un modello di riconoscimento vocale

La richiesta Crea modello di riconoscimento vocale crea ed esegue il training di un modello di riconoscimento vocale personalizzato che può essere usato per migliorare l'accuratezza della trascrizione dei video. Deve contenere almeno un set di dati di testo normale. Facoltativamente, può avere set di dati di pronuncia. Crearlo con tutti i file del set di dati pertinenti come set di dati di un modello non può essere aggiunto o aggiornato dopo la creazione.

Definire i parametri nel corpo della richiesta, incluso un elenco di stringhe che il set di dati o i set di dati da includere per il modello. I campi della descrizione e delle proprietà personalizzate sono facoltativi. Questo è un esempio di corpo della richiesta:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Esempio di risposta

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Ottenere il set di dati voce

L'API Get Speech Dataset restituisce informazioni sul set di dati specificato.

Esempio di risposta

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Ottenere i file dei set di dati vocali

La richiesta Get Speech Dataset Files restituisce i file e i metadati del set di dati specificato.

Esempio di risposta

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Ottenere i set di dati dell'account specificati

La richiesta Get Speech Datasets restituisce informazioni su tutti i set di dati degli account specificati.

Esempio di risposta

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Ottenere il modello di riconoscimento vocale specificato

L'API Get Speech Model restituisce informazioni sul modello specificato.

Esempio di risposta

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Ottenere i modelli di riconoscimento vocale dell'account specificati

L'API Get Speech Models restituisce informazioni su tutti i modelli nell'account specificato.

Esempio di risposta

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Eliminare il set di dati voce

L'API Elimina set di dati voce elimina il set di dati specificato. Qualsiasi modello sottoposto a training con il set di dati eliminato continua a essere disponibile fino a quando il modello non viene eliminato. Non è possibile eliminare un set di dati mentre è in uso per l'indicizzazione o il training.

Esempio di risposta

Non viene restituito alcun contenuto quando il set di dati viene eliminato correttamente.

Eliminare un modello di riconoscimento vocale

L'API Elimina modello di riconoscimento vocale elimina il modello di riconoscimento vocale specificato. Non è possibile eliminare un modello mentre è in uso per l'indicizzazione o il training.

Response

Non viene restituito alcun contenuto quando il modello di riconoscimento vocale viene eliminato correttamente.

Condividi tramite

Personalizzare un modello di riconoscimento vocale

Prerequisiti

Creare un set di dati

Esaminare e aggiornare un set di dati

Creare un modello di conversione voce/testo personalizzato

Eseguire il training di un modello

Eseguire il training di un modello tramite la scheda Set di dati

Eseguire il training di un modello tramite la scheda Modelli

Esaminare e aggiornare un modello

Usare un modello linguistico personalizzato durante l'indicizzazione di un video

Creare un set di dati voce

Esempio di risposta

Creare un modello di riconoscimento vocale

Esempio di risposta

Ottenere il set di dati voce

Esempio di risposta

Ottenere i file dei set di dati vocali

Esempio di risposta

Ottenere i set di dati dell'account specificati

Esempio di risposta

Ottenere il modello di riconoscimento vocale specificato

Esempio di risposta

Ottenere i modelli di riconoscimento vocale dell'account specificati

Esempio di risposta

Eliminare il set di dati voce

Esempio di risposta

Eliminare un modello di riconoscimento vocale

Response

Commenti e suggerimenti

Risorse aggiuntive