Creare un progetto di riconoscimento vocale personalizzato

Articolo
04/15/2024

I progetti di riconoscimento vocale personalizzati contengono modelli, set di dati di training e test e endpoint di distribuzione. Ogni progetto è specifico delle impostazioni locali. Ad esempio, è possibile creare un progetto per l'inglese nel Stati Uniti.

Creare un progetto

Per creare un progetto di riconoscimento vocale personalizzato, seguire questa procedura:

Accedere a Speech Studio.
Selezionare la sottoscrizione e la risorsa Voce da usare.

Importante

Se si esegue il training di un modello personalizzato con dati audio, scegliere un'area di risorse Voce con hardware dedicato per il training dei dati audio. Per altre informazioni, vedere note a piè di pagina nella tabella delle aree .
Selezionare Riconoscimento vocale>personalizzato Crea un nuovo progetto.
Seguire le istruzioni fornite dalla procedura guidata per creare il progetto.

Selezionare il nuovo progetto in base al nome o selezionare Vai al progetto. Queste voci di menu verranno visualizzate nel pannello sinistro: Set di dati voce, Eseguire il training di modelli personalizzati, Modelli di test e Distribuire modelli.

Per creare un progetto, usare il spx csr project create comando . Creare i parametri della richiesta in base alle istruzioni seguenti:

Impostare il parametro obbligatorio language . Le impostazioni locali del progetto e i set di dati contenuti devono essere uguali. Le impostazioni locali non possono essere modificate in un secondo momento. Il parametro dell'interfaccia della locale riga di comando language di Voce corrisponde alla proprietà nella richiesta e nella risposta JSON.
Impostare il parametro obbligatorio name . Si tratta del nome visualizzato in Speech Studio. Il parametro dell'interfaccia della displayName riga di comando name di Voce corrisponde alla proprietà nella richiesta e nella risposta JSON.

Ecco un esempio di comando dell'interfaccia della riga di comando di Voce che crea un progetto:

spx csr project create --api-version v3.1 --name "My Project" --description "My Project Description" --language "en-US"

Dovrebbe essere visualizzato un corpo della risposta nel formato seguente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

La proprietà di primo livello self nel corpo della risposta è l'URI del progetto. Usare questo URI per ottenere informazioni dettagliate sulle valutazioni, i set di dati, i modelli, gli endpoint e le trascrizioni del progetto. È anche possibile usare questo URI per aggiornare o eliminare un progetto.

Per la Guida dell'interfaccia della riga di comando di Voce con i progetti, eseguire il comando seguente:

spx help csr project

Per creare un progetto, usare l'operazione Projects_Create dell'API REST Riconoscimento vocale. Costruire il corpo della richiesta in base alle istruzioni seguenti:

Impostare la proprietà obbligatoria locale . Deve trattarsi delle impostazioni locali dei set di dati contenuti. Le impostazioni locali non possono essere modificate in un secondo momento.
Impostare la proprietà obbligatoria displayName . Si tratta del nome del progetto visualizzato in Speech Studio.

Effettuare una richiesta HTTP POST usando l'URI come illustrato nell'esempio di Projects_Create seguente. Sostituire YourSubscriptionKey con la chiave della risorsa Voce, sostituire YourServiceRegion con l'area della risorsa Voce e impostare le proprietà del corpo della richiesta come descritto in precedenza.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/projects"

Dovrebbe essere visualizzato un corpo della risposta nel formato seguente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Scegliere il modello

Esistono alcuni approcci all'uso di modelli di riconoscimento vocale personalizzati:

Il modello di base offre un riconoscimento vocale accurato per una serie di scenari. I modelli di base vengono aggiornati periodicamente per migliorare l'accuratezza e la qualità. Se si usano modelli di base, è consigliabile usare i modelli di base predefiniti più recenti. Se una funzionalità di personalizzazione necessaria è disponibile solo con un modello meno recente, è possibile scegliere un modello di base meno recente.
Un modello personalizzato aumenta il modello di base per includere un vocabolario specifico del dominio condiviso in tutte le aree del dominio personalizzato.
È possibile usare più modelli personalizzati quando il dominio personalizzato ha più aree, ognuna con un vocabolario specifico.

Un modo consigliato per verificare se il modello di base è sufficiente per analizzare la trascrizione prodotta dal modello di base e confrontarla con una trascrizione generata dall'utente per lo stesso audio. È possibile confrontare le trascrizioni e ottenere un punteggio di percentuale errori delle parole (WER). Se il punteggio WER è elevato, è consigliabile eseguire il training di un modello personalizzato per riconoscere le parole identificate in modo non corretto.

Se il vocabolario varia in base alle aree di dominio, è consigliabile usare più modelli. Ad esempio, i commentatori olimpici riferiscono di vari eventi, ognuno associato al proprio host. Poiché ogni vocabolario di eventi olimpici differisce in modo significativo da altri, la creazione di un modello personalizzato specifico per un evento aumenta l'accuratezza limitando i dati dell'espressione rispetto a quel particolare evento. Di conseguenza, il modello non deve analizzare i dati non correlati per stabilire una corrispondenza. Indipendentemente dal fatto che il training richieda comunque una varietà decente di dati di training. Includi audio di vari commentatori che hanno accenti diversi, sesso, età, e così via.

Stabilità e ciclo di vita del modello

Un modello di base o un modello personalizzato distribuito in un endpoint tramite riconoscimento vocale personalizzato viene corretto fino a quando non si decide di aggiornarlo. L'accuratezza e la qualità del riconoscimento vocale rimangono coerenti, anche quando viene rilasciato un nuovo modello di base. In questo modo è possibile bloccare il comportamento di un modello specifico fino a quando non si decide di usare un modello più recente.

Sia che si esegue il training del proprio modello o si usi uno snapshot di un modello di base, è possibile usare il modello per un periodo di tempo limitato. Per altre informazioni, vedere Ciclo di vita del modello e dell'endpoint.

Creare un progetto di riconoscimento vocale personalizzato