API REST di Riconoscimento vocale
L'API REST riconoscimento vocale viene usata per la trascrizione batch e il riconoscimento vocale personalizzato.
Importante
L'API REST Riconoscimento vocale v3.2 è la versione più recente disponibile a livello generale. Le versioni in anteprima 3.2-preview.1 e 3.2-preview.2* verranno rimosse a settembre 2024. Verrà annunciata la data di ritiro dell'API REST Riconoscimento vocale v3.1. Per altre informazioni sull'aggiornamento, vedere la guida alla migrazione dell'API REST Riconoscimento vocale v3.1 alla versione 3.2 . API REST Riconoscimento vocale v3.0 verrà ritirata il 1° aprile 2026. Per altre informazioni sull'aggiornamento, vedere le guide alla migrazione dell'API REST Riconoscimento vocale v3.0 a v3.1 e v3.1 alla v3.2.
Usare l'API REST Riconoscimento vocale per:
- Trascrizione rapida: trascrivere i file audio con risultati in modo sincrono e molto più veloce rispetto all'audio in tempo reale. Usare l'API di trascrizione rapida (/speechtotext/trascrizioni:trascrivere) negli scenari in cui è necessaria la trascrizione di una registrazione audio il più rapidamente possibile con una latenza prevedibile, ad esempio trascrizione rapida di audio o video o traduzione video.
- Riconoscimento vocale personalizzato: caricare dati personalizzati, testare ed eseguire il training di un modello personalizzato, confrontare l'accuratezza tra i modelli e distribuire un modello in un endpoint personalizzato. Copiare modelli in altre sottoscrizioni se si vuole che i colleghi abbiano accesso a un modello creato o se si vuole distribuire un modello in più aree.
- Trascrizione batch: trascrivere i file audio come batch da più URL o da un contenitore di Azure.
L'API REST Riconoscimento vocale include funzionalità come:
- Ottenere i log per ogni endpoint se i log sono richiesti per tale endpoint.
- Richiedere il manifesto dei modelli creati per configurare i contenitori locali.
- Caricare i dati dagli account di archiviazione di Azure usando un URI di firma di accesso condiviso.
- Porta il tuo spazio di archiviazione. Usare i propri account di archiviazione per i log, i file di trascrizione e altri dati.
- Alcune operazioni supportano le notifiche webhook. È possibile registrare i webhook in cui vengono inviate le notifiche.
Trascrizione batch
I gruppi di operazioni seguenti sono applicabili per la trascrizione batch.
Gruppo di operazioni | Descrizione |
---|---|
Modelli | Usare modelli di base o modelli personalizzati per trascrivere file audio. È possibile usare modelli con riconoscimento vocale personalizzato e trascrizione batch. Ad esempio, è possibile usare un modello sottoposto a training con un set di dati specifico per trascrivere i file audio. Vedere Eseguire il training di un modello e il ciclo di vita del modello di riconoscimento vocale personalizzato per esempi su come eseguire il training e gestire modelli di riconoscimento vocale personalizzati. |
Trascrizioni | Usare le trascrizioni per trascrivere una grande quantità di audio nell'archiviazione. Quando si usa la trascrizione batch si inviano più file per richiesta o si punta a un contenitore Archiviazione BLOB di Azure con i file audio da trascrivere. Vedere Creare una trascrizione per esempi di come creare una trascrizione da più file audio. |
Webhook | Usare web hook per ricevere notifiche sugli eventi di creazione, elaborazione, completamento ed eliminazione. È possibile usare web hook con riconoscimento vocale personalizzato e trascrizione batch. Gli hook Web si applicano a set di dati, endpoint, valutazioni, modelli e trascrizioni. |
Riconoscimento vocale personalizzato
I gruppi di operazioni seguenti sono applicabili per il riconoscimento vocale personalizzato.
Gruppo di operazioni | Descrizione |
---|---|
Set di dati | Usare i set di dati per eseguire il training e testare modelli di riconoscimento vocale personalizzati. Ad esempio, è possibile confrontare le prestazioni di un riconoscimento vocale personalizzato sottoposto a training con un set di dati specifico con le prestazioni di un modello di base o di un modello di riconoscimento vocale personalizzato sottoposto a training con un set di dati diverso. Per esempi su come caricare set di dati, vedere Caricare set di dati di training e test . |
Endpoint | Distribuire modelli di riconoscimento vocale personalizzati agli endpoint. È necessario distribuire un endpoint personalizzato per usare un modello di riconoscimento vocale personalizzato. Vedere Distribuire un modello per esempi di come gestire gli endpoint di distribuzione. |
Giudizi | Usare valutazioni per confrontare le prestazioni di modelli diversi. Ad esempio, è possibile confrontare le prestazioni di un modello di riconoscimento vocale personalizzato sottoposto a training con un set di dati specifico con le prestazioni di un modello di base o un modello personalizzato sottoposto a training con un set di dati diverso. Per esempi su come testare e valutare modelli di riconoscimento vocale personalizzati, vedere Qualità del riconoscimento e accuratezza dei test. |
Modelli | Usare modelli di base o modelli personalizzati per trascrivere file audio. È possibile usare modelli con riconoscimento vocale personalizzato e trascrizione batch. Ad esempio, è possibile usare un modello sottoposto a training con un set di dati specifico per trascrivere i file audio. Vedere Eseguire il training di un modello e il ciclo di vita del modello di riconoscimento vocale personalizzato per esempi su come eseguire il training e gestire modelli di riconoscimento vocale personalizzati. |
Progetti | Usare i progetti per gestire modelli vocali personalizzati, set di dati di training e test e endpoint di distribuzione. I progetti di riconoscimento vocale personalizzati contengono modelli, set di dati di training e test e endpoint di distribuzione. Ogni progetto è specifico rispetto alle impostazioni locali. Ad esempio, è possibile creare un progetto per l’inglese negli Stati Uniti d’America. Per esempi su come creare progetti, vedere Creare un progetto . |
Webhook | Usare web hook per ricevere notifiche sugli eventi di creazione, elaborazione, completamento ed eliminazione. È possibile usare web hook con riconoscimento vocale personalizzato e trascrizione batch. Gli hook Web si applicano a set di dati, endpoint, valutazioni, modelli e trascrizioni. |
Integrità dei servizi
Integrità dei servizi fornisce informazioni dettagliate sull'integrità complessiva del servizio e dei sottocomponenti. Per altre informazioni, vedere Integrità dei servizi.