Che cos'è Speech Studio?

Articolo
01/22/2024

Speech Studio è un set di strumenti basati sull'interfaccia utente per la creazione e l'integrazione di funzionalità del servizio Voce di Intelligenza artificiale di Azure nelle applicazioni. È possibile creare progetti in Speech Studio usando un approccio senza codice e quindi fare riferimento a tali asset nelle applicazioni usando Speech SDK, l'interfaccia della riga di comando di Voce o le API REST.

Suggerimento

È possibile provare il riconoscimento vocale e la sintesi vocale in Speech Studio senza iscriversi o scrivere codice.

Scenari di Speech Studio

Esplorare, provare e visualizzare il codice di esempio per alcuni casi d'uso comuni.

Captioning: scegliere un clip video di esempio per visualizzare i risultati della didascalia elaborata in tempo reale o offline. Informazioni su come sincronizzare le didascalie con l'audio di input, applicare filtri volgari, ottenere risultati parziali, applicare personalizzazioni e identificare le lingue parlate per scenari multilingue. Per altre informazioni, vedere la guida introduttiva alla didascalia.
Call Center: visualizzare una dimostrazione su come usare i servizi Lingua e Voce per analizzare le conversazioni del call center. Trascrivere le chiamate in tempo reale o elaborare un batch di chiamate, identificare personalmente le informazioni ed estrarre informazioni dettagliate, ad esempio il sentiment per facilitare il caso d'uso del call center. Per altre informazioni, vedere la guida introduttiva al call center.

Per una dimostrazione di questi scenari in Speech Studio, vedere questo video introduttivo.

Funzionalità di Speech Studio

In Speech Studio le funzionalità del servizio Voce seguenti sono disponibili come tipi di progetto:

Riconoscimento vocale in tempo reale: testare rapidamente la voce in testo trascinando i file audio qui senza dover usare codice. Speech Studio offre uno strumento dimostrativo per vedere come funziona il riconoscimento vocale sugli esempi audio. Per esplorare la funzionalità completa, vedere Che cos'è la sintesi vocale.
Riconoscimento vocale in batch: testare rapidamente le funzionalità di trascrizione batch per trascrivere una grande quantità di audio nell'archiviazione e ricevere risultati in modo asincrono, per altre informazioni su Riconoscimento vocale in Batch, vedere Panoramica del riconoscimento vocale in Batch.
Riconoscimento vocale personalizzato: creare modelli di riconoscimento vocale personalizzati in base a specifici set di vocabolari e stili di pronuncia. A differenza del modello di riconoscimento vocale di base, i modelli di riconoscimento vocale personalizzati diventano parte del vantaggio competitivo unico perché non sono accessibili pubblicamente. Per iniziare a caricare l'audio di esempio per creare un modello di riconoscimento vocale personalizzato, vedere Caricare set di dati di training e test.
Valutazione della pronuncia: valutare la pronuncia vocale e fornire commenti e suggerimenti per l'accuratezza e la fluenza dell'audio parlato. Speech Studio offre una sandbox per testare rapidamente questa funzionalità, senza codice. Per usare la funzionalità con Speech SDK nelle applicazioni, vedere l'articolo Valutazione della pronuncia.
Traduzione vocale: testare e tradurre rapidamente la voce in altre lingue a scelta con bassa latenza. Per esplorare la funzionalità completa, vedere Che cos'è la traduzione vocale.
Raccolta vocale: creare app e servizi che parlano naturalmente. Scegliere tra un ampio portfolio di lingue, voci e varianti. Portare in vita gli scenari con voci neurali altamente espressive e simili a quella umana.
Voce personalizzata: creare voci personalizzate di tipo unico per la sintesi vocale. È possibile fornire file audio e creare trascrizioni corrispondenti in Speech Studio e quindi usare le voci personalizzate nelle applicazioni. Per creare e usare voci personalizzate tramite endpoint, vedere Creare e usare il modello vocale.
Creazione di contenuti audio: approccio senza codice per la sintesi vocale. È possibile usare l'audio di output così come è o come punto di partenza per un'ulteriore personalizzazione. È possibile creare contenuti audio altamente naturali per diversi scenari, ad esempio audiolibri, trasmissioni di notizie, narrazioni video e chat bot. Per altre informazioni, vedere la documentazione relativa alla creazione di contenuti audio.
Parola chiave personalizzata: una parola chiave personalizzata è una parola o una frase breve che è possibile usare per attivare un prodotto tramite voce. Si crea una parola chiave personalizzata in Speech Studio e quindi si genera un file binario da usare con Speech SDK nelle applicazioni.
Comandi personalizzati: è possibile creare facilmente app avanzate e con comandi vocali ottimizzate per le esperienze di interazione voice-first. I comandi personalizzati offrono un'esperienza di creazione senza codice in Speech Studio, un modello di hosting automatico e una complessità relativamente inferiore. La funzionalità consente di concentrarsi sulla creazione della soluzione migliore per gli scenari di comandi vocali. Per altre informazioni, vedere la guida alle applicazioni per lo sviluppo di comandi personalizzati. Vedere anche Integrare con un'applicazione client usando Speech SDK.

Passaggi successivi

Esplorare Speech Studio

Che cos'è Speech Studio?

Scenari di Speech Studio

Funzionalità di Speech Studio

Passaggi successivi

Risorse aggiuntive