Condividi tramite


Usare la risorsa Bring Your Own Storage (BYOS) Speech per la sintesi vocale

L'archiviazione BYOS (Bring Your Own Storage) può essere usata negli scenari di sintesi vocale seguenti:

  • Trascrizione batch
  • Trascrizione in tempo reale con registrazione dei risultati audio e trascrizione abilitata
  • Riconoscimento vocale personalizzato

Una risorsa Voce per l'associazione di account di archiviazione può essere usata contemporaneamente per tutti gli scenari.

Questo articolo illustra in dettaglio come usare una risorsa voce abilitata per BYOS in tutti gli scenari di riconoscimento vocale. L'articolo implica che si dispone di una risorsa voce abilitata per BYOS completamente configurata e dell'account Archiviazione associato.

Archiviazione di dati

Quando si usa BYOS, il servizio Voce non mantiene gli artefatti dei clienti dopo il completamento dell'elaborazione dei dati (trascrizione, training del modello, test del modello). Tuttavia, alcuni metadati non derivati dal contenuto utente vengono archiviati all'interno del servizio Voce locale. Ad esempio, nello scenario di riconoscimento vocale personalizzato, il servizio mantiene determinate informazioni sugli endpoint personalizzati, come i modelli usati.

L'account Archiviazione associato a BYOS archivia i dati seguenti:

Nota

Facoltativo in questa sezione significa che è possibile, ma non è necessario archiviare gli elementi specifici nell'account Archiviazione associato a BYOS. Se necessario, possono essere archiviati altrove.

Trascrizione batch

  • Audio di origine (facoltativo)
  • Risultati della trascrizione batch

Trascrizione in tempo reale con registrazione dei risultati audio e trascrizione abilitata

  • Log dei risultati audio e trascrizione

Riconoscimento vocale personalizzato

  • File di origine dei set di dati per il training e il test del modello (facoltativo)
  • Tutti i dati e i metadati correlati ai modelli personalizzati ospitati dalla risorsa voce abilitata per BYOS (incluse le copie dei set di dati per il training e il test del modello)

Trascrizione batch

La trascrizione batch viene usata per trascrivere una grande quantità di dati audio nella risorsa di archiviazione. Se non si ha familiarità con la trascrizione batch, vedere prima questo articolo .

Eseguire questi passaggi per eseguire la trascrizione batch con la risorsa Voce abilitata per BYOS:

  1. Avviare la trascrizione batch come descritto in questa guida.

    Importante

    Non usare destinationContainerUrl il parametro nella richiesta di trascrizione. Se si usa BYOS, i risultati della trascrizione vengono archiviati automaticamente nell'account Archiviazione associato a BYOS.

    Se si usa destinationContainerUrl il parametro, funzionerà, ma offrirà una sicurezza significativamente inferiore per i dati, a causa dell'utilizzo di firma di accesso condiviso ad hoc. Vedere i dettagli qui.

  2. Al termine della trascrizione, ottenere i risultati della trascrizione in base a questa guida. Prendere in considerazione l'uso sasValidityInSeconds del parametro (vedere la sezione seguente).

Il servizio Voce usa il customspeech-artifacts contenitore BLOB nell'account Archiviazione associato a BYOS per archiviare i risultati intermedi e finali della trascrizione.

Attenzione

Il servizio Voce si basa sui percorsi predefiniti dei contenitori BLOB e sui nomi di file per il corretto funzionamento del modulo di trascrizione batch. Non spostare, rinominare o modificare in alcun modo il contenuto del customspeech-artifacts contenitore.

In caso contrario, è molto probabile che si verifichino errori del servizio 4xx e 5xx.

Usare gli strumenti standard per interagire con la trascrizione batch. Vedere i dettagli nella sezione Trascrizione batch.

Ottenere i risultati della trascrizione batch tramite l'API REST

L'API REST riconoscimento vocale supporta completamente le risorse voce abilitate per BYOS. Tuttavia, poiché i dati sono ora archiviati nell'account Archiviazione abilitato per BYOS, le richieste come Recupera file di trascrizione interagiscono con l'archivio BLOB dell'account associato Archiviazione a BYOS anziché con le risorse interne del servizio Voce. Consente di usare lo stesso codice basato sull'API REST per le risorse voce abilitate per "normale" e BYOS.

Per la massima sicurezza, usare il sasValidityInSeconds parametro con il valore impostato su 0 nelle richieste, che restituiscono GLI URL del file di dati, ad esempio Get Transcription Files request ( Ottieni file di trascrizione). Ecco un URL di richiesta di esempio:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/3b24ca19-2eb1-4a2a-b964-35d89eca486b/files?sasValidityInSeconds=0

Tale richiesta restituisce url Archiviazione account diretti ai file di dati (senza firma di accesso condiviso o altre aggiunte). Ad esempio:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/TranscriptionData/3b24ca19-2eb1-4a2a-b964-35d89eca486b_0_0.json"
      }

L'URL di questo formato garantisce che solo le identità di Microsoft Entra (utenti, entità servizio, identità gestite) con diritti di accesso sufficienti (ad esempio Archiviazione ruolo Lettore dati BLOB) possano accedere ai dati dall'URL.

Avviso

Se sasValidityInSeconds il parametro viene omesso nella richiesta Recupera file di trascrizione o in quelli simili, verrà generata una firma di accesso condiviso di delega utente con validità di 5 giorni per ogni URL del file di dati restituito. Questa firma di accesso condiviso è firmata dall'identità gestita assegnata dal sistema della risorsa voce abilitata per BYOS. Per questo motivo, la firma di accesso condiviso consente l'accesso ai dati, anche se l'accesso alla chiave dell'account di archiviazione è disabilitato. Vedere i dettagli qui.

Trascrizione in tempo reale con registrazione dei risultati audio e trascrizione abilitata

È possibile abilitare la registrazione sia per l'input audio che per il riconoscimento vocale quando si usa la sintesi vocale o la traduzione vocale. Vedere la descrizione completa in questo articolo.

Se si usa BYOS, i log vengono visualizzati nel customspeech-audiologs contenitore BLOB nell'account Archiviazione associato a BYOS.

Avviso

I dati di registrazione vengono conservati per 5 giorni. Dopo questo periodo i log vengono eliminati automaticamente. Questa opzione è valida anche per le risorse voce abilitate per BYOS. Per mantenere i log più lunghi, copiare direttamente i file e le cartelle corrispondenti dal customspeech-audiologs contenitore BLOB o usare l'API REST.

Ottenere i log di trascrizione in tempo reale tramite l'API REST

L'API REST riconoscimento vocale supporta completamente le risorse voce abilitate per BYOS. Tuttavia, poiché i dati sono ora archiviati nell'account Archiviazione abilitato per BYOS, le richieste come Ottenere i log del modello di base interagiscono con l'archiviazione BLOB dell'account Archiviazione associata a BYOS, anziché con le risorse interne del servizio Voce. Consente di usare lo stesso codice basato sull'API REST per le risorse voce abilitate per "normale" e BYOS.

Per la massima sicurezza, usare il parametro con il valore impostato su nelle richieste, che restituiscono GLI URL del file di dati, ad esempio Get Base Model Logs request .For maximum security use the sasValidityInSeconds parameter with the value set to 0 in the requests, that return data file URLs, like Get Base Model Logs request. Ecco un URL di richiesta di esempio:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/endpoints/base/en-US/files/logs?sasValidityInSeconds=0

Tale richiesta restituisce url Archiviazione account diretti ai file di dati (senza firma di accesso condiviso o altre aggiunte). Ad esempio:

"links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-audiologs/be172190e1334399852185c0addee9d6/en-US/2023-07-06/152339_fcf52189-0d3f-4415-becd-5f639fd7fd6b.v2.json"
      }

L'URL di questo formato garantisce che solo le identità di Microsoft Entra (utenti, entità servizio, identità gestite) con diritti di accesso sufficienti (ad esempio Archiviazione ruolo Lettore dati BLOB) possano accedere ai dati dall'URL.

Avviso

Se sasValidityInSeconds il parametro viene omesso nella richiesta Get Base Model Logs o in quelli simili, verrà generata una firma di accesso condiviso della delega utente con validità di 5 giorni per ogni URL del file di dati restituito. Questa firma di accesso condiviso è firmata dall'identità gestita assegnata dal sistema della risorsa voce abilitata per BYOS. Per questo motivo, la firma di accesso condiviso consente l'accesso ai dati, anche se l'accesso alla chiave dell'account di archiviazione è disabilitato. Vedere i dettagli qui.

Riconoscimento vocale personalizzato

Con il riconoscimento vocale personalizzato, è possibile valutare e migliorare l'accuratezza del riconoscimento vocale per le applicazioni e i prodotti. È possibile usare un modello di riconoscimento vocale personalizzato per la sintesi vocale in tempo reale, la traduzione vocale e la trascrizione batch. Per altre informazioni, vedere la panoramica del riconoscimento vocale personalizzato.

Non c'è niente di specifico sul modo in cui si usa la voce personalizzata con la risorsa voce abilitata per BYOS. L'unica differenza è la posizione in cui vengono archiviati tutti i dati correlati al modello personalizzato, che il servizio Voce raccoglie e produce automaticamente. I dati vengono archiviati nei contenitori BLOB seguenti dell'account Archiviazione associato a BYOS:

  • customspeech-models - Posizione dei modelli di riconoscimento vocale personalizzati
  • customspeech-artifacts - Posizione di tutti gli altri dati correlati al riconoscimento vocale personalizzato

La struttura del contenitore BLOB viene fornita solo per le informazioni e soggetta a modifiche senza preavviso.

Attenzione

Il servizio Voce si basa su percorsi predefiniti del contenitore BLOB e nomi di file per il corretto funzionamento del modulo di riconoscimento vocale personalizzato. Non spostare, rinominare o modificare in alcun modo il contenuto del customspeech-models contenitore e le cartelle personalizzate correlate al riconoscimento vocale del customspeech-artifacts contenitore.

In caso contrario, è molto probabile che si verifichino errori difficili da sottoporre a debug e potrebbero causare la necessità di ripetere il training del modello personalizzato.

Usare gli strumenti standard, ad esempio l'API REST e Speech Studio, per interagire con i dati correlati al riconoscimento vocale personalizzato. Vedere i dettagli nella sezione riconoscimento vocale personalizzato.

Uso dell'API REST con riconoscimento vocale personalizzato

L'API REST riconoscimento vocale supporta completamente le risorse voce abilitate per BYOS. Tuttavia, poiché i dati sono ora archiviati nell'account Archiviazione abilitato per BYOS, le richieste come Datasets_ListFiles interagiscono con l'archiviazione BLOB dell'account ARCHIVIAZIONE associata a BYOS anziché con le risorse interne del servizio Voce. Consente di usare lo stesso codice basato sull'API REST per le risorse voce abilitate per "normale" e BYOS.

Per la massima sicurezza, usare il sasValidityInSeconds parametro con il valore impostato su 0 nelle richieste, che restituiscono GLI URL del file di dati, ad esempio Get Dataset Files request (Ottieni file di set di dati). Ecco un URL di richiesta di esempio:

https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/8427b92a-cb50-4cda-bf04-964ea1b1781b/files?sasValidityInSeconds=0

Tale richiesta restituisce url Archiviazione account diretti ai file di dati (senza firma di accesso condiviso o altre aggiunte). Ad esempio:

 "links": {
        "contentUrl": "https://<BYOS_storage_account_name>.blob.core.windows.net/customspeech-artifacts/AcousticData/8427b92a-cb50-4cda-bf04-964ea1b1781b/4a61ddac-5b1c-4c21-b87d-22001b0f18ab.zip"
      }

L'URL di questo formato garantisce che solo le identità di Microsoft Entra (utenti, entità servizio, identità gestite) con diritti di accesso sufficienti (ad esempio Archiviazione ruolo Lettore dati BLOB) possano accedere ai dati dall'URL.

Avviso

Se sasValidityInSeconds il parametro viene omesso nella richiesta Recupera file di set di dati o in quelli simili, verrà generata una firma di accesso condiviso di delega utente con validità di 5 giorni per ogni URL del file di dati restituito. Questa firma di accesso condiviso è firmata dall'identità gestita assegnata dal sistema della risorsa voce abilitata per BYOS. Per questo motivo, la firma di accesso condiviso consente l'accesso ai dati, anche se l'accesso alla chiave dell'account di archiviazione è disabilitato. Vedere i dettagli qui.

Passaggi successivi