Condividi tramite


Ottenere un ID profilo altoparlante per la voce neurale personalizzata

Per usare la voce personale nell'applicazione, è necessario ottenere un ID profilo voce. L'ID del profilo del parlante viene usato per generare audio sintetizzato con l'input di testo fornito.

Si crea un ID profilo altoparlante in base all'istruzione di consenso verbale dell'altoparlante e una richiesta audio (un campione pulito di voce umana compreso tra 5 e 90 secondi). Le caratteristiche vocali dell'utente vengono codificate nella proprietà speakerProfileId usata per la sintesi vocale. Per altre informazioni, vedere Usare la voce personale nell'applicazione.

Nota

L'ID voce personale e l'ID del profilo del parlante non sono uguali. È possibile scegliere l'ID voce personale, ma l'ID del profilo voce viene generato dal servizio. L'ID voce personale viene usato per gestire la voce personale. L'ID del profilo voce viene usato per la sintesi vocale.

Fornisci i file audio da un URL accessibile pubblicamente (PersonalVoices_Create) o caricare i file audio (PersonalVoices_Post).

Formato audio prompt

I formati supportati per i file audio dei prompt sono:

Formato Frequenza di campionamento Velocità in bit Profondità di bit
mp3 16 kHz, 24 kHz, 44.1 kHz, 48 kHz 128 kbps, 192 kbps, 256 kbps, 320 kbps /
wav 16 kHz, 24 kHz, 44.1 kHz, 48 kHz / 16-bit, 24-bit, 32-bit

Creare una voce personale da un file

In questo scenario, i file audio devono essere disponibili localmente.

Per creare una voce personale e ottenere l'ID del profilo dell'altoparlante, usare l'operazione di PersonalVoices_Post dell'API vocale personalizzata. Creare il corpo della richiesta in base alle istruzioni seguenti:

  • Impostare la proprietà projectId obbligatoria. Vedere creare un progetto.
  • Impostare la proprietà consentId obbligatoria. Vedere Aggiungere il consenso dell'utente.
  • Impostare la proprietà audiodata obbligatoria. È possibile specificare uno o più file audio nella stessa richiesta.

Effettuare una richiesta HTTP POST usando l'URI come illustrato nell'esempio di PersonalVoices_Post seguente.

  • Sostituire YourResourceKey con la chiave della risorsa Voce.
  • Sostituire YourResourceRegion con l'area della risorsa Voce.
  • Sostituire JessicaPersonalVoiceId con un ID voce personale di propria scelta. L'ID con distinzione tra maiuscole e minuscole verrà usato nell'URI della voce personale e non potrà essere modificato in un secondo momento.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourResourceKey" -F 'projectId="ProjectId"' -F 'consentId="JessicaConsentId"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample001.wav"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample002.wav"' "
https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"

Si dovrebbe ricevere un corpo della risposta nel formato seguente:

{
  "id": "JessicaPersonalVoiceId",
  "speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "status": "NotStarted",
  "createdDateTime": "2024-09-01T05:30:00.000Z",
  "lastActionDateTime": "2024-09-02T10:15:30.000Z"
}

Usare la proprietà speakerProfileId per integrare la voce personale nell'applicazione di sintesi vocale. Per altre informazioni, vedere Usare la voce personale nell'applicazione.

L'intestazione della risposta contiene la proprietà Operation-Location. Usare questo URI per ottenere informazioni dettagliate sull'operazione di PersonalVoices_Post. Ecco un esempio dell'intestazione della risposta:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f

Creare una voce personale da un URL

In questo scenario, i file audio devono essere già archiviati in un contenitore di Archiviazione BLOB di Azure.

Per creare una voce personale e ottenere l'ID del profilo dell'altoparlante, usare l'operazione di PersonalVoices_Create dell'API vocale personalizzata. Creare il corpo della richiesta in base alle istruzioni seguenti:

  • Impostare la proprietà projectId obbligatoria. Vedere creare un progetto.
  • Impostare la proprietà consentId obbligatoria. Vedere Aggiungere il consenso dell'utente.
  • Impostare la proprietà audios obbligatoria. All'interno della proprietà audios impostare le proprietà seguenti:
    • Impostare la proprietà containerUrl obbligatoria sull'URL del contenitore di Archiviazione BLOB di Azure che contiene i file audio. Usare la firma di accesso condiviso (SAS) per un contenitore con autorizzazioni di lettura ed elenco.
    • Impostare la proprietà extensions obbligatoria sulle estensioni dei file audio.
    • Facoltativamente, impostare la proprietà prefix per impostare un prefisso per il nome del BLOB.

Effettuare una richiesta HTTP PUT usando l'URI come illustrato nell'esempio di PersonalVoices_Create seguente.

  • Sostituire YourResourceKey con la chiave della risorsa Voce.
  • Sostituire YourResourceRegion con l'area della risorsa Voce.
  • Sostituire JessicaPersonalVoiceId con un ID voce personale di propria scelta. L'ID con distinzione tra maiuscole e minuscole verrà usato nell'URI della voce personale e non potrà essere modificato in un secondo momento.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "audios": {
    "containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
    "prefix": "jessica/", 
    "extensions": [
      ".wav"
    ]
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"

# Ensure the `containerUrl` has both read and list permissions. 
# Ensure the `.wav` files are located in the "jessica" folder within the container. The `prefix` matches all `.wav` files in the "jessica" folder. If there is no such folder, the prefix will match `.wav` files with names starting with "jessica". 

Si dovrebbe ricevere un corpo della risposta nel formato seguente:

{
  "id": "JessicaPersonalVoiceId",
  "speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "status": "NotStarted",
  "createdDateTime": "2024-09-01T05:30:00.000Z",
  "lastActionDateTime": "2024-09-02T10:15:30.000Z"
}

Usare la proprietà speakerProfileId per integrare la voce personale nell'applicazione di sintesi vocale. Per altre informazioni, vedere Usare la voce personale nell'applicazione.

L'intestazione della risposta contiene la proprietà Operation-Location. Usare questo URI per ottenere informazioni dettagliate sull'operazione di PersonalVoices_Create. Ecco un esempio dell'intestazione della risposta:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f

Passaggi successivi