Compartir a través de


Obtención de un id. de perfil de hablante para la voz personal

Para usar la voz personal en la aplicación, debe obtener un id. de perfil de hablante. El id. de perfil de hablante se usa para generar audio sintetizado con la entrada de texto proporcionada.

Puede crear un id. de perfil de hablante basado en la declaración de consentimiento verbal del hablante y un aviso de audio (una muestra de voz humana limpia entre 5 y 90 segundos). Las características de voz del usuario se codifican en la propiedad speakerProfileId que se usa para la capacidad texto a voz. Para obtener más información, vea Uso de voz personal en tu aplicación.

Nota:

El id. de voz personal y el id. de perfil de hablante no son los mismos. Puede elegir el id. de voz personal, pero el servicio genera el id. de perfil del hablante. El id. de voz personal se utiliza para administrar la voz personal. El id. de perfil del hablante se usa para la capacidad texto a voz.

Proporcione los archivos de audio desde una dirección URL accesible públicamente (PersonalVoices_Create) o cargue los archivos de audio (PersonalVoices_Post).

Formato de audio de indicaciones

Los formatos compatibles para los archivos de audio de indicaciones son:

Format Frecuencia de muestreo Velocidad de bits Profundidad en bits
mp3 16 kHz, 24 kHz, 44,1 kHz, 48 kHz 128 kbps, 192 kbps, 256 kbps, 320 kbps /
wav 16 kHz, 24 kHz, 44,1 kHz, 48 kHz / 16 bits, 24 bits, 32 bits

Creación de voz personal desde un archivo

En este escenario, los archivos de audio deben estar disponibles localmente.

Para crear una voz personal y obtener el id. de perfil de hablante, use la operación PersonalVoices_Post de la API de voz personalizada. Construya el cuerpo de la solicitud según las instrucciones siguientes:

Haga una solicitud HTTP POST con el URI como se muestra en el siguiente ejemplo de PersonalVoices_Post.

  • Reemplace YourResourceKey por su clave de recurso de Voz.
  • Reemplace YourResourceRegion por la región del recurso de voz.
  • Reemplace JessicaPersonalVoiceId por un id. de voz personal de su elección. El id., que distingue mayúsculas de minúsculas, se usará en el URI de la voz personal y no se puede cambiar más adelante.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourResourceKey" -F 'projectId="ProjectId"' -F 'consentId="JessicaConsentId"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample001.wav"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample002.wav"' "
https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "id": "JessicaPersonalVoiceId",
  "speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "status": "NotStarted",
  "createdDateTime": "2024-09-01T05:30:00.000Z",
  "lastActionDateTime": "2024-09-02T10:15:30.000Z"
}

Use la propiedad speakerProfileId para integrar la voz personal en la aplicación texto a voz. Para obtener más información, vea Uso de voz personal en tu aplicación.

El encabezado de respuesta contiene la propiedad Operation-Location. Use este URI para obtener detalles sobre la operación PersonalVoices_Post. Este es un ejemplo de encabezado de respuesta:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f

Creación de voz personal desde una URL

En este escenario, los archivos de audio ya deben almacenarse en un contenedor de Azure Blob Storage.

Para crear una voz personal y obtener el id. de perfil de hablante, use la operación PersonalVoices_Create de la API de voz personalizada. Construya el cuerpo de la solicitud según las instrucciones siguientes:

  • Establezca la propiedad projectId requerida. Consulte Creación de un proyecto.
  • Establezca la propiedad consentId requerida. Vea Incorporación del consentimiento del usuario.
  • Establezca la propiedad audios requerida. En la propiedad audios, establezca las siguientes propiedades:
    • Establezca la propiedad containerUrl necesaria en la dirección URL del contenedor de Azure Blob Storage que contiene los archivos de audio. Use firmas de acceso compartido (SAS) para un contenedor con permisos de lectura y lista.
    • Establezca la propiedad extensions necesaria en las extensiones de los archivos de audio.
    • Opcionalmente, establezca la propiedad prefix a fin de definir un prefijo para el nombre del blob.

Haga una solicitud HTTP PUT usando el URI como se muestra en el siguiente ejemplo de PersonalVoices_Create.

  • Reemplace YourResourceKey por su clave de recurso de Voz.
  • Reemplace YourResourceRegion por la región del recurso de voz.
  • Reemplace JessicaPersonalVoiceId por un id. de voz personal de su elección. El id., que distingue mayúsculas de minúsculas, se usará en el URI de la voz personal y no se puede cambiar más adelante.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "audios": {
    "containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
    "prefix": "jessica/", 
    "extensions": [
      ".wav"
    ]
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"

# Ensure the `containerUrl` has both read and list permissions. 
# Ensure the `.wav` files are located in the "jessica" folder within the container. The `prefix` matches all `.wav` files in the "jessica" folder. If there is no such folder, the prefix will match `.wav` files with names starting with "jessica". 

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "id": "JessicaPersonalVoiceId",
  "speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
  "projectId": "ProjectId",
  "consentId": "JessicaConsentId",
  "status": "NotStarted",
  "createdDateTime": "2024-09-01T05:30:00.000Z",
  "lastActionDateTime": "2024-09-02T10:15:30.000Z"
}

Use la propiedad speakerProfileId para integrar la voz personal en la aplicación texto a voz. Para obtener más información, vea Uso de voz personal en tu aplicación.

El encabezado de respuesta contiene la propiedad Operation-Location. Use este URI para obtener detalles sobre la operación PersonalVoices_Create. Este es un ejemplo de encabezado de respuesta:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f

Pasos siguientes