Implementación del modelo de voz profesional como punto de conexión

Una vez que haya creado y entrenado correctamente el modelo de voz, impleméntelo en un punto de conexión de voz neuronal personalizada.

Nota:

Puede crear hasta 50 puntos de conexión con un recurso de Voz estándar (S0), cada uno con su propia voz neuronal personalizada.

Para usar su voz neuronal personalizada, debe especificar el nombre del modelo de voz, utilizar el URI personalizado directamente en una solicitud HTTP y emplear el mismo recurso de Voz para pasar por la autenticación del servicio de texto a voz.

Incorporación de un extremo de implementación

Para crear un punto de conexión de voz neuronal personalizada:

  1. Inicie sesión en Speech Studio.

  2. Seleccione Voz personalizada> El nombre del proyecto >Implementar modelo>implementación del modelo.

  3. Seleccione un modelo de voz que quiera asociar a este punto de conexión.

  4. Escriba un valor para Nombre y Descripción para el punto de conexión personalizado.

  5. Seleccione Tipo de punto de conexión según su escenario. Si el recurso está en una región admitida, la configuración predeterminada para el tipo de punto de conexión es Alto rendimiento. De lo contrario, si el recurso está en una región no admitida, la única opción disponible es Reanudar rápido.

    • Alto rendimiento: optimizado para escenarios con solicitudes de síntesis en tiempo real y de gran volumen, como la inteligencia artificial conversacional, los bots del centro de llamadas. La implementación o reanudación de un punto de conexión tarda unos 5 minutos. Para obtener información sobre las regiones en las que se admite el tipo de punto de conexión de Alto rendimiento, vea las notas al pie de la tabla de regiones.
    • Reanudación rápida: optimizado para escenarios de creación de contenido de audio con solicitudes de síntesis menos frecuentes. Fácil y rápido para implementar o reanudar un punto de conexión en menos de un minuto. El tipo de punto de conexión de reanudación rápida se admite en todas las regiones en las que la capacidad texto a voz está disponible.
  6. Seleccione Implementar para crear el punto de conexión.

Una vez implementado el punto de conexión, su nombre aparece como un vínculo. Seleccione el vínculo para mostrar información específica del punto de conexión, como la clave o la dirección URL, y código de ejemplo. Cuando el estado de la implementación muestra el valor Completado, quiere decir que el punto de conexión está listo para su uso.

Configuración de la aplicación

La configuración de la aplicación que se usa como parámetros de solicitud de la API REST está disponible en la pestaña Implementar modelo de Speech Studio.

Screenshot of custom endpoint app settings in Speech Studio.

  • La Clave de punto de conexión muestra la clave del recurso de Voz a la que está asociado el punto de conexión. Use la clave de punto de conexión como valor del encabezado de solicitud Ocp-Apim-Subscription-Key.
  • La Dirección URL del punto de conexión muestra la región de servicio. Use el valor que precede a voice.speech.microsoft.com como parámetro de solicitud de la región de servicio. Por ejemplo, use eastus si la dirección URL del punto de conexión es https://eastus.voice.speech.microsoft.com/cognitiveservices/v1.
  • La Dirección URL del punto de conexión muestra el identificador del punto de conexión. Use el valor anexado al parámetro de consulta ?deploymentId= como valor del parámetro de solicitud de identificador de punto de conexión.

Uso de la voz personalizada

El punto de conexión personalizado es técnicamente idéntico al punto de conexión estándar que se usa en las solicitudes de texto a voz.

Una diferencia es que EndpointId se debe especificar para usar la voz personalizada a través del SDK de Voz. Puede empezar con el inicio rápido de texto a voz y, a continuación, actualizar el código con EndpointId y SpeechSynthesisVoiceName. Para obtener más información, vea Uso de un punto de conexión personalizado.

Para usar una voz personalizada mediante el lenguaje de marcado de síntesis de voz (SSML), especifique el nombre del modelo como nombre de voz. En este ejemplo se usa la voz YourCustomVoiceName.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="YourCustomVoiceName">
        This is the text that is spoken. 
    </voice>
</speak>

Cambio a un nuevo modelo de voz en el producto

Cuando haya actualizado el modelo de voz a la versión más reciente del motor, o si quiere cambiar a una nueva voz en el producto, debe volver a implementar el nuevo modelo de voz en un nuevo punto de conexión. No se admite volver a implementar el nuevo modelo de voz en el punto de conexión existente. Después de la implementación, cambie el tráfico al punto de conexión recién creado. Se recomienda transferir primero el tráfico al nuevo punto de conexión en un entorno de prueba para asegurarse de que el tráfico funciona correctamente y, luego, transferirlo al nuevo punto de conexión en el entorno de producción. Durante la transición, debe mantener el punto de conexión anterior. Si hay algunos problemas con el nuevo punto de conexión durante la transición, puede volver al punto de conexión anterior. Si el tráfico se ha estado ejecutando correctamente en el nuevo punto de conexión durante aproximadamente 24 horas (valor recomendado), puede eliminar el punto de conexión anterior.

Nota

Si se cambia el nombre de voz y se usa el lenguaje de marcado de síntesis de voz (SSML), asegúrese de usar el nuevo nombre de voz en SSML.

Suspensión y reanudación de un punto de conexión

Puede suspender o reanudar un punto de conexión para limitar el gasto y conservar los recursos que no están en uso. No se le cobrará mientras el punto de conexión esté suspendido. Cuando se reanuda un punto de conexión, se puede seguir usando la misma URL del punto de conexión en la aplicación para sintetizar la voz.

Nota:

La operación de suspensión se completará casi de inmediato. La operación de reanudación se completa en aproximadamente la misma cantidad de tiempo que una implementación nueva.

En esta sección se describe cómo suspender o reanudar un punto de conexión de voz neuronal personalizada en el portal de Speech Studio.

Suspensión de un punto de conexión

  1. Para suspender y desactivar un punto de conexión, seleccione Suspender en la pestaña Implementar modelo de Speech Studio.

    Screenshot of the select suspend endpoint option.

  2. En el cuadro de diálogo que aparece, seleccione Enviar. Una vez suspendido el punto de conexión, Speech Studio mostrará la notificación Se suspendió correctamente el punto de conexión.

Reanudación de un punto de conexión

  1. Para reanudar y activar un punto de conexión, seleccione Reanudar en la pestaña Implementar modelo de Speech Studio.

    Screenshot of the select resume endpoint option.

  2. En el cuadro de diálogo que aparece, seleccione Enviar. Después de reactivar correctamente el punto de conexión, el estado cambiará de Suspendido a Correcto.

Pasos siguientes

Una vez que haya creado y entrenado correctamente el modelo de voz, impleméntelo en un punto de conexión de voz neuronal personalizada.

Nota:

Puede crear hasta 50 puntos de conexión con un recurso de Voz estándar (S0), cada uno con su propia voz neuronal personalizada.

Incorporación de un extremo de implementación

Para crear un punto de conexión, use la operación Endpoints_Create de la API de voz personalizada. Construya el cuerpo de la solicitud según las instrucciones siguientes:

Haga una solicitud HTTP PUT con el URI como se muestra en el siguiente ejemplo de Endpoints_Create.

  • Reemplace YourResourceKey por su clave de recurso de Voz.
  • Reemplace YourResourceRegion por la región del recurso de voz.
  • Reemplace EndpointId por un id. de punto de conexión de su elección. El id. debe ser un GUID y debe ser único dentro del recurso de Voz. El id. se usará en el URI del proyecto y no se puede cambiar más adelante.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "description": "Endpoint for Jessica voice",
  "projectId": "ProjectId",
  "modelId": "JessicaModelId",
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/EndpointId?api-version=2023-12-01-preview"

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "id": "9f50c644-2121-40e9-9ea7-544e48bfe3cb",
  "description": "Endpoint for Jessica voice",
  "projectId": "ProjectId",
  "modelId": "JessicaModelId",
  "properties": {
    "kind": "HighPerformance"
  },
  "status": "NotStarted",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

El encabezado de respuesta contiene la propiedad Operation-Location. Use este URI para obtener detalles sobre la operación Endpoints_Create. Este es un ejemplo de encabezado de respuesta:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/284b7e37-f42d-4054-8fa9-08523c3de345?api-version=2023-12-01-preview
Operation-Id: 284b7e37-f42d-4054-8fa9-08523c3de345

Use el punto de conexión Operation-Location en las solicitudes de API posteriores para suspender y reanudar un punto de conexión y eliminar un punto de conexión.

Uso de la voz personalizada

Para usar su voz neuronal personalizada, debe especificar el nombre del modelo de voz, utilizar el URI personalizado directamente en una solicitud HTTP y emplear el mismo recurso de Voz para pasar por la autenticación del servicio de texto a voz.

El punto de conexión personalizado es técnicamente idéntico al punto de conexión estándar que se usa en las solicitudes de texto a voz.

Una diferencia es que EndpointId se debe especificar para usar la voz personalizada a través del SDK de Voz. Puede empezar con el inicio rápido de texto a voz y, a continuación, actualizar el código con EndpointId y SpeechSynthesisVoiceName. Para obtener más información, vea Uso de un punto de conexión personalizado.

Para usar una voz personalizada mediante el lenguaje de marcado de síntesis de voz (SSML), especifique el nombre del modelo como nombre de voz. En este ejemplo se usa la voz YourCustomVoiceName.

<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
    <voice name="YourCustomVoiceName">
        This is the text that is spoken. 
    </voice>
</speak>

Suspensión de un punto de conexión

Puede suspender o reanudar un punto de conexión para limitar el gasto y conservar los recursos que no están en uso. No se le cobrará mientras el punto de conexión esté suspendido. Cuando se reanuda un punto de conexión, se puede seguir usando la misma URL del punto de conexión en la aplicación para sintetizar la voz.

Para suspender un punto de conexión, use la operación Endpoints_Suspend de la API de voz personalizada.

Haga una solicitud HTTP POST con el URI como se muestra en el siguiente ejemplo de Endpoints_Suspend.

  • Reemplace YourResourceKey por su clave de recurso de Voz.
  • Reemplace YourResourceRegion por la región del recurso de voz.
  • Reemplace YourEndpointId por el id. de punto de conexión que recibió al crear el punto de conexión.
curl -v -X POST "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/YourEndpointId:suspend?api-version=2023-12-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "content-type: application/json" -H "content-length: 0"

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "id": "9f50c644-2121-40e9-9ea7-544e48bfe3cb",
  "description": "Endpoint for Jessica voice",
  "projectId": "ProjectId",
  "modelId": "JessicaModelId",
  "properties": {
    "kind": "HighPerformance"
  },
  "status": "Disabling",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Reanudación de un punto de conexión

Para suspender un punto de conexión, use la operación Endpoints_Resume de la API de voz personalizada.

Haga una solicitud HTTP POST con el URI como se muestra en el siguiente ejemplo de Endpoints_Resume.

  • Reemplace YourResourceKey por su clave de recurso de Voz.
  • Reemplace YourResourceRegion por la región del recurso de voz.
  • Reemplace YourEndpointId por el id. de punto de conexión que recibió al crear el punto de conexión.
curl -v -X POST "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/YourEndpointId:resume?api-version=2023-12-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "content-type: application/json" -H "content-length: 0"

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "id": "9f50c644-2121-40e9-9ea7-544e48bfe3cb",
  "description": "Endpoint for Jessica voice",
  "projectId": "ProjectId",
  "modelId": "JessicaModelId",
  "properties": {
    "kind": "HighPerformance"
  },
  "status": "Running",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Eliminar un extremo

Para eliminar un punto de conexión, use la operación Endpoints_Delete de la API de voz personalizada.

Realice una solicitud HTTP DELETE con el URI como se muestra en el ejemplo siguiente de Endpoints_Delete.

  • Reemplace YourResourceKey por su clave de recurso de Voz.
  • Reemplace YourResourceRegion por la región del recurso de voz.
  • Reemplace YourEndpointId por el id. de punto de conexión que recibió al crear el punto de conexión.
curl -v -X DELETE "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/YourEndpointId?api-version=2023-12-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"

Debe recibir un encabezado de respuesta con el código de estado 204.

Cambio a un nuevo modelo de voz en el producto

Cuando haya actualizado el modelo de voz a la versión más reciente del motor, o si quiere cambiar a una nueva voz en el producto, debe volver a implementar el nuevo modelo de voz en un nuevo punto de conexión. No se admite volver a implementar el nuevo modelo de voz en el punto de conexión existente. Después de la implementación, cambie el tráfico al punto de conexión recién creado. Se recomienda transferir primero el tráfico al nuevo punto de conexión en un entorno de prueba para asegurarse de que el tráfico funciona correctamente y, luego, transferirlo al nuevo punto de conexión en el entorno de producción. Durante la transición, debe mantener el punto de conexión anterior. Si hay algunos problemas con el nuevo punto de conexión durante la transición, puede volver al punto de conexión anterior. Si el tráfico se ha estado ejecutando correctamente en el nuevo punto de conexión durante aproximadamente 24 horas (valor recomendado), puede eliminar el punto de conexión anterior.

Nota

Si se cambia el nombre de voz y se usa el lenguaje de marcado de síntesis de voz (SSML), asegúrese de usar el nuevo nombre de voz en SSML.

Pasos siguientes