Comparteix a través de


Carga de conjuntos de datos de entrenamiento y pruebas para voz personalizada

Al probar la precisión del reconocimiento de voz o entrenar sus modelos personalizados, necesitará datos de texto y de audio. Para obtener información sobre los tipos de datos admitidos para probar o entrenar el modelo, consulte Entrenamiento y pruebas de conjuntos de datos.

Sugerencia

También puede usar el editor de transcripciones en línea para crear y perfeccionar conjuntos de datos de audio con etiquetas.

Carga de conjuntos de datos

Para cargar sus propios conjuntos de datos en Speech Studio, realice estos pasos:

  1. Inicie sesión en Speech Studio.

  2. Seleccione Voz personalizada> Nombre de su proyecto >Conjuntos de datos de Voz>Cargar datos.

  3. Seleccione la pestaña Datos de entrenamiento o Datos de prueba.

  4. Seleccione un tipo de conjunto de datos y, a continuación, seleccione Siguiente.

  5. Especifique la ubicación del conjunto de datos y, a continuación, seleccione Siguiente. Puede elegir un archivo local o especificar una ubicación remota, como la dirección URL de Azure Blob. Si selecciona la ubicación remota y no usa el mecanismo de seguridad de servicios de Azure de confianza, la ubicación remota deberá ser una dirección URL que se pueda recuperar con una solicitud GET anónima simple. Por ejemplo, una dirección URL de SAS o una dirección URL de acceso público. Las direcciones URL que requieren autorización adicional o que esperan a la interacción del usuario no son compatibles.

    Nota:

    Si usa la dirección URL de Azure Blob, puede garantizar la máxima seguridad de los archivos del conjunto de datos mediante el mecanismo de seguridad de los servicios de Azure de confianza. Usará las mismas técnicas que para la transcripción de Batch y las direcciones URL de la cuenta de almacenamiento sin formato para los archivos del conjunto de datos. Consulte los detalles aquí.

  6. Escriba el nombre y una descripción del conjunto de datos y, a continuación, seleccione Siguiente.

  7. Revise la configuración y, a continuación, seleccione Guardar y cerrar.

Una vez cargado el conjunto de datos, vaya a la página Entrenar modelos personalizados para entrenar un modelo personalizado.

Con la CLI de Voz y la API de REST de conversión de voz en texto, a diferencia de Speech Studio, no se elige si un conjunto de datos es de prueba o entrenamiento en el momento de la carga. Especifique cómo se usa un conjunto de datos al entrenar un modelo o ejecutar una prueba.

Aunque no indique si el conjunto de datos es para pruebas o entrenamiento, debe especificar el tipo de conjunto de datos. El tipo de conjunto de datos se usa para decidir qué tipo de conjunto de datos se crea. En algunos casos, un tipo de conjunto de datos solo se usa para pruebas o entrenamiento, pero no debe depender de ello. Los valores kind de la CLI de Voz y la API REST corresponden a las opciones de Speech Studio, tal y como se describe en la tabla siguiente:

CLI y tipo de API Opciones de Speech Studio
Acústico Datos de entrenamiento: transcripción de audio y etiquetada por humano
Datos de prueba: transcripción (síntesis de audio automática)
Datos de prueba: transcripción de audio y etiquetada por humano
AudioFiles Datos de prueba: audio
Idioma Datos de entrenamiento: texto sin formato
LanguageMarkdown Datos de entrenamiento: texto estructurado en formato Markdown
Pronunciación Datos de entrenamiento: pronunciación
OutputFormatting Datos de entrenamiento: formato de salida

Importante

No usará la CLI de Voz ni la API REST para cargar archivos de datos directamente. En primer lugar, almacene los archivos de conjunto de datos de entrenamiento o pruebas en una dirección URL a la que pueda acceder la CLI de Voz o la API REST. Después de cargar los archivos de datos, puede usar la CLI de Voz o la API REST para crear un conjunto de datos para pruebas de voz o entrenamiento personalizados.

Para crear un conjunto de datos y conectarlo a un proyecto existente, use el comando spx csr dataset create. Construya los parámetros de solicitud según las instrucciones siguientes:

  • Establezca el parámetro project en el identificador de un proyecto existente. Este parámetro se recomienda para que también pueda ver y administrar el conjunto de datos en Speech Studio. Puede ejecutar el comando spx csr project list para obtener los proyectos disponibles.

  • Establezca el parámetro kind necesario. El posible conjunto de valores para un tipo de conjunto de datos de entrenamiento es el siguiente: Acoustic, AudioFiles, Language, LanguageMarkdown y Pronunciation.

  • Establezca el parámetro contentUrl necesario. Este parámetro es la ubicación del conjunto de datos. Si no usa el mecanismo de seguridad de servicios de Azure de confianza (consulte la nota siguiente), el parámetro contentUrl debe ser una dirección URL que se pueda recuperar con una solicitud GET anónima simple. Por ejemplo, una dirección URL de SAS o una dirección URL de acceso público. Las direcciones URL que requieren autorización adicional o que esperan a la interacción del usuario no son compatibles.

    Nota:

    Si usa la dirección URL de Azure Blob, puede garantizar la máxima seguridad de los archivos del conjunto de datos mediante el mecanismo de seguridad de los servicios de Azure de confianza. Usará las mismas técnicas que para la transcripción de Batch y las direcciones URL de la cuenta de almacenamiento sin formato para los archivos del conjunto de datos. Consulte los detalles aquí.

  • Establezca el parámetro language necesario. La configuración regional del conjunto de datos debe coincidir con la configuración regional del proyecto. Esta configuración regional no se podrá modificar más adelante. El parámetro language de la CLI de Voz corresponde a la propiedad locale de la solicitud y respuesta JSON.

  • Establezca el parámetro name necesario. Este parámetro es el nombre que se muestra en Speech Studio. El parámetro name de la CLI de Voz corresponde a la propiedad displayName de la solicitud y respuesta JSON.

Este es un ejemplo de comando de la CLI de Voz, que crea un conjunto de datos y lo conecta a un proyecto existente:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

La propiedad self de nivel superior del cuerpo de la respuesta es el URI del conjunto de datos. Use este URI para obtener detalles sobre el proyecto y los archivos del conjunto de datos. Use también este URI para actualizar o eliminar un conjunto de datos.

Para obtener ayuda de la CLI de Voz con conjuntos de datos, ejecute el siguiente comando:

spx help csr dataset

Con la CLI de Voz y la API de REST de conversión de voz en texto, a diferencia de Speech Studio, no se elige si un conjunto de datos es de prueba o entrenamiento en el momento de la carga. Especifique cómo se usa un conjunto de datos al entrenar un modelo o ejecutar una prueba.

Aunque no indique si el conjunto de datos es para pruebas o entrenamiento, debe especificar el tipo de conjunto de datos. El tipo de conjunto de datos se usa para decidir qué tipo de conjunto de datos se crea. En algunos casos, un tipo de conjunto de datos solo se usa para pruebas o entrenamiento, pero no debe depender de ello. Los valores kind de la CLI de Voz y la API REST corresponden a las opciones de Speech Studio, tal y como se describe en la tabla siguiente:

CLI y tipo de API Opciones de Speech Studio
Acústico Datos de entrenamiento: transcripción de audio y etiquetada por humano
Datos de prueba: transcripción (síntesis de audio automática)
Datos de prueba: transcripción de audio y etiquetada por humano
AudioFiles Datos de prueba: audio
Idioma Datos de entrenamiento: texto sin formato
LanguageMarkdown Datos de entrenamiento: texto estructurado en formato Markdown
Pronunciación Datos de entrenamiento: pronunciación
OutputFormatting Datos de entrenamiento: formato de salida

Importante

No usará la CLI de Voz ni la API REST para cargar archivos de datos directamente. En primer lugar, almacene los archivos de conjunto de datos de entrenamiento o pruebas en una dirección URL a la que pueda acceder la CLI de Voz o la API REST. Después de cargar los archivos de datos, puede usar la CLI de Voz o la API REST para crear un conjunto de datos para pruebas de voz o entrenamiento personalizados.

Para crear un conjunto de datos y conectarlo a un proyecto existente, use la operación Datasets_Create de la API de REST de conversión de voz en texto. Construya el cuerpo de la solicitud según las instrucciones siguientes:

  • Establezca la propiedad project en el URI de un proyecto existente. Esta propiedad se recomienda para que también pueda ver y administrar el conjunto de datos en Speech Studio. Puede realizar una solicitud Projects_List para obtener proyectos disponibles.

  • Establezca la propiedad kind obligatoria. El posible conjunto de valores para un tipo de conjunto de datos de entrenamiento es el siguiente: Acoustic, AudioFiles, Language, LanguageMarkdown y Pronunciation.

  • Establezca la propiedad contentUrl obligatoria. Esta propiedad es la ubicación del conjunto de datos. Si no usa el mecanismo de seguridad de servicios de Azure de confianza (consulte la nota siguiente), el parámetro contentUrl debe ser una dirección URL que se pueda recuperar con una solicitud GET anónima simple. Por ejemplo, una dirección URL de SAS o una dirección URL de acceso público. Las direcciones URL que requieren autorización adicional o que esperan a la interacción del usuario no son compatibles.

    Nota:

    Si usa la dirección URL de Azure Blob, puede garantizar la máxima seguridad de los archivos del conjunto de datos mediante el mecanismo de seguridad de los servicios de Azure de confianza. Usará las mismas técnicas que para la transcripción de Batch y las direcciones URL de la cuenta de almacenamiento sin formato para los archivos del conjunto de datos. Consulte los detalles aquí.

  • Establezca la propiedad locale obligatoria. La configuración regional del conjunto de datos debe coincidir con la configuración regional del proyecto. Esta configuración regional no se podrá modificar más adelante.

  • Establezca la propiedad displayName requerida. Esta propiedad es el nombre que se muestra en Speech Studio.

Realice una solicitud HTTP POST con el URI, como se muestra en el ejemplo siguiente. Reemplace YourSubscriptionKey por la clave de recurso de Voz, YourServiceRegion por la región del recurso de Voz, y establezca las propiedades del cuerpo de la solicitud como se ha descrito anteriormente.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Debe recibir un cuerpo de respuesta en el formato siguiente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

La propiedad self de nivel superior del cuerpo de la respuesta es el URI del conjunto de datos. Use este URI para obtener detalles sobre el proyecto y los archivos del conjunto de datos. Use también este URI para actualizar o eliminar el conjunto de datos.

Importante

No es necesario conectar un conjunto de datos a un proyecto de voz personalizada para entrenar y probar un modelo personalizado mediante la API de REST o la CLI de Voz. Pero si el conjunto de datos no está conectado a ningún proyecto, no puede seleccionarlo para el entrenamiento ni las pruebas en Speech Studio.

Pasos siguientes