Partilhar via


Carregar conjuntos de dados de treinamento e teste para fala personalizada

Você precisa de dados de áudio ou texto para testar a precisão do reconhecimento de fala ou treinar seus modelos personalizados. Para obter informações sobre os tipos de dados suportados para testar ou treinar seu modelo, consulte Treinamento e teste de conjuntos de dados.

Gorjeta

Você também pode usar o editor de transcrição on-line para criar e refinar conjuntos de dados de áudio rotulados.

Carregar conjuntos de dados

Para carregar seus próprios conjuntos de dados no Speech Studio, siga estas etapas:

  1. Inicie sessão no Speech Studio.

  2. Selecione Fala> personalizada Seu nome> de projeto Conjuntos de>dados de fala Carregar dados.

  3. Selecione a guia Dados de treinamento ou Dados de teste.

  4. Selecione um tipo de conjunto de dados e, em seguida, selecione Avançar.

  5. Especifique o local do conjunto de dados e selecione Avançar. Você pode escolher um arquivo local ou inserir um local remoto, como a URL de Blob do Azure. Se você selecionar local remoto e não usar o mecanismo de segurança de serviços confiáveis do Azure, o local remoto deverá ser uma URL que possa ser recuperada com uma simples solicitação GET anônima. Por exemplo, um URL SAS ou um URL acessível publicamente. Não há suporte para URLs que exigem autorização extra ou que esperam interação do usuário.

    Nota

    Se você usar a URL de Blob do Azure, poderá garantir a segurança máxima de seus arquivos de conjunto de dados usando o mecanismo de segurança de serviços confiáveis do Azure. Você usará as mesmas técnicas que para transcrição em lote e URLs de conta de armazenamento simples para seus arquivos de conjunto de dados. Veja mais detalhes aqui.

  6. Introduza o nome e a descrição do conjunto de dados e, em seguida, selecione Seguinte.

  7. Reveja as definições e, em seguida, selecione Guardar e fechar.

Depois que o conjunto de dados for carregado, vá para a página Treinar modelos personalizados para treinar um modelo personalizado.

Com a CLI de Fala e a API REST de Fala para texto, ao contrário do Speech Studio, você não escolhe se um conjunto de dados é para teste ou treinamento no momento do upload. Você especifica como um conjunto de dados é usado quando treina um modelo ou executa um teste.

Embora você não indique se o conjunto de dados é para teste ou treinamento, você deve especificar o tipo de conjunto de dados. O tipo de conjunto de dados é usado para determinar qual tipo de conjunto de dados é criado. Em alguns casos, um tipo de conjunto de dados é usado apenas para testes ou treinamento, mas você não deve depender disso. Os valores da CLI de Fala e da API kind REST correspondem às opções no Speech Studio, conforme descrito na tabela a seguir:

Tipo de CLI e API Opções do Speech Studio
Acústica Dados de treinamento: Áudio + transcrição rotulada por humanos
Dados de teste: Transcrição (síntese automática de áudio)
Dados de teste: Áudio + transcrição etiquetada por humanos
Arquivos de áudio Dados de teste: Áudio
Idioma Dados de formação: Texto simples
LanguageMarkdown Dados de treinamento: texto estruturado em formato markdown
Pronúncia Dados de treinamento: Pronúncia
OutputFormatting Dados de treinamento: Formato de saída

Importante

Você não usa a CLI de fala ou a API REST para carregar arquivos de dados diretamente. Primeiro, você armazena os arquivos de conjunto de dados de treinamento ou teste em uma URL que a CLI de fala ou a API REST pode acessar. Depois de carregar os arquivos de dados, você pode usar a CLI de fala ou a API REST para criar um conjunto de dados para teste ou treinamento de fala personalizado.

Para criar um conjunto de dados e conectá-lo a um projeto existente, use o spx csr dataset create comando. Construa os parâmetros de solicitação de acordo com as seguintes instruções:

  • Defina o project parâmetro como a ID de um projeto existente. Esse parâmetro é recomendado para que você também possa exibir e gerenciar o conjunto de dados no Speech Studio. Você pode executar o spx csr project list comando para obter projetos disponíveis.

  • Defina o parâmetro necessário kind . O conjunto possível de valores para um tipo de conjunto de dados de treinamento são: Acoustic, AudioFiles, Language, LanguageMarkdown e Pronunciation.

  • Defina o parâmetro necessário contentUrl . Este parâmetro é o local do conjunto de dados. Se você não usar o mecanismo de segurança de serviços confiáveis do Azure (consulte a próxima Observação), o contentUrl parâmetro deverá ser uma URL que possa ser recuperada com uma simples solicitação GET anônima. Por exemplo, um URL SAS ou um URL acessível publicamente. Não há suporte para URLs que exigem autorização extra ou que esperam interação do usuário.

    Nota

    Se você usar a URL de Blob do Azure, poderá garantir a segurança máxima de seus arquivos de conjunto de dados usando o mecanismo de segurança de serviços confiáveis do Azure. Você usará as mesmas técnicas que para transcrição em lote e URLs de conta de armazenamento simples para seus arquivos de conjunto de dados. Veja mais detalhes aqui.

  • Defina o parâmetro necessário language . A localidade do conjunto de dados deve corresponder à localidade do projeto. A localidade não pode ser alterada posteriormente. O parâmetro Speech CLI language corresponde à locale propriedade na solicitação e resposta JSON.

  • Defina o parâmetro necessário name . Este parâmetro é o nome exibido no Speech Studio. O parâmetro Speech CLI name corresponde à displayName propriedade na solicitação e resposta JSON.

Aqui está um exemplo de comando da CLI de fala que cria um conjunto de dados e o conecta a um projeto existente:

spx csr dataset create --api-version v3.2 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Deverá receber um corpo de resposta no seguinte formato:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

A propriedade de nível self superior no corpo da resposta é o URI do conjunto de dados. Use este URI para obter detalhes sobre o projeto e os arquivos do conjunto de dados. Você também usa esse URI para atualizar ou excluir um conjunto de dados.

Para obter ajuda da CLI de fala com conjuntos de dados, execute o seguinte comando:

spx help csr dataset

Com a CLI de Fala e a API REST de Fala para texto, ao contrário do Speech Studio, você não escolhe se um conjunto de dados é para teste ou treinamento no momento do upload. Você especifica como um conjunto de dados é usado quando treina um modelo ou executa um teste.

Embora você não indique se o conjunto de dados é para teste ou treinamento, você deve especificar o tipo de conjunto de dados. O tipo de conjunto de dados é usado para determinar qual tipo de conjunto de dados é criado. Em alguns casos, um tipo de conjunto de dados é usado apenas para testes ou treinamento, mas você não deve depender disso. Os valores da CLI de Fala e da API kind REST correspondem às opções no Speech Studio, conforme descrito na tabela a seguir:

Tipo de CLI e API Opções do Speech Studio
Acústica Dados de treinamento: Áudio + transcrição rotulada por humanos
Dados de teste: Transcrição (síntese automática de áudio)
Dados de teste: Áudio + transcrição etiquetada por humanos
Arquivos de áudio Dados de teste: Áudio
Idioma Dados de formação: Texto simples
LanguageMarkdown Dados de treinamento: texto estruturado em formato markdown
Pronúncia Dados de treinamento: Pronúncia
OutputFormatting Dados de treinamento: Formato de saída

Importante

Você não usa a CLI de fala ou a API REST para carregar arquivos de dados diretamente. Primeiro, você armazena os arquivos de conjunto de dados de treinamento ou teste em uma URL que a CLI de fala ou a API REST pode acessar. Depois de carregar os arquivos de dados, você pode usar a CLI de fala ou a API REST para criar um conjunto de dados para teste ou treinamento de fala personalizado.

Para criar um conjunto de dados e conectá-lo a um projeto existente, use a operação Datasets_Create da API REST de fala para texto. Construa o corpo da solicitação de acordo com as seguintes instruções:

  • Defina a project propriedade como o URI de um projeto existente. Essa propriedade é recomendada para que você também possa exibir e gerenciar o conjunto de dados no Speech Studio. Você pode fazer uma solicitação de Projects_List para obter projetos disponíveis.

  • Defina a propriedade necessária kind . O conjunto possível de valores para um tipo de conjunto de dados de treinamento são: Acoustic, AudioFiles, Language, LanguageMarkdown e Pronunciation.

  • Defina a propriedade necessária contentUrl . Esta propriedade é o local do conjunto de dados. Se você não usar o mecanismo de segurança de serviços confiáveis do Azure (consulte a próxima Observação), o contentUrl parâmetro deverá ser uma URL que possa ser recuperada com uma simples solicitação GET anônima. Por exemplo, um URL SAS ou um URL acessível publicamente. Não há suporte para URLs que exigem autorização extra ou que esperam interação do usuário.

    Nota

    Se você usar a URL de Blob do Azure, poderá garantir a segurança máxima de seus arquivos de conjunto de dados usando o mecanismo de segurança de serviços confiáveis do Azure. Você usará as mesmas técnicas que para transcrição em lote e URLs de conta de armazenamento simples para seus arquivos de conjunto de dados. Veja mais detalhes aqui.

  • Defina a propriedade necessária locale . A localidade do conjunto de dados deve corresponder à localidade do projeto. A localidade não pode ser alterada posteriormente.

  • Defina a propriedade necessária displayName . Esta propriedade é o nome exibido no Speech Studio.

Faça uma solicitação HTTP POST usando o URI, conforme mostrado no exemplo a seguir. Substitua YourSubscriptionKey pela chave de recurso Fala, substitua YourServiceRegion pela região de recurso Fala e defina as propriedades do corpo da solicitação conforme descrito anteriormente.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/datasets"

Deverá receber um corpo de resposta no seguinte formato:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23",
  "kind": "Acoustic",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/datasets/23b6554d-21f9-4df1-89cb-f84510ac8d23/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52"
  },
  "properties": {
    "textNormalizationKind": "Default",
    "acceptedLineCount": 2,
    "rejectedLineCount": 0,
    "duration": "PT59S"
  },
  "lastActionDateTime": "2024-07-14T17:36:30Z",
  "status": "Succeeded",
  "createdDateTime": "2024-07-14T17:36:14Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "customProperties": {
    "PortalAPIVersion": "3"
  }
}

A propriedade de nível self superior no corpo da resposta é o URI do conjunto de dados. Use este URI para obter detalhes sobre o projeto e os arquivos do conjunto de dados. Você também usa esse URI para atualizar ou excluir o conjunto de dados.

Importante

Conectar um conjunto de dados a um projeto de fala personalizado não é necessário para treinar e testar um modelo personalizado usando a API REST ou a CLI de fala. Mas se o conjunto de dados não estiver conectado a nenhum projeto, você não poderá selecioná-lo para treinamento ou teste no Speech Studio.

Próximos passos