Partilhar via


Criar um projeto de fala personalizado

Projetos de fala personalizados contêm modelos, conjuntos de dados de treinamento e teste e pontos de extremidade de implantação. Cada projeto é específico para uma localidade. Por exemplo, você pode criar um projeto para inglês nos Estados Unidos.

Criar um projeto

Para criar um projeto de fala personalizado, execute estas etapas:

  1. Inicie sessão no Speech Studio.

  2. Selecione a assinatura e o recurso de fala com os quais trabalhar.

    Importante

    Se você treinar um modelo personalizado com dados de áudio, escolha uma região de recurso de fala com hardware dedicado para treinar dados de áudio. Consulte as notas de rodapé na tabela de regiões para obter mais informações.

  3. Selecione Fala>personalizada Criar um novo projeto.

  4. Siga as instruções fornecidas pelo assistente para criar seu projeto.

Selecione o novo projeto pelo nome ou selecione Ir para o projeto. Você verá estes itens de menu no painel esquerdo: Conjuntos de dados de fala, Treinar modelos personalizados, Testar modelos e Implantar modelos.

Para criar um projeto, use o spx csr project create comando. Construa os parâmetros de solicitação de acordo com as seguintes instruções:

  • Defina o parâmetro necessário language . A localidade do projeto e os conjuntos de dados contidos devem ser os mesmos. A localidade não pode ser alterada posteriormente. O parâmetro Speech CLI language corresponde à locale propriedade na solicitação e resposta JSON.
  • Defina o parâmetro necessário name . Este é o nome exibido no Speech Studio. O parâmetro Speech CLI name corresponde à displayName propriedade na solicitação e resposta JSON.

Aqui está um exemplo de comando da CLI de fala que cria um projeto:

spx csr project create --api-version v3.2 --name "My Project" --description "My Project Description" --language "en-US"

Deverá receber um corpo de resposta no seguinte formato:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

A propriedade de nível self superior no corpo da resposta é o URI do projeto. Use este URI para obter detalhes sobre as avaliações, conjuntos de dados, modelos, pontos de extremidade e transcrições do projeto. Você também usa esse URI para atualizar ou excluir um projeto.

Para obter ajuda da CLI de fala com projetos, execute o seguinte comando:

spx help csr project

Para criar um projeto, use a operação Projects_Create da API REST de fala para texto. Construa o corpo da solicitação de acordo com as seguintes instruções:

  • Defina a propriedade necessária locale . Esta deve ser a localidade dos conjuntos de dados contidos. A localidade não pode ser alterada posteriormente.
  • Defina a propriedade necessária displayName . Este é o nome do projeto que é exibido no Speech Studio.

Faça uma solicitação HTTP POST usando o URI, conforme mostrado no exemplo de Projects_Create a seguir. Substitua YourSubscriptionKey pela chave de recurso Fala, substitua YourServiceRegion pela região de recurso Fala e defina as propriedades do corpo da solicitação conforme descrito anteriormente.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.2/projects"

Deverá receber um corpo de resposta no seguinte formato:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2/projects/0198f569-cc11-4099-a0e8-9d55bc3d0c52/transcriptions"
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2024-07-14T17:15:55Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

A propriedade de nível self superior no corpo da resposta é o URI do projeto. Use este URI para obter detalhes sobre as avaliações, conjuntos de dados, modelos, pontos de extremidade e transcrições do projeto. Você também usa esse URI para atualizar ou excluir um projeto.

Escolha o seu modelo

Existem algumas abordagens para usar modelos de fala personalizados:

  • O modelo base fornece reconhecimento de fala preciso pronto para uso em uma variedade de cenários. Os modelos básicos são atualizados periodicamente para melhorar a precisão e a qualidade. Recomendamos que, se você usar modelos básicos, use os modelos básicos padrão mais recentes. Se um recurso de personalização necessário estiver disponível apenas com um modelo mais antigo, você poderá escolher um modelo básico mais antigo.
  • Um modelo personalizado aumenta o modelo base para incluir vocabulário específico do domínio compartilhado em todas as áreas do domínio personalizado.
  • Vários modelos personalizados podem ser usados quando o domínio personalizado tem várias áreas, cada uma com um vocabulário específico.

Uma maneira recomendada de ver se o modelo base é suficiente é analisar a transcrição produzida a partir do modelo base e compará-la com uma transcrição gerada por humanos para o mesmo áudio. Você pode comparar as transcrições e obter uma pontuação de taxa de erro de palavras (WER). Se a pontuação WER for alta, recomenda-se treinar um modelo personalizado para reconhecer as palavras identificadas incorretamente.

Vários modelos são recomendados se o vocabulário variar entre as áreas de domínio. Por exemplo, os comentadores olímpicos relatam vários eventos, cada um associado ao seu próprio vernáculo. Como o vocabulário de cada evento olímpico difere significativamente dos outros, a construção de um modelo personalizado específico para um evento aumenta a precisão, limitando os dados de enunciação relativos a esse evento específico. Como resultado, o modelo não precisa filtrar dados não relacionados para fazer uma correspondência. Independentemente disso, o treinamento ainda requer uma variedade decente de dados de treinamento. Inclua áudio de vários comentaristas que têm diferentes sotaques, sexo, idade, etc.

Estabilidade e ciclo de vida do modelo

Um modelo base ou modelo personalizado implantado em um ponto de extremidade usando fala personalizada é corrigido até que você decida atualizá-lo. A precisão e a qualidade do reconhecimento de fala permanecem consistentes, mesmo quando um novo modelo básico é lançado. Isso permite que você bloqueie o comportamento de um modelo específico até decidir usar um modelo mais recente.

Se você treinar seu próprio modelo ou usar um instantâneo de um modelo base, você pode usar o modelo por um tempo limitado. Para obter mais informações, consulte Ciclo de vida do modelo e do ponto final.

Próximos passos