Obter uma ID de perfil do locutor para a voz pessoal
Para usar a voz pessoal em seu aplicativo, é necessário obter uma ID de perfil do locutor. A ID do perfil do locutor é usada para gerar áudio sintetizado com a entrada de texto fornecida.
Você cria uma ID de perfil do locutor com base na instrução de consentimento verbal do orador e em um prompt de áudio (uma amostra de voz humana limpa entre 5 e 90 segundos). As características da voz do usuário são codificadas na propriedade speakerProfileId
que é usada para conversão de texto em fala. Para obter mais informações, confira usar a voz pessoal no seu aplicativo.
Observação
A ID de voz pessoal e a ID de perfil do locutor não são as mesmas. Você pode escolher a ID de voz pessoal, mas a ID do perfil do locutor é gerada pelo serviço. A ID de voz pessoal é usada para gerenciar a voz pessoal. A ID de perfil do locutor é usada para conversão de texto em fala.
Forneça os arquivos de áudio de uma URL acessível publicamente (PersonalVoices_Create) ou carregue os arquivos de áudio (PersonalVoices_Post).
Criar uma voz pessoal a partir de um arquivo
Nesse cenário, os arquivos de áudio devem estar disponíveis localmente.
Para criar uma voz pessoal e obter a ID do perfil do locutor, use a operação PersonalVoices_Post da API de voz personalizada. Construa o corpo da solicitação de acordo com as seguintes instruções:
- Defina a propriedade
projectId
necessária. Consulte Criar um projeto. - Defina a propriedade
consentId
obrigatória. Consulte adicionar consentimento do usuário. - Defina a propriedade
audiodata
obrigatória. Você pode especificar um ou mais arquivos de áudio na mesma solicitação.
Faça uma solicitação HTTP POST usando o URI, conforme mostrado no exemplo de PersonalVoices_Post a seguir.
- Substitua
YourResourceKey
pela chave do recurso de Fala. - Substitua
YourResourceRegion
por sua região de recursos do Serviço Cognitivo do Azure para Fala. - Substitua
JessicaPersonalVoiceId
por uma ID de voz pessoal de sua escolha. A ID sensível a maiúsculas e minúsculas será usada no URI da voz pessoal e não poderá ser alterada posteriormente.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourResourceKey" -F 'projectId="ProjectId"' -F 'consentId="JessicaConsentId"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample001.wav"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample002.wav"' "
https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2023-12-01-preview"
Você deve receber um corpo de resposta no seguinte formato:
{
"id": "JessicaPersonalVoiceId",
"speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"status": "NotStarted",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Use a propriedade speakerProfileId
para integrar a voz pessoal em seu aplicativo de conversão de texto em fala. Para obter mais informações, confira usar a voz pessoal no seu aplicativo.
O cabeçalho da resposta contém a propriedade Operation-Location
. Use esse URI para obter detalhes sobre a operação PersonalVoices_Post. Aqui está um exemplo do cabeçalho da resposta:
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2023-12-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f
Criar uma voz pessoal a partir de uma URL
Nesse cenário, os arquivos de áudio já devem estar armazenados em um contêiner do Armazenamento de Blobs do Azure.
Para criar uma voz pessoal e obter a ID do perfil do locutor, use a operação PersonalVoices_Create da API de voz personalizada. Construa o corpo da solicitação de acordo com as seguintes instruções:
- Defina a propriedade
projectId
necessária. Consulte Criar um projeto. - Defina a propriedade
consentId
obrigatória. Consulte adicionar consentimento do usuário. - Defina a propriedade
audios
obrigatória. Dentro da propriedadeaudios
, defina as seguintes propriedades:- Defina a propriedade
containerUrl
obrigatória para a URL do contêiner do Armazenamento de Blobs do Azure que contém os arquivos de áudio. Use SAS (assinaturas de acesso compartilhado) para um contêiner com permissões de leitura e listagem. - Defina a propriedade
extensions
obrigatória para as extensões dos arquivos de áudio. - Opcionalmente, defina a propriedade
prefix
para definir um prefixo para o nome do blob.
- Defina a propriedade
Faça uma solicitação HTTP PUT usando o URI, conforme mostrado no exemplo de PersonalVoices_Create a seguir.
- Substitua
YourResourceKey
pela chave do recurso de Fala. - Substitua
YourResourceRegion
por sua região de recursos do Serviço Cognitivo do Azure para Fala. - Substitua
JessicaPersonalVoiceId
por uma ID de voz pessoal de sua escolha. A ID sensível a maiúsculas e minúsculas será usada no URI da voz pessoal e não poderá ser alterada posteriormente.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"audios": {
"containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
"prefix": "jessica/",
"extensions": [
".wav"
]
}
} ' "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2023-12-01-preview"
Você deve receber um corpo de resposta no seguinte formato:
{
"id": "JessicaPersonalVoiceId",
"speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"status": "NotStarted",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Use a propriedade speakerProfileId
para integrar a voz pessoal em seu aplicativo de conversão de texto em fala. Para obter mais informações, confira usar a voz pessoal no seu aplicativo.
O cabeçalho da resposta contém a propriedade Operation-Location
. Use esse URI para obter detalhes sobre a operação PersonalVoices_Create. Aqui está um exemplo do cabeçalho da resposta:
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2023-12-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f
Próximas etapas
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de