Q: Quando uma nova versão de um modelo de base está disponível, minha implantação é atualizada automaticamente?

As implantações não são atualizadas automaticamente. Se você adaptou e implantou um modelo, a implantação existente permanecerá como está. Você pode desativar o modelo implantado, readaptá-lo usando a última versão do modelo base e reimplantá-lo para obter uma melhor precisão. Os modelos base e os modelos personalizados são desativados após algum tempo (confira Ciclo de vida de modelo e ponto de extremidade ).

Question 1

Qual é a diferença entre um modelo de base e um modelo personalizado de conversão de fala em texto?

Accepted Answer

Um modelo de conversão de fala em texto de linha de base é treinado com os dados de propriedade da Microsoft e já está implantado na nuvem. Você pode criar e usar um modelo personalizado a fim de adequá-lo melhor a um ambiente que tenha um ruído ambiente ou um idioma específico. Chãos de fábrica, carros, ruas barulhentas exigiriam um modelo acústico adaptado. Tópicos como biologia, física, radiologia, nomes de produtos e acrônimos personalizados exigem um modelo de linguagem adaptado. Se você deseja treinar um modelo personalizado, comece com um texto relacionado para aprimorar o reconhecimento de termos e frases especiais.

Question 2

Por onde começar se eu quiser usar um modelo de base?

Accepted Answer

Primeiro, obtenha a chave e a região do recurso de Fala no portal do Azure. Caso deseje fazer chamadas REST a um modelo de linha de base pré-implantado, confira a documentação das APIs REST. Caso deseje usar o WebSockets, baixe o SDK de Fala.

Question 3

Preciso sempre criar um modelo de fala personalizada?

Accepted Answer

Não. Se o aplicativo usa linguagem genérica diária, você não precisa personalizar um modelo. Se o aplicativo é usado em um ambiente em que há pouco ou nenhum ruído de fundo, você não precisa personalizar um modelo.

Você pode implantar modelos personalizados e de linha de base no portal e, em seguida, executar testes de precisão neles. Você pode usar esse recurso para medir a precisão de um modelo de base em comparação com um modelo personalizado.

Question 4

Como posso saber quando o processamento do meu conjunto de dados ou do modelo está completo?

Accepted Answer

Atualmente, a única maneira de saber isso é ver o status do modelo ou do conjunto de dados na tabela. Quando o processamento for concluído, o status será Bem-sucedido.

Question 5

Posso criar mais de um modelo?

Accepted Answer

Não há um limite para o número de modelos que você pode ter na sua coleção.

Question 6

Percebi que cometi um erro. Como fazer para cancelar uma importação de dados ou a criação de um modelo em andamento?

Accepted Answer

Atualmente, não é possível reverter um processo de adaptação acústica ou de linguagem. Você pode excluir modelos e dados importados quando estão em um estado terminal.

Question 7

Obtenho vários resultados para cada frase com o formato de saída detalhado. Qual deles devo usar?

Accepted Answer

Sempre use o primeiro resultado, mesmo que outro ("N-melhor") tenha um valor de confiança maior. O serviço de Fala considera o primeiro resultado como o melhor. O resultado também pode ser uma cadeia de caracteres vazia se nenhuma fala foi reconhecida.

Os outros resultados provavelmente são piores e podem não ter a capitalização e pontuação total aplicadas. Esses resultados são mais úteis em cenários especiais, como oferecer aos usuários a opção de escolher correções em uma lista ou tratar comandos reconhecidos incorretamente.

Question 8

Por que há vários modelos base?

Accepted Answer

Você pode escolher entre mais de um modelo base no serviço de Fala. Cada nome de modelo contém a data em que foi adicionado. Ao começar a treinar um modelo personalizado, use o modelo mais recente para obter a melhor precisão. Os modelos base mais antigos ainda ficam disponíveis por algum tempo depois que um novo modelo é disponibilizado. Você pode continuar usando o modelo com o qual trabalhou até que ele seja desativado (confira Ciclo de vida do modelo e do ponto de extremidade). Ainda recomendamos mudar para o modelo base mais recente para obter uma precisão maior.

Question 9

Posso atualizar meu modelo existente (empilhamento de modelo)?

Accepted Answer

Não é possível atualizar um modelo existente. Como solução, combine o conjunto de dados antigo ao novo conjunto de dados e readapte-os.

O conjunto de dados antigo e o novo devem ser combinados em um único arquivo .zip (para dados acústicos) ou em um arquivo .txt (para dados de linguagem). Quando a adaptação for concluída, reimplante o novo modelo atualizado para obter um novo ponto de extremidade.

Question 10

Quando uma nova versão de um modelo de base está disponível, minha implantação é atualizada automaticamente?

Accepted Answer

As implantações não são atualizadas automaticamente.

Se você adaptou e implantou um modelo, a implantação existente permanecerá como está. Você pode desativar o modelo implantado, readaptá-lo usando a última versão do modelo base e reimplantá-lo para obter uma melhor precisão.

Os modelos base e os modelos personalizados são desativados após algum tempo (confira Ciclo de vida de modelo e ponto de extremidade).

Question 11

Posso baixar meu modelo e executá-lo localmente?

Accepted Answer

Você pode executar um modelo personalizado localmente em um contêiner do Docker.

Question 12

Posso copiar ou mover meus conjuntos de dados, modelos e implantações para outra região ou assinatura?

Accepted Answer

Você pode usar a API REST Models_Copy para copiar um modelo personalizado para outra região ou assinatura. Conjuntos de dados e implantações não podem ser copiados. Você pode importar um conjunto de dados novamente em outra assinatura e criar pontos de extremidade nela usando as cópias do modelo.

Question 13

Minhas solicitações são registradas em log?

Accepted Answer

Por padrão, as solicitações não são registradas em log (nem em áudio ou transcrição). Se necessário, você pode selecionar a opção Registrar o conteúdo desse ponto de extremidade em log ao criar um ponto de extremidade personalizado. Habilite também o log de áudio no SDK de Fala por solicitação sem a necessidade de criar um ponto de extremidade personalizado. Em ambos os casos, os resultados de áudio e de reconhecimento de solicitações serão armazenados no armazenamento seguro. As assinaturas que usam o armazenamento de propriedade da Microsoft ficam disponíveis por 30 dias.

Você pode exportar os arquivos registrados na página de implantação no Speech Studio se usar um ponto de extremidade personalizado com a opção Registrar o conteúdo desse ponto de extremidade habilitada. Se o registro em log de áudio for habilitado por meio do SDK, chame a API para acessar os arquivos. Você também pode usar a API para excluir os logs a qualquer momento.

Question 14

Minhas solicitações são limitadas?

Accepted Answer

Para saber mais, confira Limites e cotas do serviço de Fala.

Question 15

Como sou cobrado pelo áudio de dois canais?

Accepted Answer

Se enviar cada canal separadamente em um arquivo próprio, você será cobrado pela duração do áudio de cada arquivo. Se você enviar um arquivo individual com os canais multiplexados juntos, será cobrado pela duração do arquivo individual. Para saber mais sobre preços, consulte a página de preços dos Serviços de IA do Azure.

Importante

Caso tenha outros problemas de privacidade que impeçam você de usar o serviço de voz personalizada, entre em contato com um dos canais de suporte.

Aumentando a simultaneidade

Para saber mais, confira Limites e cotas do serviço de Fala.

Question 16

Qual é o limite de tamanho de um conjunto de dados, e por que esse é o limite?

Accepted Answer

O limite é devido à restrição no tamanho dos arquivos para upload HTTP. Para ver o limite real, confira Cotas e limites do serviço de Fala. Você pode dividir seus dados em vários conjuntos de dados e selecionar todos eles para treinar o modelo.

Question 17

Posso compactar meus arquivos de texto para carregar um arquivo de texto maior?

Accepted Answer

Não. No momento são permitidos apenas os arquivos de texto não compactados.

Question 18

O relatório de dados indica que houve enunciados com falha. Qual é o problema?

Accepted Answer

Uma falha em carregar 100% dos enunciados em um arquivo não é problema. Se a maioria dos enunciados em um conjunto de dados acústicos ou linguísticos (por exemplo, mais de 95%) for importada com sucesso, o conjunto de dados poderá ser usado. No entanto, ainda recomendamos que você tente entender por que os enunciados falharam e corrija o problema. Os problemas mais comuns, como a formatação de erros, são difíceis de resolver.

Question 19

Quantos dados acústicos são necessários?

Accepted Answer

Recomendamos começar com um intervalo de 30 minutos a uma hora de dados acústicos.

Question 20

Quais dados devem ser coletados?

Accepted Answer

Colete dados que sejam os mais próximos possíveis do cenário do aplicativo e do caso de uso. A coleta de dados deve corresponder ao aplicativo de destino e aos usuários em termos de dispositivo ou dispositivos, ambientes e tipos de alto-falantes. Em geral, você deve coletar dados de uma variedade de falantes o mais ampla possível.

Question 21

Como devo coletar dados acústicos?

Accepted Answer

Você pode criar um aplicativo autônomo de coleta de dados ou usar um software de gravação de áudio pronto para uso. Você também pode criar uma versão do seu aplicativo que registre os dados de áudio e usá-los.

Question 22

Preciso transcrever os dados de adaptação?

Accepted Answer

Sim. Você pode transcrever você mesmo ou usar um serviço profissional de transcrição. Alguns usuários preferem transcritores profissionais, e outros usam crowdsourcing ou eles mesmos transcrevem os dados.

Question 23

Quanto tempo leva para treinar um modelo personalizado com os dados de áudio?

Accepted Answer

Treinar um modelo com os dados de áudio pode ser um processo longo. Dependendo da quantidade de dados, pode levar vários dias para criar um modelo personalizado. Se ele não puder ser concluído em uma semana, o serviço poderá anular a operação de treinamento e relatar o modelo como com falha.

Em geral, o serviço de Fala processa aproximadamente dez horas de dados de áudio por dia em regiões que têm um hardware dedicado. Ele pode só processar cerca de uma hora de dados de áudio por dia em outras regiões. O treinamento somente com texto é mais rápido e normalmente termina em minutos.

Use uma das regiões em que o hardware dedicado está disponível para treinamento. O serviço de Fala usa até 20 horas de áudio para treinamento nessas regiões. Em outras regiões, o serviço de Fala usa até 8 horas.

Question 24

O que é o WER (taxa de erros de palavras) e como ele é calculado?

Accepted Answer

O WER é a métrica de avaliação para o reconhecimento de fala. O WER é calculado como o número total de erros (inserções, exclusões e substituições), dividido pelo número total de palavras na transcrição de referência. Para obter mais informações, confira o Modelo de teste quantitativamente.

Question 25

Como fazer para determinar se os resultados de um teste de precisão são adequados?

Accepted Answer

Os resultados mostram uma comparação entre o modelo de base e o modelo personalizado. Para que a personalização seja útil, você deve tentar superar o modelo de base.

Question 26

Como fazer para determinar o WER de um modelo base para ver se houve um aprimoramento?

Accepted Answer

Os resultados do teste offline mostram a precisão da linha de base do modelo personalizado e a melhoria em relação à linha de base.

Question 27

Qual é a quantidade de dados de texto que preciso carregar?

Accepted Answer

Isso depende da diferença entre as frases e o vocabulário usados no aplicativo e os modelos de linguagem iniciais. Para todas as palavras novas, é útil fornecer o maior número possível de exemplos do uso dessas palavras. Para frases comuns que são usadas no seu aplicativo, incluir frases nos dados do idioma fornecendo vários exemplos é útil, porque instrui o sistema a escutar esses termos também. É comum ter, pelo menos, 100 e, normalmente, várias centenas ou mais enunciados no conjunto de dados do idioma. Além disso, se alguns tipos de consultas são mais comuns do que outras, você pode inserir várias cópias das consultas comuns no conjunto de dados.

Question 28

Posso simplesmente carregar uma lista de palavras?

Accepted Answer

Carregar uma lista de palavras as adiciona ao vocabulário, mas não ensina ao sistema como as palavras são normalmente usadas. Fornecendo enunciados completos ou parciais (orações ou frases de itens que os usuários provavelmente dirão), o modelo de linguagem pode aprender as novas palavras e como elas são usadas. O modelo de linguagem personalizado é bom não apenas para incluir novas palavras no sistema, mas também para ajustar a probabilidade de palavras conhecidas para sua aplicação. Fornecer utterances completas ajuda o sistema Saiba mais.

Perguntas frequentes sobre conversão de fala em texto

Geral