Compartilhar via


Nota de transparência: conversão de texto em fala

Importante

Traduções não em inglês são fornecidas apenas para conveniência. Consulte a EN-US versão deste documento para a versão v.

O que é uma Nota de Transparência?

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, que serão afetadas por ele e o ambiente em que ele é implantado. A criação de um sistema adequado para sua finalidade pretendida requer uma compreensão de como a tecnologia funciona, quais são suas funcionalidades e limitações e como obter o melhor desempenho. As Notas de transparência da Microsoft têm a finalidade de ajudar você a entender como funciona nossa tecnologia de IA, as escolhas que os proprietários do sistema podem fazer para influenciar o desempenho e o comportamento do sistema e a importância de pensar no sistema completo, incluindo a tecnologia, as pessoas e o ambiente. Você pode usar Notas de Transparência ao desenvolver ou implantar seu próprio sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

As Notas de Transparência da Microsoft fazem parte de um trabalho mais amplo da Microsoft para pôr em prática nossos Princípios de IA. Para saber mais, confira os princípios de IA da Microsoft.

As noções básicas de texto em fala

Introdução

Texto para fala, parte do Azure AI Speech, é uma ferramenta versátil que pode converter texto escrito em áudio de fala natural. O recurso recebe entrada na forma de texto e gera saída de áudio de fala de alta qualidade que pode ser reproduzida em dispositivos. Para a saída de áudio de voz, a conversão de texto em fala oferece uma variedade de vozes neurais predefinidas ou, para clientes com Acesso Limitado, a opção de criar uma voz neural personalizada para seu produto ou marca.

A conversão de texto em fala também tem recursos visuais. Usando o avatar de texto em fala, os clientes podem inserir texto e criar um vídeo sintético de um avatar falando. Tanto o texto predefinido para avatares de fala quanto o texto personalizado para avatares de fala estão disponíveis, que podem ser usados com voz neural predefinida e voz neural personalizada, embora alguns recursos estejam disponíveis apenas para clientes do Acesso Limitado.

Em um sistema de conversão de texto em fala, os clientes podem transformar informações escritas em fala audível e melhorar a acessibilidade para os usuários. Seja ouvindo documentos ou aprimorando as experiências do usuário com fala sintetizada, a conversão do texto em fala transforma o texto em palavras faladas com som natural.

Principais termos

Prazo Definição
Síntese de fala em tempo real Use o SDK de Fala ou a API REST para converter texto em fala usando voz neural predefinida, texto predefinido em avatar de fala, voz neural personalizada e texto personalizado em avatar de fala.
Modelo de voz Em um sistema de conversão de texto em fala, um modelo de voz refere-se a um modelo ou algoritmo baseado em machine learning que gera fala sintética a partir de texto escrito. Esse modelo é treinado para converter a entrada de texto em saída de linguagem falada, imitando as características de uma voz humana, incluindo tom, tom e pronúncia.
Prosódia Prosody refere-se à modulação de elementos de fala, como tom, duração, volume e pausas para infundir vozes sintéticas com uma qualidade natural e expressiva, transmitindo nuances emocionais e significado contextual, reduzindo assim a qualidade robótica da fala gerada e tornando-a mais envolvente e compreensível para os ouvintes.
Linguagem de marcação de síntese de fala ("SSML") A SSML (Speech Synthesis Markup Language) é uma linguagem de marcação baseada em XML usada para personalizar saídas de texto em fala. Com a SSML, é possível ajustar o timbre, adicionar pausas, aprimorar a pronúncia, alterar a velocidade da fala, ajustar o volume e atribuir várias vozes a um documento individual. Você pode usar a SSML para definir léxicos próprios ou mudar para estilos de fala diferentes.
Síntese assíncrona de áudio longo Use a API de síntese em lote (versão prévia) para sintetizar de forma assíncrona o texto em arquivos de fala com mais de 10 minutos (por exemplo, livros de áudio ou palestras). Ao contrário da sintetização feita com o SDK de Fala ou a API REST de Conversão de fala em texto, as respostas não são retornadas em tempo real. A expectativa é que as solicitações sejam enviadas de maneira assíncrona, que as respostas sejam sondadas e que o áudio sintetizado seja baixado quando disponibilizado pelo serviço.
Visemas Visemas: são poses básicas da fala observada, como a posição dos lábios, da mandíbula e da língua ao produzir um fonema específico. Os visemas têm uma forte correlação com vozes e fonemas.

Introdução

A voz neural predefinida fornece uma ampla gama de vozes, oferecendo mais de 400 opções em mais de 140 idiomas e localidades. Essas vozes de conversão de texto em fala permitem integrar rapidamente a funcionalidade de leitura em voz alta em seus aplicativos para maior acessibilidade.

Principais termos

Prazo Definição
Voz neural predefinida A Microsoft oferece um conjunto de vozes neurais predefinidas, que usam redes neurais profundas para superar os limites da síntese de fala tradicional em relação ao estresse e à entonação na linguagem falada. A previsão de prosódia e a sintetização de voz ocorrem simultaneamente, o que produz resultados mais fluidos e naturais. Cada modelo de voz neural predefinido está disponível em 24kHz e 48kHz de alta fidelidade, e a saída pode ser aumentada ou reduzida para outros formatos.

Capacidades

Comportamento do sistema

Conversão de texto em fala

A conversão de texto em fala converte texto em fala de som natural.

Abaixo estão as principais opções para usar o serviço de conversão de texto em fala.

API de conversão de texto em tempo real para fala

Essa é uma chamada de API comum por meio do SDK de Fala ou da API REST para enviar uma entrada de texto e receber uma saída de áudio em tempo real. O sistema de Fala usa um modelo de voz de conversão de texto em fala para converter o texto em fala sintética semelhante à fala humana. O áudio de saída pode ser salvo como um arquivo ou ser reproduzido em um dispositivo de saída, como um alto-falante (saiba mais sobre como sintetizar a fala do texto). Os usuários também podem usar SSML para ajustar o texto à saída de fala.

Os modelos de conversão de texto em fala são treinados em grandes quantidades de áudio diverso em cenários de uso típicos e em uma ampla gama de alto-falantes. Por exemplo, o serviço de conversão de texto em fala geralmente é usado para bots de chat habilitados para voz ou para criação de conteúdo de áudio.

API de síntese em lote

A síntese em lote é outro tipo de chamada à API. Normalmente, ele é usado para enviar arquivos de texto grandes e receber saídas de áudio de forma assíncrona (ou seja, posteriormente). Para usar essa API, você pode especificar locais para vários arquivos de texto. A tecnologia de texto em fala lê a entrada de texto do arquivo e gera arquivos de áudio que são retornados para o local de armazenamento especificado. Esse recurso é usado para dar suporte a trabalhos de síntese de fala maiores nos quais não é necessário fornecer aos usuários finais a saída de áudio em tempo real. Um exemplo é criar livros de áudio.

Texto em fala – voz neural personalizada

A voz neural personalizada é um recurso de conversão de texto em fala que permite que os clientes do Acesso Limitado criem uma voz sintética personalizada única para seus aplicativos, fornecendo seus próprios dados de áudio dos talentos de voz selecionados pelo cliente.

Com a voz neural personalizada, você pode gravar seu talento de voz fazendo com que eles leiam scripts fornecidos pela Microsoft no Speech Studio e crie rapidamente uma voz sintética que soa como seu talento de voz usando um projeto lite (versão prévia). Um projeto lite é ideal para uma avaliação rápida ou uma prova de conceito.

Com um projeto profissional, você pode carregar dados de voz de alta qualidade gravados em estúdio do seu talento de voz selecionado e criar uma voz realista. O Pro dá suporte ao treinamento de voz altamente natural, ainda mais semelhante à voz do seu talento de voz, podendo ser adaptado para expressar várias emoções e para ser usado com diferentes idiomas, sem a necessidade de dados adicionais de treinamento específicos de emoção ou de idioma.

Depois que uma voz neural personalizada é criada, você pode implantar o modelo de voz com um ponto de extremidade exclusivo e usar o modelo para gerar fala sintética com a API de síntese em tempo real ou a API de síntese em lote descrita acima.

Para obter mais informações sobre a voz neural personalizada, consulte Visão geral da voz neural personalizada.

Voz pessoal

O recurso de voz pessoal permite que os clientes do Acesso Limitado criem um modelo de voz a partir de um breve exemplo de voz humana. O recurso pode criar um modelo de voz com base no prompt em apenas alguns segundos. Esse recurso normalmente é usado para alimentar experiências de voz personalizadas para aplicativos de clientes empresariais. Modelos de voz pessoal podem criar vozes realistas que podem falar em cerca de 100 idiomas.

Marcas d'água são adicionadas a vozes neurais personalizadas criadas com o recurso de voz pessoal. As marcas d'água permitem que os usuários identifiquem se a fala é sintetizada usando a Fala de IA do Azure e, especificamente, qual voz foi usada. Os clientes qualificados podem usar os recursos de detecção de marca d'água da Fala da IA do Azure. Para solicitar a adição da detecção de marca d'água aos seus aplicativos, entre em contato com mstts[at]microsoft.com.

Para obter mais informações sobre voz pessoal, consulte a voz pessoal.

Avatar de conversão de texto em fala

O avatar de conversão de texto em fala transforma texto em um vídeo digital de um humano fotorealista (seja um avatar predefinido ou um avatar personalizado) que fala com uma voz natural, impulsionada por recursos de conversão de texto em fala, como voz neural predefinida ou voz neural personalizada. O vídeo de avatar de conversão de texto em fala pode ser sintetizado de forma assíncrona ou em tempo real. Os desenvolvedores podem criar aplicativos integrados com o avatar de conversão de texto em fala por meio de uma API ou usar uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.

Com os modelos avançados de rede neural do avatar de conversão de texto em fala, o recurso capacita os usuários a fornecer vídeos de avatar sintéticos de alta qualidade e bem verossímeis para vários aplicativos.

O avatar de texto em fala adota o padrão da Coalizão para a Proveniência e Autenticidade de Conteúdo (C2PA) para fornecer ao público uma compreensão mais clara sobre a origem e o histórico do conteúdo de vídeo criado por avatares. Esse padrão oferece informações transparentes sobre a geração de IA do conteúdo de vídeo. Para obter mais detalhes sobre a integração do C2PA com avatares de texto em fala, consulte as Credenciais de Conteúdo no Avatar de Texto para Fala do Azure.

Além disso, as saídas de avatar recebem uma marca d'água automaticamente. As marcas d'água permitem que os usuários aprovados identifiquem se um vídeo foi sintetizado usando a funcionalidade de avatar da Azure AI Speech. Para solicitar a detecção de marca d'água, entre em contato com avatarvoice[at]microsoft.com.

Tradução de vídeo (versão prévia)

A tradução em vídeo pode localizar com eficiência seu conteúdo de vídeo para atender a diversos públicos em todo o mundo. A tradução em vídeo extrairá automaticamente áudio de diálogo, transcreverá, traduzirá e dublará o conteúdo com voz predefinida ou pessoal para o idioma de destino, com legendas precisas para melhor acessibilidade. Os recursos de vários alto-falantes ajudarão a identificar o número de indivíduos que falam e recomendam vozes adequadas. A edição de conteúdo com humanos no loop permite um alinhamento preciso com a preferência do cliente. A qualidade da tradução aprimorada garante o alinhamento preciso de áudio e vídeo com a integração do GPT. A tradução em vídeo permite experiências de dublagem autenticadas e personalizadas com voz pessoal.

Casos de uso

O texto em fala oferece uma variedade de recursos que atendem a uma ampla gama de usos pretendidos entre setores e domínios. Todos os recursos de conversão de texto em fala, incluindo tradução de vídeo, estão sujeitos aos termos e condições aplicáveis à assinatura Azure dos clientes, incluindo a Política de Uso Aceitável do Azure e o Código de conduta do Serviço de Texto para Fala do Azure AI.

Além disso, os recursos personalizados de texto em fala, como voz neural personalizada, voz pessoal e avatar de texto personalizado para fala, estão limitados aos casos de uso aprovados, conforme descrito nos cenários específicos descritos abaixo:

Usos pretendidos para o Custom Neural Voice Pro e o Custom Neural Voice Lite

Veja a seguir os casos de uso aprovados para o Custom Neural Voice Pro e o Custom Neural Voice Lite:

  • Aprendizado educacional ou interativo: para criar uma marca fictícia ou voz de personagem para ler ou falar materiais educacionais, aprendizado online, planos de aula interativos, aprendizado de simulação ou passeios guiados no museu.
  • Mídia: Entretenimento: Para criar uma marca fictícia ou voz de personagem para ler ou falar conteúdo de entretenimento para videogames, filmes, TV, música gravada, podcasts, livros de áudio ou realidade aumentada ou virtual.
  • Mídia: marketing: para criar uma voz fictícia de marca ou lógico de personagem para ler ou falar em mídias de marketing e de produtos ou serviços, apresentação de produtos, promoção de negócios ou anúncios.
  • Conteúdo de autoria própria: para criar uma voz para ler o conteúdo criado pelo talento de voz.
  • Recursos de acessibilidade: para uso em sistemas de audiodescrição e narração, incluindo qualquer marca fictícia ou voz de caractere, ou para facilitar a comunicação por pessoas com deficiências de fala.
  • Sistemas de resposta de voz interativa (IVR): para criar vozes, incluindo qualquer marca fictícia ou voz de caractere, para operações de call center, sistemas de telefonia ou respostas para interações telefônicas.
  • Anúncios informativos e de serviço público: para criar uma marca fictícia ou voz de caractere para comunicar informações de serviço público, incluindo comunicados para locais públicos ou para transmissões informativas, como tráfego, clima, informações de eventos e agendas. Este caso de uso não se destina ao conteúdo jornalístico ou de notícias.
  • Tradução e localização: para uso em aplicativos de tradução para traduzir conversas em diferentes idiomas ou traduzir mídia de áudio.
  • Assistente Virtual ou Chatbot: para criar uma marca fictícia ou voz de caractere para assistentes inteligentes em ou para assistentes web virtuais, dispositivos, carros, eletrodomésticos, brinquedos, controle de dispositivos IoT, sistemas de navegação, leitura de mensagens pessoais, complementos virtuais ou cenários de atendimento ao cliente.

Usos pretendidos para voz pessoal

A API de voz pessoal (consulte a voz pessoal para obter mais informações) está disponível na versão prévia do Acesso Limitado. Somente os clientes que atendem aos critérios de qualificação de Acesso Limitado podem integrar a API de voz pessoal com seus aplicativos. Esses clientes qualificados têm permissão para usar vozes pessoais somente para os seguintes casos de uso:

  • Aplicativos: para uso em aplicativos em que a saída de voz é restrita e definida pelos clientes e onde a voz não lê conteúdo gerado pelo usuário ou aberto. O uso do modelo de voz deve permanecer dentro do aplicativo e a saída não deve ser publicável ou compartilhável do aplicativo. Alguns exemplos de aplicativos que se encaixam nessa descrição são assistentes de voz em dispositivos inteligentes e personalização de uma voz de caractere em jogos.
  • Mídia, filmes e TV: Para dublar apenas filmes, TV, vídeo e áudio para cenários de entretenimento, onde os clientes mantêm controle exclusivo sobre a criação, o acesso e o uso dos modelos de voz e sua saída.
  • Conteúdo de negócios: para criar conteúdo de áudio e vídeo para cenários de negócios para comunicar informações do produto, materiais de marketing, conteúdo promocional de negócios e comunicações comerciais internas.
  • Uso especial, agrupado com tradução de vídeo: para sintetizar vozes para cada alto-falante em um vídeo. Os clientes também podem editar e gerar conteúdo de áudio sincronizado por lábios em idiomas de destino. Os clientes não são obrigados a enviar à Microsoft consentimento de áudio adicional para conteúdo de vídeo neste cenário, mas os clientes devem manter controle exclusivo sobre a criação, o acesso e o uso dos modelos de voz e suas saídas.

Todos os outros usos de voz neural personalizada, incluindo Custom Neural Voice Pro, Custom Neural Voice Lite e voz pessoal, são proibidos. Além disso, a voz neural personalizada é um serviço de Acesso Limitado e o registro é necessário para acesso a esse serviço. Para saber mais sobre a política de Acesso Limitado da Microsoft, consulte os recursos de Acesso Limitado para serviços de IA do Azure. Determinados recursos só estão disponíveis para clientes e parceiros gerenciados da Microsoft e apenas para determinados casos de uso aprovados pela Microsoft no momento do registro.

A voz neural predefinida também pode ser usada para os casos de uso de voz neural personalizados acima, bem como casos de uso adicionais selecionados pelos clientes e consistentes com a Política de Uso Aceitável do Azure e o Código de conduta para conversão de texto em fala da Fala de IA do Azure. Nenhum registro ou pré-aprovação é necessário para casos de uso adicionais para voz neural predefinida que atendam a todos os termos e condições aplicáveis.

Casos de uso pretendidos para tradução de vídeo (versão prévia)

A tradução em vídeo pode ser usada para filmes, TV e outros visuais (incluindo, mas não limitados a vídeo ou animação) e aplicativos de áudio, em que os clientes mantêm controle exclusivo sobre a criação, o acesso e o uso dos modelos de voz e sua saída. A voz pessoal e a sincronização labial estão sujeitas à estrutura de Acesso Limitado, e os clientes qualificados podem usar esses recursos com tradução de vídeos. Veja a seguir os casos de uso aprovados para o serviço de tradução de vídeo:

  • Educação &aprendizagem: para traduzir áudio em visuais educacionais, cursos online, módulos de treinamento, aprendizado baseado em simulação ou visuais guiados de turismo de museu para alunos multilíngues. 
  • Mídia: Entretenimento: Para traduzir áudio em filmes, filmes, programas de TV, documentários, videogames, mini-série, curta-metragem e conteúdo AR/VR para o público global, garantindo uma narrativa perfeita entre linguagens. 
  • Mídia: Marketing: Para traduzir áudio em visuais promocionais, demonstrações de produtos, anúncios e campanhas de identidade visual para ressoar com mercados e culturas internacionais. 
  • Self-Authored Conteúdo: Para traduzir áudios em vlogs, visuais de curta duração, conteúdos de influenciadores, guias de viagem, vídeos promocionais de destinos, visuais de mídias sociais e seleções culturais, tornando-os acessíveis e envolventes. 
  • Treinamento corporativo e comunicação: para traduzir áudio em visuais de comunicação interna, materiais de integração de funcionários, treinamento de conformidade e comunicados corporativos globais para equipes internacionais. 
  • E-commerce e Demonstrações de Produtos: destinado a traduzir áudio em visuais de unboxing de produtos, tutoriais, depoimentos de clientes e ilustrações explicativas para atender compradores internacionais. 
  • Comunicados informativos e de serviço público: para traduzir áudio em visuais de reconhecimento público, agendas de eventos, comunicados de segurança e transmissões informativas governamentais para acessibilidade multilíngue. 
  • Recursos de acessibilidade: para ampliar a acessibilidade do conteúdo de vídeo por meio de áudio e subtítulos multilíngues.
  • Notícias e Conteúdo Jornalístico: Para traduzir áudio em segmentos de notícias, entrevistas, comunicados de imprensa e notícias de última hora para diversos públicos linguísticos. Os clientes que procuram traduzir fontes de notícias exigirão revisão adicional.

Usos previstos para avatar de fala com texto personalizado e avatar de fala com texto predefinido

Veja a seguir os casos de uso aprovados para o avatar de texto para fala personalizado:

  • Assistente Virtual ou Chatbot: para criar assistentes virtuais, complementares virtuais, assistentes de vendas virtuais ou para aplicativos de atendimento ao cliente.
  • Geração de conteúdo para contextos empresariais: para uso para comunicar informações do produto, materiais de marketing, conteúdo promocional de negócios e comunicações comerciais internas. Exemplos incluem avatares de caracteres ou gêmeos digitais de um líder de negócios para promover uma marca.
  • Aprendizado educacional ou interativo: para criar uma marca fictícia ou avatar de personagem para apresentar materiais educacionais, aprendizado online, planos de aula interativos, aprendizado de simulação ou passeios guiados no museu.
  • Mídia: Entretenimento: para apresentar atualizações, compartilhar conhecimento, criar mídia interativa ou fazer vídeos de cabeçalho para cenários de entretenimento, como vídeos, jogos e realidade aumentada ou virtual.
  • Recursos de acessibilidade: para uso para facilitar a comunicação por pessoas com deficiências de fala.
  • Conteúdo de autoria própria: para criar um avatar para ler o conteúdo criado pelo talento de avatar.
  • Anúncios informativos e de serviço público: para criar uma imagem fictícia de marca ou caractere para comunicar informações de serviço público, incluindo comunicados para locais públicos ou para transmissões informativas, como tráfego, clima, informações de eventos e agendas. Este caso de uso não se destina ao conteúdo jornalístico ou de notícias.
  • Tradução e localização: para uso em aplicativos de tradução para traduzir conversas em diferentes idiomas ou traduzir mídia de áudio em formato de vídeo.

Todos os outros usos de avatar de texto para fala personalizado são proibidos. Além disso, o avatar de texto personalizado para fala é um serviço de Acesso Limitado e o registro é necessário para acesso a esse recurso. Para saber mais sobre a política de Acesso Limitado da Microsoft , visite aka.ms/limitedaccesscogservices. Determinados recursos só estão disponíveis para clientes e parceiros gerenciados da Microsoft e apenas para determinados casos de uso aprovados pela Microsoft no momento do registro.

O avatar de conversão de texto em fala predefinido para fala também pode ser usado para os casos de uso de avatar personalizados acima, bem como casos de uso adicionais selecionados pelos clientes e consistentes com a Política de Uso Aceitável do Azure e o Código de conduta para conversão de texto em fala da Fala de IA do Azure. Nenhum registro ou pré-aprovação é necessário para casos de uso adicionais de avatar pré-construído de texto para fala que atendam a todos os termos e condições aplicáveis.

Considerações ao escolher casos de uso

Incentivamos os clientes a usar recursos de texto em fala em suas soluções ou aplicativos inovadores. Todos os recursos de conversão de texto em fala devem aderir à Política de Uso Aceitável do Azure e ao Código de conduta para conversão de texto em fala de IA do Azure. Além disso, a voz neural personalizada e o texto personalizado para avatares de fala só podem ser usados para os casos de uso aprovados por meio do formulário de registro de Acesso Limitado. Além disso, aqui estão algumas considerações ao escolher um caso de uso para qualquer recurso de conversão de texto em fala:

  • Garanta o alinhamento dos casos de uso: Certifique-se de que o uso pretendido de qualquer recurso de texto para fala está alinhado com as capacidades e a finalidade pretendida do recurso de texto para fala.
  • Considerações sobre IA responsável: priorize as práticas de IA responsáveis evitando a criação de conteúdo enganoso ou prejudicial. Adere à privacidade, à proteção de dados e aos regulamentos legais ao usar recursos de texto em fala.
  • Examine o código de conduta: a Microsoft estabeleceu um código de conduta que proíbe determinados usos de todos os recursos de texto em fala. Verifique a conformidade com o código de conduta ao selecionar um caso de uso para serviços de texto em fala.
  • Exercite o controle editorial: considere cuidadosamente o uso de vozes sintéticas com conteúdo que não tenha controle editorial adequado, pois vozes sintéticas podem soar como humanas e amplificar o efeito de conteúdo incorreto ou enganoso.
  • Divulgação: Divulgue a natureza sintética de vozes, imagens e/ou vídeos aos usuários, de modo que eles provavelmente não sejam enganados nem consigam enganar outras pessoas, levando-as a acreditar que estão interagindo com uma pessoa real.
  • Considerações legais e regulatórias: as organizações precisam avaliar possíveis obrigações legais e regulatórias específicas ao usar quaisquer serviços e soluções de IA, o que pode não ser apropriado para uso em todos os setores ou cenários. Além disso, os serviços ou soluções de IA não são projetados para serem usados de formas proibidas e não podem ser usados dessa maneira nos termos de serviço aplicáveis e códigos de conduta relevantes.

Ao aderir a essas considerações, os usuários podem aproveitar a voz neural predefinida e personalizada de forma responsável.

Limitações

As limitações do texto para a fala devem ser consideradas na interseção da tecnologia e dos fatores humanos, sociais e organizacionais que influenciam seu uso e impacto. Embora o texto em fala ofereça recursos avançados de síntese de fala, há certas limitações a serem observadas ao implantá-lo com responsabilidade para minimizar possíveis erros.

Limitações técnicas, fatores operacionais e alcance

As limitações técnicas a serem consideradas ao usar texto em fala incluem a precisão da pronúncia e da entonação. Embora a conversão do texto em fala seja projetada para gerar fala natural, ela pode encontrar dificuldades com determinadas palavras, nomes ou frases incomuns. Os usuários devem estar cientes de que pode haver instâncias em que o sistema possa pronunciar incorretamente ou enfatizar palavras incorretamente, especialmente ao lidar com vocabulário específico de nicho ou domínio.

É importante observar que determinadas populações podem ser mais afetadas negativamente por essas limitações técnicas. Por exemplo, indivíduos com deficiência auditiva que dependem fortemente da fala sintetizada podem enfrentar desafios na compreensão da saída de fala não clara ou distorcida. Da mesma forma, os usuários com deficiências cognitivas ou relacionadas à linguagem podem achar difícil compreender a fala com entonação não natural ou palavras mal pronunciados.

  • Limitações linguísticas: embora façamos a curadoria cuidadosa e preparemos dados de treinamento para minimizar preconceitos, especialmente relacionados a gênero, etnia ou acentos regionais, e enquanto o texto em fala dá suporte a vários idiomas e ênfases, pode haver variações na qualidade e disponibilidade de vozes em diferentes idiomas. Os clientes devem estar cientes das possíveis limitações na precisão da pronúncia, na entonação e nas nuances linguísticas específicas de determinadas linguagens ou dialetos.
  • Contexto e emoção: o texto em fala pode ter limitações para transmitir com precisão informações contextuais e emoções. Os clientes devem estar atentos à incapacidade do sistema de entender as nuances emocionais ou as indicações sutis presentes no texto de entrada. Considerações devem ser feitas para fornecer contexto adicional ou utilizar outros métodos para transmitir emoções efetivamente.
  • Disponibilidade: a Microsoft fornecerá aos clientes 12 meses de aviso prévio antes de remover as vozes neurais predefinidas do nosso catálogo, a menos que considerações de desempenho de segurança, legais ou do sistema exijam uma remoção acelerada. Isso não se aplica às versões prévias.

Cada aplicativo é diferente e nosso modelo base pode não corresponder ao seu contexto ou abranger todos os cenários necessários para seu caso de uso. Incentivamos os desenvolvedores a avaliar minuciosamente a qualidade do texto em voz sintética de fala e vídeo com dados reais que refletem seu caso de uso, incluindo testes com usuários de diferentes grupos demográficos e com características de fala diferentes. Consulte a seção De qualidade do modelo de voz treinado para práticas recomendadas para a criação de modelos de voz de alta qualidade.

Além de garantir o desempenho, é importante considerar como minimizar os riscos de estereotipamento e apagamento que podem resultar de vozes sintéticas e avatar. Por exemplo, se você estiver criando uma voz neural personalizada para um assistente de voz inteligente, considere cuidadosamente qual voz é apropriada para criar e busque perspectivas diversas de indivíduos de várias origens. Ao compilar e avaliar seu sistema, sempre procure entradas diversas.

Considerações sobre a imparcialidade

Na Microsoft, nos esforçamos para capacitar cada pessoa do planeta a fazer mais. Uma parte essencial desse objetivo é trabalhar para criar tecnologias e produtos que sejam justos e inclusivos. A imparcialidade é um tópico multidimensional e sociotécnmico e afeta muitos aspectos diferentes do nosso desenvolvimento de produtos. Você pode saber mais sobre a abordagem da Microsoft para a imparcialidade aqui.

Uma dimensão importante a ser considerada ao usar sistemas de IA, incluindo texto em fala, é o desempenho do sistema para diferentes grupos de pessoas. Pesquisas mostraram que, sem esforço consciente focado na melhoria do desempenho para todos os grupos, os sistemas de IA podem apresentar diferentes níveis de desempenho em diferentes fatores demográficos, como raça, etnia, gênero e idade.

Como parte da nossa avaliação do texto para fala do Azure AI, realizamos uma análise para avaliar possíveis impactos sobre a imparcialidade. Examinamos o desempenho do sistema em diferentes grupos demográficos, com o objetivo de identificar quaisquer disparidades ou diferenças que possam existir e que possam afetar a imparcialidade.

Em alguns casos, pode haver disparidades de desempenho restantes. É importante observar que essas disparidades podem exceder a meta, e estamos trabalhando ativamente para abordar e minimizar possíveis preconceitos ou lacunas de desempenho, considerar cuidadosamente a escolha do grupo demográfico do ator e buscar perspectivas diversas de uma variedade de origens.

Em relação a danos representacionais, como estereotipamento, degradação ou apagamento de saídas, reconhecemos os riscos associados a esses problemas. Embora nosso processo de avaliação tenha como objetivo atenuar esses riscos, incentivamos os usuários a considerar seus casos de uso específicos com cuidado e implementar mitigações adicionais conforme apropriado. Ter um humano no loop pode fornecer uma camada extra de supervisão para lidar com possíveis preconceitos ou consequências não intencionais. O uso de listas de bloqueios ou listas de permissões também pode ajudar a garantir que a fala sintetizada se alinhe aos padrões desejados e evite qualquer conteúdo nocivo ou inadequado.

Estamos comprometidos em melhorar continuamente nossas avaliações de imparcialidade para obter uma compreensão mais profunda do desempenho do sistema em vários grupos demográficos e potenciais preocupações com a imparcialidade. O processo de avaliação está em andamento e estamos trabalhando ativamente para aprimorar a imparcialidade e a inclusão e atenuar quaisquer disparidades identificadas. Entendemos a importância de abordar considerações de imparcialidade e nos esforçamos para garantir que a conversão de texto em fala forneça resultados de fala sintetizada confiáveis e equitativos.

Observe que essas informações representam o que sabemos até agora sobre avaliações de imparcialidade, e continuamos dedicados a refinar nossas metodologias de avaliação e abordar quaisquer preocupações de imparcialidade que possam surgir.

Desempenho do sistema

O desempenho do sistema de conversão de texto em fala refere-se à precisão e naturalidade em que ele pode converter texto escrito em fala sintetizada. Isso é medido usando várias métricas para avaliar a qualidade e a eficácia da saída de áudio gerada. Algumas métricas de desempenho comuns usadas incluem:

  • Pontuação média de opinião (MOS): um sistema de classificação em que os juízes fornecem uma pontuação que representa a qualidade geral da fala sintetizada e do vídeo avatar. Um MOS mais alto indica melhor qualidade.
  • Lacuna de MOS: a diferença entre a pontuação de MOS de gravações humanas e as faixas/vídeos de áudio gerados. Uma lacuna de MOS menor indica uma semelhança mais próxima com a fala humana/a semelhança humana.
  • MOS de similaridade (SMOS): mede a semelhança das faixas/vídeos de áudio gerados com as gravações humanas. Um SMOS mais alto significa melhor similaridade.
  • Inteligibilidade: o percentual de palavras inteligíveis corretamente na fala sintetizada.

Mesmo com modelos de última geração, sistemas de IA como conversão de texto em fala podem produzir erros. Por exemplo, o sistema pode produzir fala sintetizada com entonações não naturais sutis ou erros de pronúncia, levando a uma experiência de usuário menos que o ideal, ou o sistema pode interpretar mal o texto ou lutar com construções linguísticas incomuns, resultando em fala não natural ou nãonteligível.

Melhores práticas para melhorar o desempenho do sistema

Para melhorar o desempenho do sistema e adaptar o comportamento do sistema em texto para fala, há várias práticas recomendadas que podem ser seguidas. Essas práticas envolvem o ajuste de vários componentes e parâmetros para otimizar as compensações e atender a requisitos específicos de caso de uso. No entanto, é importante considerar o impacto potencial em diferentes populações para garantir a imparcialidade e a inclusividade.

O uso de SSML (Linguagem de Marcação de Síntese de Fala) é considerado uma prática recomendada para aprimorar a qualidade de saída de texto em fala. O SSML permite que os usuários exerçam maior controle sobre a fala sintetizada, permitindo a personalização de pronúncia, entonação, ênfase e outros recursos prosódicos. Ao incorporar marcas SSML ao texto, os usuários podem adicionar pausas, ajustar a taxa de fala, especificar pronúncias fonéticas e controlar o tom e o volume, entre outros parâmetros. Esse nível de ajuste fino ajuda a criar uma fala mais natural e expressiva, fazendo com que a saída do texto em fala soe mais humana e envolvente. Todas as marcações SSML podem ser passadas diretamente para a API. Também fornecemos uma ferramenta online, a Criação de Conteúdo de Áudio, que permite aos clientes ajustar usando uma interface do usuário intuitiva.

Se o caso de uso envolver vocabulário especializado ou conteúdo específico do domínio, considere usar o recurso de léxico personalizado para melhorar a capacidade do sistema de pronunciar e transmitir frases ou termos específicos do domínio com precisão.

Avaliação da conversão de texto em fala

Métodos de avaliação

Algumas métricas comumente usadas para avaliar o desempenho geral do sistema de conversão de texto em fala incluem:

  • Diferença de pontuação média de opinião (MOS) com gravação humana: geralmente usada para comparar a qualidade do modelo de voz da conversão de texto em fala com uma gravação humana. Espera-se que a qualidade de um modelo de voz criado pela voz neural personalizada em comparação com a de uma gravação humana esteja próxima, com uma lacuna de no máximo 0,5 na pontuação do MOS.
  • Para voz neural personalizada, você também pode usar o SMOS (Similarity MOS) para medir o quão semelhante a voz personalizada soa em comparação com as gravações humanas originais. Com os estudos do SMOS, os juízes são solicitados a ouvir um conjunto de faixas de áudio emparelhadas, uma gerada usando a voz personalizada, a outra das gravações humanas originais nos dados de treinamento e avaliar se as duas faixas de áudio em cada par são faladas pela mesma pessoa, usando uma escala de cinco pontos (1 sendo a mais baixa, 5 o mais alto). A pontuação média é relatada como a pontuação do SMOS. Recomendamos que uma boa voz neural personalizada atinja um SMOS maior que 4.0.
  • Além de medir a naturalidade com MOS e SMOS, você também pode avaliar a inteligibilidade do modelo de voz verificando a precisão da pronúncia da fala gerada. Isso é feito com os juízes ouvindo um conjunto de amostras de teste, determinando se eles conseguem entender o significado e indicarem qualquer palavra que tenha sido ininteligível para eles. A taxa de inteligibilidade é calculada usando a porcentagem das palavras inteligíveis corretamente entre o número total de palavras testadas (ou seja, o número de palavras inteligíveis/o número total de palavras testadas * 100%). Normalmente, um mecanismo de conversão de texto em fala utilizável precisa atingir uma pontuação de > 98% pela inteligibilidade.

Resultados de avaliação

A conversão de texto em fala fornece consistentemente uma fala sintetizada de alta qualidade e com som natural, atendendo aos requisitos de diversos setores e domínios. Nossas avaliações incluem testes extensivos dos dados de treinamento e teste do sistema, garantindo que ele represente os usos pretendidos e os fatores operacionais encontrados em cenários do mundo real, bem como exemplos de teste de saídas de fala sintetizadas.

Os resultados da avaliação influenciaram as decisões sobre as restrições no design do sistema, como o tamanho máximo dos casos e a quantidade mínima de dados de treinamento necessários. Analisando o desempenho do sistema em diferentes conjuntos de dados, configurações e parâmetros, restrições apropriadas foram definidas para otimizar o comportamento, a confiabilidade e a segurança do sistema.

Embora a avaliação abrange uma ampla gama de casos de uso, é importante observar que os resultados são generalizáveis até certo ponto em casos de uso que não faziam parte diretamente da avaliação. A robustez e o desempenho do sistema fornecem confiança em sua capacidade de lidar com vários cenários, incluindo aqueles que podem não ter sido explicitamente testados.

Aqui estão alguns testes e intervalos de pontuação recomendados com base em nossa experiência:

Medida Definição Como ele é calculado Tamanho de texto recomendado Pontuação recomendada
MOS Pontuação de opinião média da qualidade das faixas de áudio Média das pontuações de classificação de cada juiz em cada áudio > 30 faixas de áudio geradas > 4.0 (normalmente requer que a MOS da gravação humana seja maior que 4,5)
Lacuna de MOS A diferença de pontuação de MOS entre gravações humanas e as faixas de áudio geradas A pontuação de MOS nas gravações humanas menos a pontuação de MOS nas faixas de áudio geradas > 10 gravações humanas, > 30 faixas de áudio geradas, > 20 juízes em cada áudio < 0.5
SMOS A semelhança das faixas de áudio geradas com as gravações humanas Média das notas do grau de similaridade em cada par de faixas de áudio > 40 pares, > 20 juízes em cada par > 4.0, > 3.5 (idioma secundário)
Inteligibilidade A precisão da pronúncia da fala gerada no nível da palavra Porcentagem das palavras corretamente inteligíveis entre o número total de palavras testadas > 60 faixas de áudio geradas, > 10 juízes em cada áudio > 98%

Avaliando e integrando a conversão de texto em fala para seu uso

Abaixo estão algumas práticas recomendadas para ajudá-lo a integrar com responsabilidade os recursos de texto à fala em seus casos de uso.

Divulgar quando a voz é sintética

A divulgação de que uma voz é gerada por computador não apenas minimiza o risco de resultados prejudiciais por engano, mas também aumenta a confiança na organização que fornece a voz. Saiba mais sobre como divulgar.

A Microsoft exige que seus clientes divulguem a natureza sintética das vozes de texto para seus usuários.

  • Certifique-se de fornecer divulgação adequada ao público, especialmente ao usar a voz de uma pessoa conhecida. As pessoas fazem julgamentos sobre informações baseadas em parte na pessoa que a entrega, independentemente de fazê-lo consciente ou inconscientemente. Por exemplo, uma divulgação pode ser compartilhada verbalmente no início de uma transmissão. Para obter mais informações, visite padrões de divulgação.
  • Considere a divulgação adequada para pais ou outras partes com casos de uso projetados para ou podem ser usados em situações envolvendo menores e crianças. Se o seu caso de uso for destinado a menores ou crianças, você precisará garantir que sua divulgação seja clara e transparente para que os pais ou responsáveis legais possam entender o papel da mídia sintética e tomar uma decisão informada em nome de menores ou crianças sobre se devem usar a experiência.

Divulgar quando o vídeo do avatar é sintético

A divulgação de que um vídeo de avatar falando é gerado por computador não apenas minimiza o risco de resultados prejudiciais por engano, mas também aumenta a confiança na organização que fornece o vídeo. Saiba mais sobre como divulgar.

A Microsoft exige que seus clientes divulguem a natureza sintética dos avatares de conversão de texto em fala aos seus usuários.

  • Certifique-se de fornecer divulgação adequada ao público, especialmente ao usar a imagem (e a voz) de uma pessoa conhecida. As pessoas fazem julgamentos sobre informações baseadas em parte na pessoa que a entrega, independentemente de fazê-lo consciente ou inconscientemente. Por exemplo, uma divulgação pode ser feita com uma marca d'água, como "A voz e a imagem neste vídeo são geradas por IA", em texto ou compartilhada verbalmente no início de um vídeo. Para obter mais informações, visite padrões de divulgação.
  • Considere a divulgação adequada para pais ou outras partes com casos de uso projetados para ou podem ser usados em situações envolvendo menores e crianças. Se o seu caso de uso for destinado a menores ou crianças, você precisará garantir que sua divulgação seja clara e transparente para que os pais ou responsáveis legais possam entender o papel da mídia sintética e tomar uma decisão informada em nome de menores ou crianças sobre se devem usar a experiência.

Selecione os tipos de voz apropriados para seu cenário

Considere cuidadosamente o contexto de uso e os possíveis danos associados ao uso de vozes ou avatares de texto em fala. Por exemplo, vozes sintéticas de alta fidelidade podem não ser apropriadas em cenários de alto risco, como mensagens pessoais, transações financeiras ou situações complexas que exigem adaptabilidade humana ou empatia.

Os usuários também podem ter expectativas diferentes para tipos de voz e expressões de avatar ou gestos, dependendo do contexto. Por exemplo, ao ouvir notícias confidenciais lidas por uma voz sintética, alguns usuários preferem um tom mais empático e humano, enquanto outros preferem uma voz neutra. Considere testar seu aplicativo para entender melhor as preferências do usuário.

Seja transparente sobre funcionalidades e limitações

Os usuários são mais propensos a ter expectativas mais altas ao interagir com agentes de voz sintética de alta fidelidade. Quando as funcionalidades do sistema não atendem a essas expectativas, a confiança pode sofrer e pode resultar em experiências desagradáveis ou até mesmo prejudiciais.

Fornecer suporte humano opcional

Em cenários transacionais ambíguos (por exemplo, um centro de suporte de chamada), os usuários nem sempre confiam em um agente de computador para responder adequadamente às suas solicitações. O suporte humano pode ser necessário nessas situações, independentemente da qualidade realista da voz ou capacidade do sistema.

Considerações sobre o talento de voz

Quando os clientes trabalham com o talento de voz para criar voz neural personalizada, as diretrizes abaixo se aplicam.

  • O talento de voz deve ter controle sobre seu modelo de voz (como e onde ele será usado) e ser compensado por seu uso. A Microsoft exige que os clientes de voz neural personalizados obtenham permissão por escrito explícita do talento de voz para criar uma voz sintética e garantir que o contrato do cliente com cada indivíduo contemple a duração, o uso e quaisquer limitações de conteúdo. Se você estiver criando uma voz sintética de uma pessoa conhecida, deverá fornecer uma maneira para o talento de voz editar ou aprovar o conteúdo da saída que você planeja gerar com o modelo de voz.
  • Alguns talentos de voz podem não estar cientes de possíveis usos mal-intencionados da tecnologia e devem ser educados pelos proprietários do sistema sobre as funcionalidades da tecnologia. A Microsoft exige que os clientes compartilhem a Divulgação para talento de voz e de avatar da Microsoft diretamente com o talento de voz ou por meio do representante autorizado do talento de voz. Essa divulgação descreve como as vozes sintéticas são desenvolvidas e operam em conjunto com os serviços de conversão de texto em fala.

Considerações sobre o talento do avatar

Quando os clientes trabalham com o talento de avatar para criar avatares personalizados, as diretrizes abaixo se aplicam.

  • O talento de Avatar deve ter controle sobre seu modelo de avatar (como e onde ele será usado) e ser compensado por seu uso. A Microsoft exige que os clientes de avatar personalizado obtenham permissão por escrito explícita de seu talento de avatar para criar um avatar sintético de conversão de texto em fala e garantir que o contrato do cliente com cada indivíduo contemple a duração, o uso e quaisquer limitações de conteúdo. Se você estiver criando um avatar personalizado de uma pessoa conhecida, deverá fornecer uma maneira para que o talento do avatar edite ou aprove o conteúdo da saída que você planeja gerar com o modelo de voz.
  • Alguns talentos de avatar podem não estar cientes de possíveis usos maliciosos da tecnologia e devem ser informados pelos responsáveis pelo sistema sobre suas capacidades. A Microsoft exige que os clientes compartilhem a Divulgação para talento de voz e de avatar da Microsoft diretamente com o talento de voz ou por meio do representante autorizado do talento de voz. Essa divulgação descreve como ao vídeos de avatar sintéticos são desenvolvidos e operam em conjunto com os serviços de conversão de texto em fala.

Considerações para pessoas com distúrbios de fala

Ao trabalhar com indivíduos com distúrbios de fala para criar ou implantar tecnologia de voz sintética, as diretrizes a seguir se aplicam.

Fornecer diretrizes para contratos com talentos em cenários de acessibilidade

Os clientes devem desenvolver diretrizes para estabelecer contratos com indivíduos que usam vozes sintéticas para obter assistência na fala. Os clientes devem considerar especificar em seus contratos com indivíduos a duração de uso, transferência de propriedade e/ou critérios de licença, procedimentos para excluir o modelo de voz e como impedir o acesso não autorizado.

Considerar inconsistências nos padrões de fala

Para indivíduos com distúrbios de fala que registram suas próprias fontes de voz, inconsistências em seu padrão de fala (calúnia ou incapacidade de pronunciar determinadas palavras) podem complicar o processo de gravação. Nesses casos, a tecnologia de voz sintética e as sessões de gravação devem ser projetadas com acomodações apropriadas determinadas pelo cliente (por exemplo, fornecer pausas ou sessões de gravação adicionais).

Permitir modificação ao longo do tempo

Indivíduos com transtornos de fala podem querer atualizar sua voz sintética para refletir mudanças devido ao envelhecimento ou outros fatores. Os indivíduos também podem ter preferências estilísticas que mudam ao longo do tempo e podem querer fazer alterações no tom, ênfase ou outras características de voz.

Saiba mais sobre IA responsável

Saiba mais sobre a Fala do Azure