Divulgação para talentos de voz e avatar

2025-06-25

Importante

Traduções não em inglês são fornecidas apenas para conveniência. Consulte a versão EN-US deste documento para a versão de associação.

O objetivo deste artigo é ajudar os talentos de voz e avatar a entender a tecnologia por trás das funcionalidades de texto em fala que suas vozes e imagens ajudam a criar. Ele também contém importantes divulgações de privacidade para talentos sobre como a Microsoft pode processar, usar e reter arquivos de áudio e vídeo contendo vozes e imagens gravadas do talento e ajuda a Microsoft a prevenir e/ou responder a reclamações de uso indevido dos serviços de IA do Azure.

A Microsoft está comprometida em criar IA de forma responsável. Esperamos que esta nota promova uma maior compreensão compartilhada entre construtores de tecnologia, talento de voz, talento avatar e o público em geral sobre os usos pretendidos e benéficos dessa tecnologia.

Principais termos de conversão de texto em fala

Modelo de voz: Um modelo de computador de conversão de texto em fala que pode imitar características vocais exclusivas de um alto-falante de destino. Um modelo de voz também é chamado de fonte de voz ou voz sintética. Um modelo de voz é um conjunto de parâmetros no formato binário que não é legível por humanos e não contém gravações de áudio. Não pode ser engenheirado reversamente para derivar ou construir gravações de áudio de uma pessoa falando.

Talento de voz: indivíduos ou locutores alvo cujas vozes são gravadas e usadas para criar modelos de voz que devem soar como a voz do talento de voz.

Modelo de avatar: Um modelo de computador que converte texto em fala e pode imitar características faciais exclusivas de um ator específico. Um modelo de avatar é um conjunto de parâmetros no formato binário que não é legível por humanos e não contém gravações de vídeo ou áudio. Não pode ser feita engenharia reversa para derivar ou construir gravações de vídeos de um ser humano atuando.

Talento de avatar: a criação do modelo de avatar de conversão de texto em fala personalizada requer treinamento com base em uma gravação de vídeo de uma pessoa real falando. Essa pessoa é o talento de avatar. Os clientes devem obter consentimento suficiente do talento relacionado ao avatar em conformidade com todas as leis e regulamentações relevantes para usar sua imagem e criar um avatar personalizado.

Como funciona a conversão neural de texto em fala

Como funciona: O texto neural para fala sintetiza a fala usando redes neurais profundas que "aprenderam" a maneira como os fonéticos são combinados na fala humana natural em vez de usar programação clássica ou métodos estatísticos. Além das gravações de um talento de voz específico, a conversão de texto em fala neural usa uma biblioteca de origem que contém gravações de voz de muitos locutores diferentes.

O que saber sobre isso: Devido à forma como sintetiza vozes, o texto neural em fala pode produzir estilos de fala que não faziam parte das gravações originais, como alterações no tom de voz e afetação. As vozes de conversão de texto em fala neural soam fluidas e são boas na replicação das pausas naturais, idiossincrasias e hesitações que as pessoas expressam ao falar. Aqueles que ouvem vozes sintéticas feitas por meio de texto para fala neural tendem a classificá-las mais próximas da fala humana do que as vozes de texto para fala padrão.

Exemplos de como a Microsoft o usa:

A voz neural predefinida é um recurso de conversão de texto em fala que oferece modelos de voz "fora da prateleira" para uso do cliente. As vozes neurais predefinidas também são usadas em vários produtos da Microsoft, incluindo o Navegador de Borda, o Narrador, o Office e o Teams.
A voz neural personalizada é um recurso de conversão de texto em fala que permite a criação de modelos de voz sintética personalizados únicos. Veja a seguir os recursos de voz neural personalizada:
- A transferência de idioma pode ser realizada em um idioma diferente das gravações de voz originais.
- A transferência de estilo pode se expressar em um estilo de fala diferente das gravações de voz originais. Por exemplo, uma voz de newscaster.
- A transformação de voz pode expressar de uma maneira diferente das gravações de voz originais. Por exemplo, modificar o tom ou o pitch para criar vozes de personagens diferentes.
- Outras vozes usadas nos produtos e serviços da Microsoft, como a Cortana.

O que esperar durante a gravação: Contribuição de pelo menos 300 linhas para um modelo de voz de prova de conceito e cerca de 2.000 linhas para produzir um novo modelo de voz para uso em produção.

Como funciona o avatar de conversão de texto em fala

Como funciona: o avatar de conversão de texto em fala é baseado na voz neural predefinida e na voz neural personalizada e sintetiza o conteúdo de vídeo do avatar com a conversão de texto em fala predefinida da voz neural ou com a voz neural personalizada sincronizadas. O processo de síntese usa redes neurais profundas treinadas em modelos desenvolvidos com base em gravações de vídeo de avatares talentosos. Os modelos são treinados com os recursos acústicos extraídos dos elementos de áudio da gravação e características físicas, movimentos da boca, expressões faciais e elementos visuais relacionados extraídos dos elementos de vídeo da gravação.

O que saber sobre isso: O rosto, corpo e movimentos do avatar de texto para fala sintetizado se assemelham muito ao do talento do avatar, mas a voz do avatar de texto para fala pode ser gerada a partir de qualquer uma das vozes neurais predefinidas que a Microsoft disponibiliza ou de uma voz neural personalizada, inclusive quando o talento de voz é o mesmo indivíduo que o talento do avatar, caso o indivíduo tenha autorizado tal uso.

Exemplos de como a Microsoft o usa:

Avatar de conversão de texto em fala predefinido é um recurso de conversão de texto em fala da Fala de IA do Azure que oferece modelos de avatar de conversão de texto em fala "prontos para uso" para clientes.
Avatar de fala personalizado é um recurso do Azure AI Speech que permite a criação de modelos de avatar de texto para fala sintéticos e exclusivos.

O que esperar durante a gravação: você precisará contribuir com pelo menos 10 minutos de gravação de vídeo para um modelo de avatar personalizado de prova de conceito e cerca de 20 minutos de gravação de vídeo para produzir um modelo de avatar personalizado completo para uso em produção.

Talento de voz e vozes sintéticas: uma relação em evolução

Reconhecendo a relação integral entre talento de voz e vozes sintéticas, a Microsoft entrevistou o talento de voz para entender melhor suas perspectivas sobre novos desenvolvimentos tecnológicos. Pesquisas realizadas em 2019 mostraram que o talento de voz viu potencial benefício das funcionalidades introduzidas pelo texto neural na fala, como economizar tempo de estúdio para concluir trabalhos de gravação e adicionar capacidade para completar mais atribuições de atuação de voz. Ao mesmo tempo, havia diferentes graus de consciência sobre como os desenvolvimentos na tecnologia de texto em fala poderiam potencialmente afetar sua profissão.

No geral, o talento de voz expressou um desejo de transparência e clareza sobre:

Limites sobre o que a semelhança da voz pode ou não pode ser usada para expressar.
A duração do uso permitido da semelhança da voz.
Impacto potencial em futuras oportunidades de gravação.
A persona que seria associada à semelhança da voz.

Voz sintética em uso mais amplo

Tradicionalmente, as vozes de conversão de texto em fala eram limitadas em adoção devido ao som robótico. A maioria foi usada para dar suporte à acessibilidade, por exemplo, como um leitor de tela para pessoas cegas ou com baixa visão. As vozes de conversão de texto em fala também têm sido usadas por pessoas com deficiência de fala. Por exemplo, o falecido Stephen Hawking usou uma voz gerada por conversão de texto em fala.

Agora, com vozes sintéticas cada vez mais realistas e o aumento em interações mais familiares e cotidianas entre máquinas e humanos, os usos dessa tecnologia proliferaram e se expandiram. Os sistemas de conversão de texto em fala alimentam assistentes de voz em uma matriz de dispositivos e aplicativos. Eles leem notícias, resultados da pesquisa, anúncios de serviços públicos, conteúdo educacional e muito mais.

Avatar sintético em uso mais amplo

Semelhante às vozes de conversão de texto em fala, os avatares agora oferecem aparência, movimentos e expressões faciais realistas, combinados com vozes de som natural. Esses avatares de fala podem ser usados em várias situações, como apresentar conteúdo em um treinamento online, apresentar uma fala em nome de uma empresa, interagir com clientes em configurações de atendimento ao cliente e muito mais.

Abordagem da Microsoft para uso responsável de texto em fala

Todos os dias, as pessoas encontram novas maneiras de aplicar texto à tecnologia de fala, e nem todas são para o bem dos indivíduos ou da sociedade. Se mal utilizadas, vozes de conversão de texto em fala com som humano ou avatares realistas podem causar danos. Por exemplo, uma campanha de desinformação pode se tornar muito mais potente se usar a voz e a imagem de uma figura pública conhecida.

Reconhecemos que não há uma maneira perfeita de impedir que a mídia seja modificada ou provar inequivocamente de onde veio. Portanto, nossa abordagem para o uso responsável se concentrou em ser transparente sobre os recursos de texto para fala de IA do Azure, restringindo os usos permitidos de versões personalizadas desses recursos e demonstrando nossos valores por meio de ações.

Se você estiver usando produtos ou serviços da Microsoft para processar Dados Biométricos, será responsável por: (i) fornecer aviso prévio aos titulares dos dados, inclusive em relação aos períodos de retenção e destruição; (ii) obtendo consentimento de titulares de dados; e (iii), excluindo os Dados Biométricos, tudo conforme apropriado e exigido nos Requisitos de Proteção de Dados aplicáveis. "Dados Biométricos" terão o significado estabelecido no Artigo 4 do GDPR e, se aplicável, termos equivalentes em outros requisitos de proteção de dados.

Voz neural personalizada
Texto personalizado para avatar de fala

Para usar a voz neural personalizada, exigimos contratualmente que os clientes façam o seguinte:

Obtenha permissão por escrito explícita do talento de voz para usar a voz dessa pessoa com a finalidade de criar uma voz neural personalizada.
Forneça este documento para o talento de voz para que eles possam entender como o texto em fala funciona e como ele pode ser usado depois de concluir o processo de gravação de áudio.
Obtenha as permissões necessárias do talento de voz para o processamento, o uso e a retenção dos arquivos de áudio do talento de voz da Microsoft para executar a verificação do locutor em relação aos dados de treinamento e ao uso e retenção de modelos de voz da Microsoft, conforme descrito abaixo.

Também recomendamos que os clientes façam o seguinte:

Compartilhe os contextos pretendidos de uso com o talento de voz para que eles estejam cientes de quem ouvirá sua voz, em quais cenários e se/como as pessoas poderão interagir com ela.
Certifique-se de que o talento de voz esteja ciente de que um modelo de voz feito a partir de suas gravações pode dizer coisas que ele não gravou especificamente no estúdio.
Discuta se há algo que o deixaria desconfortável com o uso do modelo de voz.

Processamento, uso e retenção de dados da Microsoft

Voz neural personalizada
Texto personalizado para avatar de fala

Uso de arquivos de áudio de dubladores pela Microsoft para verificação do locutor

Os clientes devem obter permissão do talento de voz para usar a voz dele na criação de modelos de voz personalizados para uma voz sintética. Essa proteção técnica destina-se a ajudar a evitar o uso indevido de nosso serviço, por exemplo, impedindo que alguém treine modelos de voz com gravações de áudio e use os modelos para falsificar uma voz sem o conhecimento ou consentimento do locutor.

No Speech Studio, você deve carregar um arquivo de áudio com uma declaração de confirmação gravada do talento de voz. A Microsoft se reserva o direito de usar a tecnologia de reconhecimento de locutor da Microsoft nesta declaração de confirmação gravada e verificá-la nos dados de áudio de treinamento para confirmar que as vozes vieram do mesmo alto-falante ou, de outra forma, necessárias para investigar o uso indevido da Fala de IA do Azure.

As assinaturas de voz do locutor criadas com base nos arquivos de instrução de confirmação gravados e dados de áudio de treinamento são usadas pela Microsoft apenas para as finalidades declaradas acima. A Microsoft manterá o arquivo de instrução gravado pelo tempo necessário para preservar a segurança e a integridade dos serviços de IA do Azure da Microsoft. Saiba mais sobre como processamos, usamos e retivemos dados no documento dados, privacidade e segurança.

Uso de modelos personalizados pela Microsoft

Voz neural personalizada
Texto personalizado para avatar de fala

Embora os clientes mantenham os direitos de uso exclusivos para seu modelo de voz neural personalizado, a Microsoft pode manter independentemente uma cópia de modelos de voz neural personalizados pelo tempo necessário. A Microsoft pode usar seu modelo de voz neural personalizado com a única finalidade de proteger a segurança e a integridade dos serviços de IA do Microsoft Azure.

A Microsoft protegerá e armazenará uma cópia da declaração de reconhecimento gravada do talento de voz e do modelo de voz neural personalizado com a mesma segurança de alto nível que é utilizada para os demais Serviços do Azure. Saiba mais na Central de Confiabilidade da Microsoft.

Continuaremos a identificar e deixar explícitos os usos intencionais, benéficos e planejados da conversão de texto em fala, fundamentados nas normas sociais e expectativas vigentes que as pessoas possuem em relação à mídia, quando acreditam que é real ou falsa. De acordo com os princípios de confiança da Microsoft, a Microsoft não monitora ou modera ativamente o conteúdo de áudio gerado pelo uso da voz neural personalizada. Os clientes são os únicos responsáveis por garantir que o uso esteja em conformidade com todas as leis e regulamentos aplicáveis e de acordo com os termos do contrato do cliente com o talento de voz.

Uso dos dados do talento de voz pela Microsoft com voz neural personalizada lite

Voz neural personalizada lite é um tipo de projeto em pré-visualização pública que permite gravar de 20 a 50 amostras de voz no Speech Studio e criar um modelo de voz personalizado leve para fins de demonstração e avaliação. O script de gravação e o script de teste são predefinidos pela Microsoft. Um modelo de voz sintética que você cria usando o neural voice lite personalizado pode ser implantado e usado de forma mais ampla somente se você solicitar e receber acesso completo ao custom neural voice (sujeito a termos aplicáveis).

A voz sintética e a gravação de áudio relacionada que você envia por meio do Speech Studio serão automaticamente excluídas dentro de 90 dias, a menos que você tenha acesso total à voz neural personalizada e opte por implantar a voz sintética, nesse caso, você controlará a duração de sua retenção. Se o talento de voz quiser ter a voz sintética e as gravações de áudio relacionadas excluídas antes de 90 dias, elas poderão excluí-las diretamente no portal ou entrar em contato com sua empresa para fazer isso.

Além disso, antes de implantar qualquer modelo de voz sintética criado usando um projeto de voz neural personalizada lite, o talento de voz deve fornecer uma gravação adicional na qual reconhece que a voz sintética será usada para outros fins além de demonstração e avaliação.

Diretrizes para implantação responsável

Como o texto em fala é uma tecnologia adaptável, há áreas cinzentas na determinação de como ela deve ou não ser usada. Para navegar por eles, formulamos as seguintes diretrizes para usar modelos de voz sintética e avatar:

Proteja os proprietários de vozes e imagens/semelhanças contra uso indevido ou roubo de identidade.
Impedir a proliferação de conteúdo falso e enganoso.
Incentive o uso em cenários em que os consumidores esperam interagir com conteúdo sintético.
Incentive o uso em cenários em que os consumidores observem a geração do conteúdo sintético.

Exemplos de uso inadequado

A conversão de texto em fala da IA do Azure não deve ser usada:

Para enganar pessoas e/ou intencionalmente desinformar;
Para fins de publicidade falsa, inclusive por meio de comerciais ao vivo; Para alegar ser de qualquer pessoa, empresa, órgão governamental ou entidade sem permissão explícita para fazer essa representação;
Para representar qualquer pessoa sem permissão explícita, inclusive para obter informações ou privilégios;
Para criar, incitar ou disfarçar discursos de ódio, discriminação, difamação, terrorismo ou atos de violência;
Para explorar ou manipular crianças;
Para fazer chamadas telefônicas não solicitadas, comunicações em massa, postagens ou mensagens;
Para disfarçar posições políticas ou ideologias políticas;
Para disseminar conteúdo não atribuído ou desatribuir fontes.

Exemplos de uso apropriado

Os casos de uso apropriados podem incluir, mas não se limitam a:

Agentes virtuais baseados em personas fictícias. Por exemplo, pesquisa na Web sob demanda, controle IoT ou suporte ao cliente fornecido pelo caractere de marca de uma empresa.
Mídia de entretenimento para uso em conteúdo fictício. Por exemplo, filmes, videogames, tv, música gravada ou livros de áudio.
Instituições educacionais credenciadas ou mídia educacional. Por exemplo, planos de aula interativos ou passeios guiados pelo museu.
Tecnologia adaptativa e tradução em tempo real. Por exemplo, indivíduos aflitos pela ALS preservando suas vozes.
Anúncios de serviço público usando personas fictícias. Por exemplo, anúncios de terminal de aeroporto ou de trem.
Publicidade/transmissão ao vivo: conteúdo de publicidade, transmissão ao vivo associada ao marketing ou venda de um produto.

Compartilhar via

Uso de arquivos de áudio de dubladores pela Microsoft para verificação do locutor

Uso de arquivos de vídeo do talento do avatar pela Microsoft para comparação de rosto e verificação do locutor.

Uso dos dados do talento de voz pela Microsoft com voz neural personalizada lite

Compartilhar via

Divulgação para talentos de voz e avatar

Principais termos de conversão de texto em fala

Como funciona a conversão neural de texto em fala

Como funciona o avatar de conversão de texto em fala

Talento de voz e vozes sintéticas: uma relação em evolução

Voz sintética em uso mais amplo

Avatar sintético em uso mais amplo

Abordagem da Microsoft para uso responsável de texto em fala

Requisitos e dicas para consentimento consciente de talentos de voz e avatares

Processamento, uso e retenção de dados da Microsoft

Uso de arquivos de áudio de dubladores pela Microsoft para verificação do locutor

Uso de modelos personalizados pela Microsoft

Uso dos dados do talento de voz pela Microsoft com voz neural personalizada lite

Diretrizes para implantação responsável

Exemplos de uso inadequado

Exemplos de uso apropriado

Consulte também

Comentários

Recursos adicionais