Partilhar via


Dados, privacidade e segurança para conversão de texto em fala

Importante

Traduções que não sejam em inglês são fornecidas apenas por conveniência. Consulte a EN-US versão deste documento para obter a versão vinculativa.

Este artigo fornece detalhes sobre como os dados fornecidos por você são processados, usados e armazenados pelo Azure AI Speech text to speech. Como um lembrete importante, você é responsável pelo seu uso e pela implementação desta tecnologia e é obrigado a obter todas as permissões necessárias, incluindo, se aplicável, de talentos de voz e avatar (e, se aplicável, usuários de sua(s) integração(ões) de voz pessoal(ões)) para o processamento de sua voz, imagem, semelhança e/ou outros dados para desenvolver vozes e/ou avatares sintéticos.

Você também é responsável por obter quaisquer licenças, permissões ou outros direitos necessários para que o conteúdo inserido no serviço de conversão de texto em fala gere saída de áudio, imagem e/ou vídeo. Algumas jurisdições podem impor requisitos legais especiais para a recolha, processamento e armazenamento de determinadas categorias de dados, tais como dados biométricos, e obrigar à divulgação da utilização de vozes, imagens e/ou vídeos sintéticos aos utilizadores. Antes de usar texto para fala para processar e armazenar dados de qualquer tipo e, se aplicável, para criar voz neural personalizada, voz pessoal ou modelos de avatar personalizados, você deve garantir que está em conformidade com todos os requisitos legais que possam se aplicar a você.

Que dados são processados pelos serviços de conversão de texto em voz?

A voz neural pré-construída e o avatar pré-construído processam os seguintes tipos de dados:

  • Entrada de texto para síntese de fala. Este é o texto que você seleciona e envia para o serviço de texto para fala para gerar saída de áudio usando um conjunto de vozes neurais pré-construídas, ou para gerar um avatar pré-construído que emite áudio gerado a partir de vozes neurais pré-construídas ou personalizadas.
  • Arquivo de declaração de reconhecimento de talento de voz gravado. Os clientes são obrigados a carregar uma declaração gravada específica falada pelo talento de voz na qual eles reconhecem que você usará sua voz para criar voz(es) sintética(s).

    Observação

    Ao preparar o seu roteiro de gravação, certifique-se de incluir a declaração de reconhecimento necessária para o locutor gravar. Pode encontrar a declaração em várias línguas aqui. A língua da declaração de confirmação deve ser a mesma que a língua dos dados de formação de gravação áudio.

  • Dados de treinamento (incluindo arquivos de áudio e transcrições de texto relacionadas). Isso inclui gravações de áudio do talento de voz que concordou em usar sua voz para treinamento de modelo e as transcrições de texto relacionadas. Em um projeto profissional de voz neural personalizado, você pode fornecer suas próprias transcrições de texto de áudio ou usar o recurso de transcrição de reconhecimento de fala automatizado disponível no Speech Studio para gerar uma transcrição de texto do áudio. Tanto as gravações de áudio quanto os arquivos de transcrição de texto serão usados como dados de treinamento do modelo de voz. Em um projeto de voz neural lite personalizado, você será solicitado a gravar a voz falando o script definido pela Microsoft no Speech Studio. As transcrições de texto não são necessárias para recursos pessoais de voz.

  • Texto como script de teste. Você pode carregar seus próprios scripts baseados em texto para avaliar e testar a qualidade do modelo de voz neural personalizado gerando amostras de áudio de síntese de fala. Isso não se aplica aos recursos pessoais de voz.

  • Entrada de texto para síntese de fala. Este é o texto que você seleciona e envia para o serviço de texto para fala para gerar saída de áudio usando sua voz neural personalizada.

Como os serviços de conversão de texto em fala processam dados?

Voz neural pré-construída

O diagrama abaixo ilustra como seus dados são processados para síntese com voz neural pré-construída. A entrada é texto e a saída é áudio. Observe que nem o texto de entrada nem o conteúdo de áudio de saída serão armazenados nos logs da Microsoft.

Diagrama de processamento de dados de voz neural pré-definidos.

Voz neural personalizada

O diagrama abaixo ilustra como seus dados são processados para voz neural personalizada. Este diagrama abrange três tipos diferentes de processamento: como a Microsoft verifica arquivos de declaração de reconhecimento gravados de talentos de voz antes do treinamento de modelo de voz neural personalizado, como a Microsoft cria um modelo de voz neural personalizado com seus dados de treinamento e como o texto para fala processa sua entrada de texto para gerar conteúdo de áudio.

Como a voz neural personalizada processa dados

Avatar de texto para fala

O diagrama abaixo ilustra como seus dados são processados para síntese com avatar de texto para fala pré-construído. Há três componentes em um fluxo de trabalho de geração de conteúdo de avatar: analisador de texto, sintetizador de áudio TTS e sintetizador de vídeo avatar TTS. Para gerar vídeo avatar, o texto é primeiro inserido no analisador de texto, que fornece a saída na forma de sequência de fonema. Em seguida, o sintetizador de áudio TTS prevê as características acústicas do texto de entrada e sintetiza a voz. Estas duas partes são fornecidas por modelos de voz de texto para fala. Em seguida, o modelo Neural text to speech Avatar prevê a imagem de sincronização labial com os recursos acústicos, para que o vídeo sintético seja gerado.

Um diagrama do fluxo de dados do avatar de texto para fala.

Tradução de vídeo (pré-visualização)

O diagrama abaixo ilustra como seus dados são processados com tradução de vídeo. O cliente carrega um vídeo como entrada para a tradução de vídeo, o áudio do diálogo é extraído e o sistema de reconhecimento de fala transcreve o áudio em texto. Em seguida, o conteúdo do texto será traduzido para o conteúdo do idioma de destino e, usando a capacidade de conversão de texto em fala, o áudio traduzido será mesclado com o conteúdo de vídeo original como saída de vídeo.

Diagrama do fluxo de dados de tradução de vídeo.

Verificação da declaração de reconhecimento registada

A Microsoft exige que os clientes carreguem um arquivo de áudio para o Speech Studio com uma declaração gravada do talento de voz reconhecendo que o cliente usará sua voz para criar uma voz sintética. A Microsoft pode usar a tecnologia de reconhecimento de fala e conversão de fala em texto da Microsoft para transcrever essa declaração reconhecida gravada para texto e verificar se o conteúdo da gravação corresponde ao script predefinido fornecido pela Microsoft. Esta declaração de reconhecimento, juntamente com as informações de talento que você fornece com o áudio, é usada para criar um perfil de talento de voz. Você deve associar os dados de treinamento ao perfil de talento de voz relevante ao iniciar o treinamento de voz neural personalizado.

A Microsoft também pode processar assinaturas de voz biométricas do arquivo de declaração de confirmação gravado do locutor e de áudio aleatório do(s) conjunto(s) de dados de treinamento para confirmar que a assinatura de voz na gravação da declaração de confirmação e as gravações de dados de treinamento correspondem com confiança razoável usando a Verificação de Orador do Azure AI. Uma assinatura de voz também pode ser chamada de "modelo de voz" ou "impressão de voz" e é um vetor numérico que representa as características de voz de um indivíduo que é extraído de gravações de áudio de uma pessoa falando. Esta salvaguarda técnica destina-se a ajudar a prevenir o uso indevido da voz neural personalizada, por exemplo, impedindo os clientes de treinar modelos de voz com gravações de áudio e usar os modelos para falsificar a voz de uma pessoa sem o seu conhecimento ou consentimento.

As assinaturas de voz são usadas pela Microsoft exclusivamente para fins de verificação de alto-falantes ou conforme necessário para investigar o uso indevido dos serviços.

O Adendo de Proteção de Dados de Produtos e Serviços da Microsoft ("DPA") estabelece as obrigações dos clientes e da Microsoft em relação ao processamento e à segurança dos Dados do Cliente e dos Dados Pessoais em conexão com o Azure e é incorporado por referência no contrato empresarial dos clientes para os serviços do Azure. O processamento de dados da Microsoft nesta seção é regido pela seção Operações Comerciais de Interesse Legítimo do Adendo à Proteção de Dados.

Treinando um modelo de voz neural personalizado

Os dados de treinamento (áudio de fala) que os clientes enviam ao Speech Studio são pré-processados usando ferramentas automatizadas para verificação de qualidade, incluindo verificação de formato de dados, pontuação de pronúncia, deteção de ruído, mapeamento de script, etc. Os dados de treinamento são então importados para o componente de treinamento de modelo da plataforma de voz personalizada. Durante o processo de treinamento, os dados de treinamento (transcrições de áudio de voz e texto) são decompostos em mapeamentos refinados de acústica de voz e texto, como uma sequência de fonemas. Através de uma modelagem de inclinação de máquina mais complexa, o serviço constrói um modelo de voz, que pode ser usado para gerar áudio que soa semelhante ao talento de voz e pode até ser gerado em diferentes idiomas a partir da gravação de dados de treinamento. O modelo de voz é um modelo de computador de texto para fala que pode imitar características vocais únicas de um determinado falante. Ele representa um conjunto de parâmetros em formato binário que não é legível por humanos e não contém gravações de áudio.

Os dados de treinamento de um cliente são usados apenas para desenvolver os modelos de voz personalizados desse cliente e não são usados pela Microsoft para treinar ou melhorar qualquer modelo de voz de texto para fala da Microsoft.

Síntese de fala/geração de conteúdo de áudio

Uma vez que o modelo de voz é criado, você pode usá-lo para criar conteúdo de áudio através do serviço de texto para fala com duas opções diferentes.

Para síntese de fala em tempo real, você envia o texto de entrada para o serviço de texto para fala por meio do SDK TTS ou da API RESTful. Text to speech processa o texto de entrada e retorna arquivos de conteúdo de áudio de saída em tempo real para o aplicativo que fez a solicitação.

Para síntese assíncrona de áudio longo (síntese em lote), envie os arquivos de texto de entrada para o serviço de lote de texto para fala por meio da API de áudio longo para criar de forma assíncrona áudios com mais de 10 minutos (por exemplo, livros de áudio ou palestras). Ao contrário da síntese realizada usando a API de texto para fala, as respostas não são retornadas em tempo real com a API de áudio longo. Os áudios são criados de forma assíncrona, e você pode acessar e baixar os arquivos de áudio sintetizados quando eles são disponibilizados a partir do serviço de síntese em lote.

Você também pode usar seu modelo de voz personalizado para gerar conteúdo de áudio por meio de uma ferramenta de Criação de Conteúdo de Áudio sem código e optar por salvar sua entrada de texto ou conteúdo de saída de áudio com a ferramenta no armazenamento do Azure.

Processamento de dados para versão leve de voz neural personalizada (Pré-visualização)

Custom neural voice lite é um tipo de projeto em visualização pública que permite gravar de 20 a 50 amostras de voz no Speech Studio e criar um modelo de voz neural personalizado leve para fins de demonstração e avaliação. Tanto o script de gravação quanto o script de teste são pré-definidos pela Microsoft. Um modelo de voz sintética que criar usando o Custom Neural Voice Lite pode ser implantado e utilizado numa escala mais ampla somente se solicitar e receber acesso total ao Custom Neural Voice (sujeito aos termos aplicáveis).

A voz sintética e a gravação de áudio relacionada que você enviar via Speech Studio serão excluídas automaticamente dentro de 90 dias, a menos que você obtenha acesso total à voz neural personalizada e opte por implantar a voz sintética, caso em que você controlará a duração de sua retenção. Se o talento de voz quiser que a voz sintética e as gravações de áudio relacionadas sejam excluídas antes de 90 dias, eles podem excluí-las diretamente no portal ou entrar em contato com sua empresa para fazê-lo.

Além disso, antes que possas implantar qualquer modelo de voz sintética criado através de um projeto lite de voz neural personalizado, o locutor deve fornecer uma gravação adicional em que reconheça que a voz sintética será utilizada para fins adicionais além da demonstração e avaliação.

Processamento de dados para API de voz pessoal (Pré-visualização)

A voz pessoal permite que os clientes criem uma voz sintética usando uma pequena amostra de voz humana. O arquivo de declaração de confirmação verbal descrito acima é exigido de cada usuário que usa a integração em seu aplicativo. A Microsoft pode processar assinaturas de voz biométricas a partir do ficheiro de declaração de voz gravada de cada utilizador e da respetiva amostra de treino gravada (também conhecida como prompt) para confirmar, com razoável confiança, que a assinatura de voz na gravação da declaração de reconhecimento e na gravação de dados de treino coincide, usando a Verificação de Orador do Azure AI.

A amostra de treinamento será usada para criar o modelo de voz. O modelo de voz pode então ser usado para gerar fala com entrada de texto fornecida ao serviço por meio da API, sem necessidade de implantação adicional.

Armazenamento e retenção de dados

Todos os serviços de conversão de texto em voz

Entrada de texto para síntese de fala: A Microsoft não retém nem armazena o texto que você fornece com a API de síntese de texto para fala em tempo real. Os scripts fornecidos por meio da API Long Audio para texto para fala ou pela API de síntese de avatar em lote são armazenados no armazenamento do Azure para processar a solicitação de síntese em lote. O texto de entrada pode ser excluído através da API de exclusão a qualquer momento.

Conteúdo de saída de áudio e vídeo: A Microsoft não armazena conteúdo de áudio ou vídeo gerado com a API de síntese em tempo real. Se estiver a usar tradução de vídeo ou a API de Áudio Extenso para a API em lote de avatar de texto para fala, o conteúdo de áudio ou vídeo de saída será armazenado no Azure. Esses áudios ou vídeos podem ser removidos a qualquer momento através da operação de exclusão .

Declaração de confirmação gravada e dados de verificação de alto-falante: As assinaturas de voz são usadas pela Microsoft exclusivamente para fins de verificação de alto-falante ou conforme necessário para investigar o uso indevido dos serviços. As assinaturas de voz serão retidas apenas pelo tempo necessário para realizar a verificação do alto-falante, que pode ocorrer de tempos em tempos. A Microsoft pode exigir essa verificação antes de permitir que você treine ou treine novamente modelos de voz neural personalizados no Speech Studio, ou conforme necessário. A Microsoft manterá o arquivo de declaração de reconhecimento gravado e os dados de perfil de talento de voz pelo tempo necessário para preservar a segurança e a integridade do Azure AI Speech.

Modelos de voz neural personalizados: Embora você mantenha os direitos de uso exclusivos do seu modelo de voz neural personalizado, a Microsoft pode reter de forma independente uma cópia dos modelos de voz neural personalizados pelo tempo necessário. A Microsoft pode usar seu modelo de voz neural personalizado com o único propósito de proteger a segurança e a integridade dos serviços de IA do Microsoft Azure.

A Microsoft protegerá e armazenará cópias da declaração de confirmação gravada de cada talento de voz e modelos de voz neural personalizados com a mesma segurança de alto nível que usa para seus outros Serviços do Azure. Saiba mais em Central de Confiabilidade da Microsoft.

Dados de formação: Você envia dados de treinamento de voz de talentos de voz para gerar modelos de voz por meio do Speech Studio, que serão retidos e armazenados por padrão no armazenamento do Azure (consulte Criptografia do Armazenamento do Azure para dados em REST para obter detalhes). Você pode acessar e excluir qualquer um dos dados de treinamento usados para criar modelos de voz por meio do Speech Studio.

Você pode gerenciar o armazenamento de seus dados de treinamento via BYOS (Bring Your Own Storage). Com este método de armazenamento, os dados de treinamento podem ser acessados apenas para fins de treinamento de modelo de voz e serão armazenados via BYOS.

Observação

A voz pessoal não suporta BYOS. Seus dados serão armazenados no armazenamento do Azure gerenciado pela Microsoft. Você pode acessar e excluir qualquer um dos dados de treinamento (prompt de áudio) usados para criar modelos de voz via API. A Microsoft pode, de forma independente, reter uma cópia dos modelos de voz pessoais durante o tempo necessário. A Microsoft pode usar seu modelo de voz pessoal com o único propósito de proteger a segurança e a integridade dos serviços de IA do Microsoft Azure.