Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Traduções que não sejam em inglês são fornecidas apenas por conveniência. Consulte a EN-US
versão deste documento para obter a versão vinculativa.
Observação
Este artigo é fornecido apenas para fins informativos e não para fins de aconselhamento jurídico. Recomendamos vivamente que procure aconselhamento jurídico especializado ao implementar os Serviços de Fala.
Este artigo fornece alguns detalhes de alto nível sobre como a conversão de fala em texto processa dados fornecidos pelos clientes. Observe que os dados de áudio de seres humanos falando e as transcrições de texto relacionadas podem ser considerados dados pessoais e/ou dados sensíveis sob vários regulamentos e leis de privacidade, porque contém não apenas a voz de seres humanos, mas o conteúdo do áudio também pode conter informações pessoais, dependendo do contexto em que o áudio foi coletado. Os dados de áudio e as transcrições de texto relacionadas também podem ser regulados sob várias leis de comunicações ou outras leis e regulamentos. Como um lembrete importante, você é responsável pela implementação desta tecnologia e é obrigado a obter todas as permissões necessárias para o processamento dos dados, bem como quaisquer licenças, permissões ou outros direitos de propriedade necessários para o conteúdo que você insere no serviço de fala para texto. É da sua responsabilidade cumprir todas as leis e regulamentos aplicáveis na sua jurisdição.
Que dados a transcrição de voz para texto processa?
Fala para texto processa os seguintes tipos de dados:
- Entrada de áudio ou áudio de voz: Todos os recursos de fala para texto aceitam áudio de voz como uma entrada que é transmitida através do SDK de fala/API REST para o ponto de extremidade do serviço. Na transcrição em lote, a entrada de áudio será enviada para um local de armazenamento instruído pelo cliente, e o serviço de Fala acessa e processa a entrada de áudio com a finalidade de fornecer os serviços de transcrição solicitados. Veja mais informações sobre como especificar o armazenamento em Como usar a transcrição em lote.
- Texto de transcrição de entrada: Na avaliação de pronúncia, o texto transcrito é enviado juntamente com um áudio de voz de entrada como texto "correto". As pronúncias são avaliadas com base nas transcrições de entrada.
- Transcrição para tradução de fala: Quando o recurso de tradução de fala é usado, o texto transcrito gerado pela conversão de fala para texto é traduzido para um idioma especificado através do Serviço Tradutor.
O serviço de tradução de texto é usado apenas para converter texto de um idioma para outro. Nenhum dado de entrada/saída é retido pelo serviço de Fala após a conclusão de uma solicitação de tradução. Consulte O que é o serviço de tradutor para obter mais informações sobre o serviço de tradução de texto.
Se os usuários precisarem de texto transcrito/traduzido em um formato de áudio, o recurso envia o texto de saída para texto para fala. Novamente, nenhum dado é persistido no processamento de dados de texto para fala.
Como é que a conversão de voz em texto processa dados?
Conversão de voz em texto em tempo real
Quando um aplicativo cliente envia entrada de áudio para fala em texto, o mecanismo de reconhecimento de fala analisa áudio e o converte em texto. Apoiando-se nas suas características acústicas e linguísticas ou de compreensão linguística, a conversão de voz em texto seleciona palavras e frases candidatas que podem ser proferidas na entrada de áudio. A saída de transcrição representa a melhor inferência ou previsão em formato de texto do que foi falado na entrada de áudio.
Para conversão de voz em texto em tempo real, a entrada de áudio é processada apenas na memória do servidor do Azure e nenhum dado é armazenado em repouso. Todos os dados em trânsito são criptografados para proteção. Consulte Nuvem confiável: segurança, privacidade, conformidade, resiliência e IP para obter mais informações sobre segurança e proteção de privacidade em todo o Azure.
Transcrição por lotes
Na transcrição em lote, os clientes especificam o local de armazenamento escolhido dos arquivos de texto de transcrição de entrada e saída de áudio para o serviço de fala acessar, processar e fornecer a saída de transcrição. O cliente controla o armazenamento desses dados, incluindo a retenção desses dados. Os clientes podem definir um tempo de retenção para arquivos de texto de transcrição gerados usando um parâmetro chamado "timeToLive". Consulte Transcrição em lote -- Propriedades de configuração para obter mais detalhes.
Veja os fluxos de dados para cada recurso de fala para texto:
Diarização/separação de locutores
Esse recurso está disponível para API em tempo real e em lote. Quando os clientes ativam a opção de separação de alto-falantes (diarização) (desabilitada por padrão), o mecanismo de fala para texto analisa e extrai sinais de características de voz exclusivas da entrada de áudio para diferenciar o áudio entre os alto-falantes. Esses sinais de características de voz são usados e temporariamente retidos com o único propósito de marcar a saída da transcrição com marcadores próximos ao texto para o Orador 1 (Guest-1) ou o Orador 2 (Guest-2). Após a conclusão do processo, todos os dados de sinal usados para separar os alto-falantes são descartados. O recurso de separação de alto-falantes suporta a separação de dois ou mais alto-falantes em um único arquivo de áudio. A separação de oradores não suporta o reconhecimento de identidade do orador nem a capacidade de acompanhar oradores únicos em vários arquivos de áudio.
Deteção de idioma
A deteção de linguagem é semelhante ao reconhecimento de fala, exceto que o modelo calcula probabilidades de mapeamento entre fonemas e idiomas. Cada língua tem fonemas específicos e combinações de fonemas, que caracterizam a língua. O modelo de deteção de linguagem identifica as características nos fonemas para calcular a probabilidade de idiomas usados em uma voz de entrada.
Tradução de voz
Quando a tradução de fala é usada, primeiro, uma entrada de áudio é usada para gerar texto transcrito por máquina com fala para texto. Em seguida, o texto transcrito por máquina é enviado para o serviço de tradução de texto para converter o texto (na língua de partida) para outra língua. Se os clientes precisarem de texto traduzido em um formato de áudio, esse recurso pode enviar o texto traduzido para texto para fala. Os clientes têm a opção de produzir apenas texto traduzido ou saída de voz traduzida.
Contentores de voz
Com contêineres de fala, os clientes implantam APIs de serviços de fala em seu próprio ambiente por meio de contêineres do Docker. Como todos os componentes de fala são executados no ambiente controlado pelos clientes, as entradas de dados de áudio e as saídas de transcrição são processadas dentro do contêiner dos clientes e não são enviadas para o serviço de fala baseado em nuvem. Consulte Instalar e executar contêineres do Docker para as APIs do serviço de Fala para obter mais informações.
Segurança dos dados dos clientes no contentor de voz
A segurança dos dados dos clientes é uma responsabilidade partilhada. Detalhes sobre o modelo de segurança dos contêineres de IA do Azure, como o contêiner de fala, podem ser encontrados na segurança de contêiner dos Serviços de IA do Azure.
Você é responsável por proteger e manter o equipamento e a infraestrutura necessários para operar contêineres de fala localizados em suas instalações, como seu dispositivo de borda e rede.
Para saber mais sobre os compromissos de privacidade e segurança da Microsoft , visite a Central de Confiabilidade da Microsoft.
Armazenamento e retenção de dados
Sem rastreio de dados
Ao fazer fala em tempo real, avaliação de pronúncia e tradução de fala, a Microsoft não retém nem armazena os dados fornecidos pelos clientes. Na transcrição em lote, os clientes especificam seus próprios locais de armazenamento para enviar a entrada de áudio. O texto de transcrição gerado pode ser armazenado no próprio armazenamento do cliente ou no armazenamento da Microsoft se nenhum armazenamento for especificado. Se as transcrições de saída forem armazenadas no armazenamento da Microsoft, os clientes poderão excluir os dados chamando uma API de exclusão ou definindo o parâmetro timeToLive para excluir automaticamente os dados em um tempo especificado. Veja mais detalhes em Como usar a transcrição em lote - Serviço de fala - Serviços de IA do Azure.
Para saber mais sobre os compromissos de privacidade e segurança da Microsoft, visite a Central de Confiabilidade da Microsoft.