Obtenha informações sobre transcrição, tradução e identificação de idioma de mídia

2025-06-05

Os recursos de transcrição, tradução e identificação de idioma detetam, transcrevem e traduzem fala em arquivos de mídia em mais de 50 idiomas.

O Azure AI Video Indexer (VI) processa a fala no arquivo de áudio para extrair a transcrição que é então traduzida para vários idiomas. Ao selecionar para traduzir para um idioma específico, tanto a transcrição quanto os insights como palavras-chave, tópicos, rótulos ou OCR são traduzidos para o idioma especificado. A transcrição pode ser usada como está ou ser combinada com insights do orador que mapeiam e atribuem as transcrições aos oradores. Vários alto-falantes podem ser detetados em um arquivo de áudio. Um ID é atribuído a cada orador e é exibido sob o discurso transcrito.

A identificação de idioma (LID) reconhece o idioma falado dominante suportado no arquivo de vídeo. Para obter mais informações, consulte Aplicando LID.

A identificação multilíngüe (MLID) reconhece automaticamente os idiomas falados em diferentes segmentos no arquivo de áudio e envia cada segmento para ser transcrito nos idiomas identificados. No final deste processo, todas as transcrições são combinadas no mesmo ficheiro. Para obter mais informações, consulte Aplicando MLID. Os insights resultantes são gerados em uma lista categorizada em um arquivo JSON que inclui o ID, o idioma, o texto transcrito, a duração e a pontuação de confiança.

Quando o Azure AI Video Indexer indexa arquivos de mídia com vários alto-falantes, ele executa a diarização do alto-falante. Identifica cada orador num vídeo e atribui cada linha transcrita a um orador. Os oradores recebem uma identidade única, como o Orador #1 e o Orador #2. Ele permite a identificação de palestrantes durante as conversas e pode ser útil em vários cenários, como conversas médico-paciente, interações agente-cliente e processos judiciais.

Casos de uso de transcrição de mídia, tradução e identificação de idioma

Promova a acessibilidade disponibilizando conteúdo para pessoas com deficiências auditivas usando o Azure AI Video Indexer para gerar transcrição e tradução de fala para texto em vários idiomas.
Melhore a distribuição de conteúdo para um público diversificado em diferentes regiões e idiomas. Forneça conteúdo em vários idiomas usando os recursos de transcrição e tradução do Azure AI Video Indexer.
Aprimore e melhore a geração manual de legendas ocultas e legendas comuns. Usa os recursos de transcrição e tradução do Azure AI Video Indexer e usando as legendas ocultas geradas pelo Azure AI Video Indexer em um dos formatos suportados.
Usando identificação de idioma (LID) ou identificação multilíngüe (MLID) para transcrever vídeos em idiomas desconhecidos para permitir que o Azure AI Video Indexer identifique automaticamente os idiomas que aparecem no vídeo e gere a transcrição de acordo.

Veja o JSON de insights no portal web

Depois de carregar e indexar um vídeo, transfira informações em formato JSON a partir do portal Web.

Selecione a guia Biblioteca .
Selecione a mídia desejada.
Selecione Download e, em seguida, selecione Insights (JSON). O ficheiro JSON é aberto num novo separador do navegador.
Encontre o par de chaves descrito na resposta de exemplo.

Utilizar a API

Use uma solicitação Obter índice de vídeo . Passe &includeSummarizedInsights=false.
Encontre os pares de chaves descritos na resposta de exemplo.

Resposta de exemplo

Todos os idiomas detetados no vídeo estão abaixo sourceLanguage e cada instância na seção de transcrição inclui o idioma transcrito.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Importante

Leia a visão geral da nota de transparência para todos os recursos VI. Cada insight também tem sua própria nota de transparência.

Notas de transcrição, tradução e identificação linguística

Quando usado de forma responsável e cuidadosa, o Azure AI Video Indexer é uma ferramenta valiosa para muitos setores. Você deve sempre respeitar a privacidade e a segurança de outras pessoas e cumprir as regulamentações locais e globais. É recomendável:

Considere cuidadosamente a precisão dos resultados, para promover dados mais precisos, verifique a qualidade do áudio, áudio de baixa qualidade pode afetar os insights detetados.
O Indexador de vídeo não executa o reconhecimento de alto-falantes, portanto, os alto-falantes não recebem um identificador em vários arquivos. Não é possível procurar um orador individual em vários ficheiros ou transcrições.
Os identificadores de alto-falante são atribuídos aleatoriamente e só podem ser usados para distinguir diferentes alto-falantes em um único arquivo.
Conversa cruzada e fala sobreposta: Quando vários oradores falam simultaneamente ou interrompem uns aos outros, torna-se um desafio para o modelo distinguir com precisão e atribuir o texto correto aos oradores correspondentes.
Sobreposições de oradores: Às vezes, os falantes podem ter padrões de fala semelhantes, sotaques ou usar vocabulário semelhante, tornando difícil para o modelo diferenciá-los.
Áudio ruidoso: Áudio de baixa qualidade, ruído de fundo ou gravações de baixa qualidade podem prejudicar a capacidade do modelo de identificar e transcrever corretamente os alto-falantes.
Fala emocional: Variações emocionais na fala, como gritos, choro ou excitação extrema, podem afetar a capacidade do modelo de diarizar com precisão os oradores.
Disfarce ou representação do orador: Se um orador tentar intencionalmente imitar ou disfarçar a sua voz, o modelo pode identificar incorretamente o orador.
Identificação ambígua do orador: alguns segmentos da fala podem não ter características únicas suficientes para o modelo atribuir com confiança a um orador específico.
O áudio que contém idiomas diferentes daqueles que você selecionou produz resultados inesperados.
O comprimento mínimo do segmento para detetar cada idioma é de 15 segundos.
O deslocamento de deteção de idioma é de 3 segundos em média.
Espera-se que a fala seja contínua. Alterações frequentes entre idiomas podem afetar o desempenho do modelo.
A fala de falantes não nativos pode afetar o desempenho do modelo (por exemplo, quando os falantes usam sua primeira língua e mudam para outro idioma).
O modelo é projetado para reconhecer a fala conversacional espontânea com acústica de áudio razoável (não comandos de voz, canto, etc.).
A criação e edição de projetos não estão disponíveis para vídeos em vários idiomas.
Os modelos de idioma personalizados não estão disponíveis ao usar a deteção multilíngüe.
Não há suporte para a adição de palavras-chave.
A indicação de idioma não está incluída no arquivo de legenda oculta exportado.
A transcrição da atualização na API não suporta arquivos de vários idiomas.
O modelo é projetado para reconhecer uma fala conversacional espontânea (não comandos de voz, canto e assim por diante).
Se o Azure AI Video Indexer não conseguir identificar o idioma com uma confiança alta o suficiente (maior que 0,6), o idioma de fallback será o inglês.

Aqui está uma lista de idiomas suportados.

Componentes de transcrição, tradução e identificação linguística

Durante o procedimento de transcrição, tradução e identificação da língua, a fala em um arquivo de mídia é processada da seguinte forma:

Componente	Definição
Língua de partida	O usuário carrega o arquivo de origem para indexação e: - Especifica o idioma de origem do vídeo. - Seleciona auto detetar idioma único (LID) para identificar o idioma do arquivo. A saída é guardada separadamente. - Seleciona detetar automaticamente multi-idiomas (MLID) para identificar vários idiomas no ficheiro. A saída de cada idioma é guardada separadamente.
API de transcrição	O arquivo de áudio é enviado para os serviços de IA do Azure para obter a saída transcrita e traduzida. Se um idioma for especificado, ele será processado de acordo. Se nenhum idioma for especificado, um processo LID ou MLID será executado para identificar o idioma após o qual o arquivo será processado.
Unificação da produção	Os arquivos transcritos e traduzidos são unificados no mesmo arquivo. Os dados gerados incluem o ID do orador de cada frase extraída, juntamente com o seu nível de confiança.
Valor da confiança	O nível de confiança estimado de cada frase é calculado como um intervalo de 0 a 1. O índice de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82.

Código de exemplo

Ver todos os exemplos de VI