Partilhar via


Obtenha informações sobre transcrição, tradução e identificação de idioma de mídia

Transcrição, tradução e identificação linguística dos meios de comunicação social

A transcrição, tradução e identificação linguística deteta, transcreve e traduz a fala em arquivos de mídia para mais de 50 idiomas.

O Azure AI Video Indexer (VI) processa a fala no arquivo de áudio para extrair a transcrição que é então traduzida para vários idiomas. Ao selecionar para traduzir para um idioma específico, tanto a transcrição quanto os insights como palavras-chave, tópicos, rótulos ou OCR são traduzidos para o idioma especificado. A transcrição pode ser usada como está ou ser combinada com insights do orador que mapeiam e atribuem as transcrições aos oradores. Vários alto-falantes podem ser detetados em um arquivo de áudio. Um ID é atribuído a cada orador e é exibido sob o discurso transcrito.

A identificação de idioma (LID) reconhece o idioma falado dominante suportado no arquivo de vídeo. Para obter mais informações, consulte Aplicando LID.

A identificação multilíngüe (MLID) reconhece automaticamente os idiomas falados em diferentes segmentos no arquivo de áudio e envia cada segmento para ser transcrito nos idiomas identificados. No final deste processo, todas as transcrições são combinadas no mesmo ficheiro. Para obter mais informações, consulte Aplicando MLID. Os insights resultantes são gerados em uma lista categorizada em um arquivo JSON que inclui o ID, o idioma, o texto transcrito, a duração e a pontuação de confiança.

Ao indexar arquivos de mídia com vários alto-falantes, o Azure AI Video Indexer executa a diarização do alto-falante que identifica cada alto-falante em um vídeo e atribui cada linha transcrita a um alto-falante. Os oradores recebem uma identidade única, como o Orador #1 e o Orador #2. Isso permite a identificação de palestrantes durante as conversas e pode ser útil em vários cenários, como conversas médico-paciente, interações agente-cliente e processos judiciais.

Casos de uso de transcrição de mídia, tradução e identificação de idioma

  • Promover a acessibilidade disponibilizando conteúdo para pessoas com deficiências auditivas usando o Azure AI Video Indexer para gerar transcrição de fala para texto e tradução em vários idiomas.
  • Melhorar a distribuição de conteúdo para um público diversificado em diferentes regiões e idiomas fornecendo conteúdo em vários idiomas usando os recursos de transcrição e tradução do Azure AI Video Indexer.
  • Melhorar e melhorar a geração manual de legendas ocultas e legendas utilizando as capacidades de transcrição e tradução do Azure AI Video Indexer e utilizando as legendas ocultas geradas pelo Azure AI Video Indexer num dos formatos suportados.
  • Usando identificação de idioma (LID) ou identificação multilíngüe (MLID) para transcrever vídeos em idiomas desconhecidos para permitir que o Azure AI Video Indexer identifique automaticamente os idiomas que aparecem no vídeo e gere a transcrição de acordo.

Veja o insight JSON com o portal da Web

Depois de carregar e indexar um vídeo, os insights ficam disponíveis no formato JSON para download usando o portal da Web.

  1. Selecione a guia Biblioteca .
  2. Selecione a mídia com a qual deseja trabalhar.
  3. Selecione Download e o Insights (JSON). O arquivo JSON é aberto em uma nova guia do navegador.
  4. Procure o par de chaves descrito na resposta de exemplo.

Utilizar a API

  1. Use a solicitação Obter índice de vídeo. Recomendamos passar &includeSummarizedInsights=false.
  2. Procure os pares de chaves descritos na resposta de exemplo.

Resposta de exemplo

Todas as línguas detetadas no vídeo estão sob sourceLanauge e cada instância na seção de transcrição inclui a linguagem trascribed.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Importante

É importante ler a visão geral da nota de transparência para todos os recursos VI. Cada insight também tem notas de transparência próprias:

Notas de transcrição, tradução e identificação linguística

Quando usado de forma responsável e cuidadosa, o Azure AI Video Indexer é uma ferramenta valiosa para muitos setores. Você deve sempre respeitar a privacidade e a segurança de outras pessoas e cumprir as regulamentações locais e globais. É recomendável:

  • Considere cuidadosamente a precisão dos resultados, para promover dados mais precisos, verifique a qualidade do áudio, áudio de baixa qualidade pode afetar os insights detetados.
  • O Indexador de vídeo não executa o reconhecimento de alto-falantes, portanto, os alto-falantes não recebem um identificador em vários arquivos. Não é possível procurar um orador individual em vários ficheiros ou transcrições.
  • Os identificadores de alto-falante são atribuídos aleatoriamente e só podem ser usados para distinguir diferentes alto-falantes em um único arquivo.
  • Conversa cruzada e fala sobreposta: Quando vários oradores falam simultaneamente ou interrompem uns aos outros, torna-se um desafio para o modelo distinguir com precisão e atribuir o texto correto aos oradores correspondentes.
  • Sobreposições de oradores: Às vezes, os falantes podem ter padrões de fala semelhantes, sotaques ou usar vocabulário semelhante, tornando difícil para o modelo diferenciá-los.
  • Áudio ruidoso: Áudio de baixa qualidade, ruído de fundo ou gravações de baixa qualidade podem prejudicar a capacidade do modelo de identificar e transcrever corretamente os alto-falantes.
  • Fala emocional: Variações emocionais na fala, como gritos, choro ou excitação extrema, podem afetar a capacidade do modelo de diarizar com precisão os oradores.
  • Disfarce ou representação do orador: Se um orador tentar intencionalmente imitar ou disfarçar a sua voz, o modelo pode identificar incorretamente o orador.
  • Identificação ambígua do orador: alguns segmentos da fala podem não ter características únicas suficientes para o modelo atribuir com confiança a um orador específico.
  • O áudio que contém idiomas diferentes daqueles que você selecionou produz resultados inesperados.
  • O comprimento mínimo do segmento para detetar cada idioma é de 15 segundos.
  • O deslocamento de deteção de idioma é de 3 segundos em média.
  • Espera-se que a fala seja contínua. Alterações frequentes entre idiomas podem afetar o desempenho do modelo.
  • A fala de falantes não nativos pode afetar o desempenho do modelo (por exemplo, quando os falantes usam sua primeira língua e mudam para outro idioma).
  • O modelo é projetado para reconhecer a fala conversacional espontânea com acústica de áudio razoável (não comandos de voz, canto, etc.).
  • A criação e edição de projetos não estão disponíveis para vídeos em vários idiomas.
  • Os modelos de idioma personalizados não estão disponíveis ao usar a deteção multilíngüe.
  • Não há suporte para a adição de palavras-chave.
  • A indicação de idioma não está incluída no arquivo de legenda oculta exportado.
  • A transcrição da atualização na API não suporta arquivos de vários idiomas.
  • O modelo é projetado para reconhecer uma fala conversacional espontânea (não comandos de voz, canto e assim por diante).
  • Se o Azure AI Video Indexer não conseguir identificar o idioma com uma confiança alta o suficiente (maior que 0,6), o idioma de fallback será o inglês.

Aqui está uma lista de idiomas suportados.

Componentes de transcrição, tradução e identificação linguística

Durante o procedimento de transcrição, tradução e identificação da língua, a fala em um arquivo de mídia é processada da seguinte forma:

Componente Definição
Língua de partida O usuário carrega o arquivo de origem para indexação e:
- Especifica o idioma de origem do vídeo.
- Seleciona auto detetar idioma único (LID) para identificar o idioma do arquivo. A saída é salva separadamente.
- Seleciona auto detetar multi idioma (MLID) para identificar vários idiomas no arquivo. A saída de cada idioma é salva separadamente.
API de transcrição O arquivo de áudio é enviado para os serviços de IA do Azure para obter a saída transcrita e traduzida. Se um idioma for especificado, ele será processado de acordo. Se nenhum idioma for especificado, um processo LID ou MLID será executado para identificar o idioma após o qual o arquivo será processado.
Unificação da produção Os arquivos transcritos e traduzidos são unificados no mesmo arquivo. Os dados gerados incluem o ID do orador de cada frase extraída, juntamente com o seu nível de confiança.
Valor da confiança O nível de confiança estimado de cada frase é calculado como um intervalo de 0 a 1. O índice de confiança representa a certeza na precisão do resultado. Por exemplo, uma certeza de 82% é representada como uma pontuação de 0,82.

Código de exemplo

Ver todos os exemplos de VI