Compartir a través de


Obtención de información sobre la transcripción, la traducción y la identificación del idioma de los medios

Advertencia

En el último año, Video Indexer (VI) de Azure AI anunció la eliminación de su dependencia en Azure Media Services (AMS) debido a su retirada. Se anunciaron ajustes y cambios de características y se proporcionó una guía de migración.

La fecha límite para completar la migración fue el 30 de junio de 2024. VI ha ampliado la fecha límite de actualización y migración para que pueda actualizar su cuenta VI y participar en la migración de recursos de AMS VI hasta el 15 de julio de 2024. Para usar la migración de recursos de AMS VI, también debe ampliar la cuenta de AMS a julio. Vaya a la cuenta de AMS en Azure Portal y seleccione Haga clic aquí para ampliar.

Sin embargo, después del 30 de junio, si no ha actualizado su cuenta VI, no podrá indexar nuevos vídeos ni podrá reproducir vídeos que no se hayan migrado. Si actualiza la cuenta después del 30 de junio, puede reanudar la indexación inmediatamente, pero no podrá reproducir vídeos indexados antes de la actualización de la cuenta hasta que se migren a través de la migración de AMS VI.

Transcripción de medios, traducción e identificación del idioma

La transcripción, la traducción y la identificación del idioma detectan, transcriben y traducen la voz en archivos multimedia en más de 50 idiomas.

Video Indexer (VI) de Azure AI procesa la voz en el archivo de audio para extraer la transcripción que luego se traduce en muchos idiomas. Al seleccionar traducir en un idioma específico, la transcripción y la información como palabras clave, temas, etiquetas o OCR se traducen en el idioma especificado. La transcripción se puede usar tal como está o combinarse con la información del hablante que asigna y asigna las transcripciones a los hablantes. Se pueden detectar varios altavoces en un archivo de audio. Se asigna un identificador a cada hablante y se muestra en su voz transcrita.

La identificación del idioma (LID) reconoce el idioma hablado dominante admitido en el archivo de vídeo. Para obtener más información, consulte Aplicación de LID.

La identificación de varios idiomas (MLID) reconoce automáticamente los idiomas hablados en distintos segmentos del archivo de audio y envía cada segmento para que se transcriba en los idiomas identificados. Al final de este proceso, todas las transcripciones se combinan en el mismo archivo. Para obtener más información, consulte Aplicación de MLID. La información resultante se genera en una lista clasificada en un archivo JSON que incluye el identificador, el idioma, el texto transcrito, la duración y la puntuación de confianza.

Al indexar archivos multimedia con varios altavoces, Video Indexer de Azure AI realiza la diarización del hablante que identifica a cada hablante de un vídeo y atributos cada línea transcrita a un hablante. A los hablantes se les asigna una identidad única, como Speaker #1 y Speaker #2. Esto permite la identificación de los hablantes durante las conversaciones y puede ser útil en varios escenarios, como conversaciones con pacientes médicos, interacciones de agente-cliente y procedimientos judiciales.

Casos de uso de transcripción, traducción e identificación de idioma de medios

  • Para promover la accesibilidad, haga que el contenido esté disponible para las personas con discapacidades auditivas mediante Video Indexer de Azure AI para generar voz en transcripción y traducción de texto en varios idiomas.
  • Mejora de la distribución de contenido a una audiencia diversa en diferentes regiones e idiomas mediante la entrega de contenido en varios idiomas mediante las funcionalidades de transcripción y traducción de Video Indexer de Azure AI.
  • Mejora y mejora de la generación manual de subtítulos y subtítulos mediante las funcionalidades de transcripción y traducción de Video Indexer de Azure AI y mediante los subtítulos generados por Video Indexer de Azure AI en uno de los formatos admitidos.
  • Con la identificación de idioma (LID) o la identificación de varios idiomas (MLID) para transcribir vídeos en idiomas desconocidos para permitir que Video Indexer de Azure AI identifique automáticamente los idiomas que aparecen en el vídeo y genere la transcripción en consecuencia.

Visualización del JSON de información con el portal web

Una vez que haya cargado e indexado un vídeo, la información está disponible en formato JSON para su descarga mediante el portal web.

  1. Seleccione la pestaña Biblioteca .
  2. Seleccione los medios con los que desea trabajar.
  3. Seleccione Descargar y Insights (JSON). El archivo JSON se abre en una nueva pestaña del explorador.
  4. Busque el par de claves descrito en la respuesta de ejemplo.

Uso de la API

  1. Use la solicitud Obtener índice de vídeo. Se recomienda pasar &includeSummarizedInsights=false.
  2. Busque el par de claves descrito en la respuesta de ejemplo.
    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },