Identificación automática del idioma hablado con el modelo de identificación de idiomas

Artículo
06/26/2024

Advertencia

En el último año, Video Indexer (VI) de Azure AI anunció la eliminación de su dependencia en Azure Media Services (AMS) debido a su retirada. Se anunciaron ajustes y cambios de características y se proporcionó una guía de migración.

La fecha límite para completar la migración fue el 30 de junio de 2024. VI ha ampliado la fecha límite de actualización y migración para que pueda actualizar su cuenta VI y participar en la migración de recursos de AMS VI hasta el 31 de agosto de 2024.

Sin embargo, después del 30 de junio, si no ha actualizado su cuenta VI, no podrá indexar nuevos vídeos ni podrá reproducir vídeos que no se hayan migrado. Si actualiza la cuenta después del 30 de junio, puede reanudar la indexación inmediatamente, pero no podrá reproducir vídeos indexados antes de la actualización de la cuenta hasta que se migren a través de la migración de AMS VI.

Video Indexer de Azure AI admite la identificación automática del idioma (LID), que es el proceso de identificar automáticamente el idioma hablado del contenido de audio. El archivo multimedia se transcribe en el idioma identificado dominante.

Consulte la lista de idiomas compatibles con Video Indexer de Azure AI en los idiomas admitidos.

Asegúrese de revisar la sección Directrices y limitaciones .

Elección de la identificación automática de idioma en la indexación

Al indexar o volver a indexar un vídeo mediante la API, elija la opción auto detect en el parámetro sourceLanguage.

Al usar el portal, vaya a los vídeos de la cuenta en la página principal de Video Indexer de Azure AI y mantenga el puntero sobre el nombre del vídeo que desea volver a indexar. En la esquina inferior derecha, seleccione el botón Volver a indexar . En el cuadro de diálogo Volver a indexar el vídeo, elija Detección automática en el cuadro desplegable Idioma de origen del vídeo.

Captura de pantalla que muestra dónde seleccionar detección automática.

Salida de modelo

Video Indexer de Azure AI transscribe el vídeo según el idioma más probable si la confianza para ese idioma es > 0.6. Si el idioma hablado no se puede identificar con confianza, se supone que es inglés.

El idioma dominante del modelo está disponible en el JSON de Insights como atributo sourceLanguage (en root/videos/Insights). En el atributo sourceLanguageConfidence también está disponible la puntuación de confianza correspondiente.

"insights": {
        "version": "1.0.0.0",
        "duration": "0:05:30.902",
        "sourceLanguage": "fr-FR",
        "language": "fr-FR",
        "transcript": [...],
        . . .
        "sourceLanguageConfidence": 0.8563
      }

Instrucciones y limitaciones

La identificación automática de idioma (LID) admite los siguientes idiomas:

Consulte la lista de idiomas compatibles con Video Indexer de Azure AI en los idiomas admitidos.

Si el audio contiene idiomas distintos de la lista admitida, el resultado es inesperado.
Si Video Indexer de Azure AI no puede identificar el idioma con una confianza lo suficientemente alta (mayor que 0,6), el idioma de reserva es inglés.
Actualmente, no se admiten archivos con audio de lenguaje mixto. Si el audio incluye idiomas distintos, el resultado es inesperado.
El audio de baja calidad puede afectar a los resultados del modelo.
El modelo requiere al menos un minuto de voz en el audio.
El modelo está diseñado para reconocer una voz conversacional espontánea (no comandos de voz, canto, etc.).

Compartir a través de

Identificación automática del idioma hablado con el modelo de identificación de idiomas

Elección de la identificación automática de idioma en la indexación

Salida de modelo

Instrucciones y limitaciones

Comentarios

Comentarios

Recursos adicionales