Compartir a través de


Detección de idiomas

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Detecta el idioma de cada línea del archivo de entrada.

Categoría: Text Analytics

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general del módulo

En este artículo se describe cómo usar el módulo Detectar idiomas en Machine Learning Studio (clásico) para analizar la entrada de texto e identificar el idioma asociado a cada registro de la entrada.

El algoritmo de detección de idioma puede identificar muchos idiomas diferentes. Solo tiene que especificar la columna de cadena que se analizará y el número total de idiomas que se detectarán. El algoritmo analizará cada fila de texto y asignará una puntuación de probabilidad para cada idioma. El idioma de la primera columna de resultados es el idioma que obtuvo la puntuación más alta.

Configuración de La detección de idiomas

  1. Agregue el conjunto de datos que contiene el texto que desea analizar a un experimento en Machine Learning Studio (clásico). La columna con el texto que se va a analizar debe ser el tipo de datos de cadena.

    El conjunto de datos no necesita contener una columna de etiqueta; El algoritmo de detección de idiomas funciona exclusivamente en características lingüísticas de los idiomas admitidos.

    Si va a importar datos nuevos, asegúrese de que los datos se guardan en el formato UTF-8. No se admiten otros formatos Unicode.

  2. Agregue el módulo Detectar idiomas al experimento y conecte el conjunto de datos con el texto para la detección de idioma.

  3. En Columna de texto, elija la columna que desea analizar.

  4. Para Upper bound on number of languages to detect (Límite superior en el número de idiomas que se detectarán), indique el número máximo de idiomas que se detectarán.

    Establecer un límite superior en el número de idiomas puede mejorar el rendimiento.

  5. Ejecute el experimento.

Results

El módulo Detectar idiomas genera un identificador de idioma y una puntuación para cada fila.

Por ejemplo, la tabla siguiente contiene un análisis de ejemplo sobre los datos de prueba.

  • Las dos primeras columnas col1 y etiqueta de idioma son columnas que se pasan desde el conjunto de datos de entrada. En este ejemplo, dado que el conjunto de datos de entrada se diseñó para probar el módulo, el idioma esperado ya se conocía y se proporciona en la columna de etiqueta.

  • El módulo Detectar idiomas genera las columnas restantes . Si hay coincidencias de idiomas de probabilidades de equilibrio, se pueden enumerar varios idiomas, con una puntuación para cada uno. En este caso, el módulo predice solo un idioma para cada fila, junto con la puntuación de probabilidad para ese idioma.

    Si el módulo no detecta ningún idioma con una puntuación lo suficientemente alta, se genera un resultado de (Desconocido) con una puntuación de 0. Sin embargo, los idiomas admitidos por el módulo pueden cambiar con el tiempo a medida que se actualiza la API.

Col1 Etiqueta de idioma Lenguaje Col1 Lenguaje Col1 Iso6391 Col1 Iso6391 Language Score
Era un hotel fantástico con un personal descriptivo y un buen servicio Inglés Inglés en 100
Es war ein wunderbares Hotel mit freundlichem Personal und warer service Alemán Alemán de 100
C'est un lupa hötel avec un personnel sympathique et un service de qual qualqué Francés Francés fr 100
Det var et dejligt hotel dos venligt personale atm service Danés Danés nl 100
Va ser un magnagent hotel amb un personal cargo i bon servei Catalán Catalán ca 92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった Japonés (Desconocido) 0
qu mebpa'mey naQ friendly QaQ yamoH je Klingon Francés fr 77.5

Ejemplos

Para obtener ejemplos de cómo se usa el módulo Detectar idiomas en un experimento, consulte el Azure AI Gallery:

  • Filtrar títulos de películas por idioma: detecta el idioma que se usa en los nombres de películas y, a continuación, usa el identificador de idioma para dividir el conjunto de datos en inglés frente a películas que no están en inglés.

Notas técnicas

Para obtener una idea general de los idiomas que se pueden detectar, consulte Traductor de Bing.

Se pueden detectar muchos más idiomas de los Machine Learning admite actualmente para el análisis de texto avanzado. Se recomienda usar los resultados de Detectar idiomas para filtrar los resultados que envía a otros módulos que requieren procesamiento específico del lenguaje.

El servicio lingüístico subyacente también usa los servicios lingüísticos Text Analytics en Azure Cognitive Services.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Clase de entrada.

Parámetros del módulo

Nombre Tipo Intervalo Opcional Valor predeterminado Descripción
Límite superior en el número de idiomas que se detectarán Entero [1;184] Obligatorio 1 Límite superior en el número de idiomas que se va a detectar.
Columna de texto ColumnSelection Obligatorio Nombre o índice basado en uno de la columna de texto.

Salidas

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos El resultado

Excepciones

Excepción Descripción
Error 0003 Se produce una excepción si una o varias de las entradas son NULL o están vacías.
Error 0010 Se produce una excepción si los conjuntos de datos de entrada tienen nombres de columna que deben coincidir, pero no coinciden.
Error 0016 Se produce una excepción si los conjuntos de datos de entrada que se pasan al módulo deben tener tipos de columna compatibles, pero no es así.
Error 0008 Se produce una excepción si el parámetro no se encuentra en el intervalo.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Text Analytics
Lista de módulos A-Z