Detección de idiomas
Importante
El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.
A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.
- Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
- Más información sobre Azure Machine Learning.
La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.
Detecta el idioma de cada línea del archivo de entrada.
Categoría: Text Analytics
Nota:
Solo se aplica a: Machine Learning Studio (clásico)
Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.
Información general del módulo
En este artículo se describe cómo usar el módulo Detectar idiomas en Machine Learning Studio (clásico) para analizar la entrada de texto e identificar el idioma asociado a cada registro de la entrada.
El algoritmo de detección de idioma puede identificar muchos idiomas diferentes. Solo tiene que especificar la columna de cadena que se analizará y el número total de idiomas que se detectarán. El algoritmo analizará cada fila de texto y asignará una puntuación de probabilidad para cada idioma. El idioma de la primera columna de resultados es el idioma que obtuvo la puntuación más alta.
Configuración de La detección de idiomas
Agregue el conjunto de datos que contiene el texto que desea analizar a un experimento en Machine Learning Studio (clásico). La columna con el texto que se va a analizar debe ser el tipo de datos de cadena.
El conjunto de datos no necesita contener una columna de etiqueta; El algoritmo de detección de idiomas funciona exclusivamente en características lingüísticas de los idiomas admitidos.
Si va a importar datos nuevos, asegúrese de que los datos se guardan en el formato UTF-8. No se admiten otros formatos Unicode.
Agregue el módulo Detectar idiomas al experimento y conecte el conjunto de datos con el texto para la detección de idioma.
En Columna de texto, elija la columna que desea analizar.
Para Upper bound on number of languages to detect (Límite superior en el número de idiomas que se detectarán), indique el número máximo de idiomas que se detectarán.
Establecer un límite superior en el número de idiomas puede mejorar el rendimiento.
Ejecute el experimento.
Results
El módulo Detectar idiomas genera un identificador de idioma y una puntuación para cada fila.
Por ejemplo, la tabla siguiente contiene un análisis de ejemplo sobre los datos de prueba.
Las dos primeras columnas col1 y etiqueta de idioma son columnas que se pasan desde el conjunto de datos de entrada. En este ejemplo, dado que el conjunto de datos de entrada se diseñó para probar el módulo, el idioma esperado ya se conocía y se proporciona en la columna de etiqueta.
El módulo Detectar idiomas genera las columnas restantes . Si hay coincidencias de idiomas de probabilidades de equilibrio, se pueden enumerar varios idiomas, con una puntuación para cada uno. En este caso, el módulo predice solo un idioma para cada fila, junto con la puntuación de probabilidad para ese idioma.
Si el módulo no detecta ningún idioma con una puntuación lo suficientemente alta, se genera un resultado de (Desconocido) con una puntuación de 0. Sin embargo, los idiomas admitidos por el módulo pueden cambiar con el tiempo a medida que se actualiza la API.
Col1 | Etiqueta de idioma | Lenguaje Col1 | Lenguaje Col1 Iso6391 | Col1 Iso6391 Language Score |
---|---|---|---|---|
Era un hotel fantástico con un personal descriptivo y un buen servicio | Inglés | Inglés | en | 100 |
Es war ein wunderbares Hotel mit freundlichem Personal und warer service | Alemán | Alemán | de | 100 |
C'est un lupa hötel avec un personnel sympathique et un service de qual qualqué | Francés | Francés | fr | 100 |
Det var et dejligt hotel dos venligt personale atm service | Danés | Danés | nl | 100 |
Va ser un magnagent hotel amb un personal cargo i bon servei | Catalán | Catalán | ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | Japonés | (Desconocido) | 0 | |
qu mebpa'mey naQ friendly QaQ yamoH je | Klingon | Francés | fr | 77.5 |
Ejemplos
Para obtener ejemplos de cómo se usa el módulo Detectar idiomas en un experimento, consulte el Azure AI Gallery:
- Filtrar títulos de películas por idioma: detecta el idioma que se usa en los nombres de películas y, a continuación, usa el identificador de idioma para dividir el conjunto de datos en inglés frente a películas que no están en inglés.
Notas técnicas
Para obtener una idea general de los idiomas que se pueden detectar, consulte Traductor de Bing.
Se pueden detectar muchos más idiomas de los Machine Learning admite actualmente para el análisis de texto avanzado. Se recomienda usar los resultados de Detectar idiomas para filtrar los resultados que envía a otros módulos que requieren procesamiento específico del lenguaje.
El servicio lingüístico subyacente también usa los servicios lingüísticos Text Analytics en Azure Cognitive Services.
Entradas esperadas
Nombre | Tipo | Descripción |
---|---|---|
Dataset | Tabla de datos | Clase de entrada. |
Parámetros del módulo
Nombre | Tipo | Intervalo | Opcional | Valor predeterminado | Descripción |
---|---|---|---|---|---|
Límite superior en el número de idiomas que se detectarán | Entero | [1;184] | Obligatorio | 1 | Límite superior en el número de idiomas que se va a detectar. |
Columna de texto | ColumnSelection | Obligatorio | Nombre o índice basado en uno de la columna de texto. |
Salidas
Nombre | Tipo | Descripción |
---|---|---|
Conjunto de datos de resultados | Tabla de datos | El resultado |
Excepciones
Excepción | Descripción |
---|---|
Error 0003 | Se produce una excepción si una o varias de las entradas son NULL o están vacías. |
Error 0010 | Se produce una excepción si los conjuntos de datos de entrada tienen nombres de columna que deben coincidir, pero no coinciden. |
Error 0016 | Se produce una excepción si los conjuntos de datos de entrada que se pasan al módulo deben tener tipos de columna compatibles, pero no es así. |
Error 0008 | Se produce una excepción si el parámetro no se encuentra en el intervalo. |
Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.
Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.