Términos y definiciones que se usan en la clasificación de texto personalizado

Artículo
12/19/2023

Use este artículo para obtener información sobre algunas de las definiciones y los términos que se pueden encontrar al usar la clasificación de texto personalizado.

Clase

Una clase es una categoría definida por el usuario que indica la clasificación general del texto. Los desarrolladores etiquetan los datos con sus clases antes de pasarlos al modelo para entrenarlos.

Puntuación F1

La puntuación F1 es una función de precisión y coincidencia. Es necesaria cuando se busca un equilibrio entre precisión y coincidencia.

Modelo

Un modelo es un objeto entrenado para realizar una determinada tarea, en este caso, tareas de clasificación de texto personalizado. Para entrenar modelos, se proporcionan datos etiquetados de los que aprenden para que posteriormente se puedan usar para tareas de clasificación.

El entrenamiento del modelo es el proceso por el cual se enseña al modelo cómo clasificar documentos en función de los datos etiquetados.
La evaluación del modelo es el proceso que se produce justo después del entrenamiento para saber cómo funciona el modelo.
La implementación es el proceso de asignación del modelo a una implementación para que esté disponible para su uso mediante la API de predicción.

Precision

Mide lo preciso o exacto que es el modelo. Es la relación entre los positivos identificados correctamente (verdaderos positivos) y todos los positivos identificados. La métrica de precisión revela cuántas de las clases previstas están correctamente etiquetadas.

Project

Un proyecto es un área de trabajo para compilar modelos de Machine Learning personalizados basados en los datos. A su proyecto solo puede acceder usted y otros usuarios que tengan acceso al recurso de Azure que se usa. Como requisito previo para crear un proyecto de clasificación de texto personalizado, debe conectar el recurso a una cuenta de almacenamiento con el conjunto de datos al crear un nuevo proyecto. El proyecto incluye automáticamente todos los archivos .txt disponibles en el contenedor.

Dentro del proyecto se puede hacer lo siguiente:

Etiquetar los datos: proceso de etiquetado de los datos para que, al entrenar el modelo, aprenda lo que quiere extraer.
Compilar y entrenar el modelo: paso principal del proyecto, donde el modelo comienza a aprender de los datos etiquetados.
Ver los detalles de evaluación del modelo: revise el rendimiento del modelo para decidir si es posible mejorarlo o si está satisfecho con los resultados.
Implementación: una vez que haya revisado el rendimiento del modelo y haya decidido que es adecuado para usarse en su entorno, debe asignarlo a una implementación para poder consultarlo. La asignación del modelo a una implementación hace que esté disponible para su uso mediante la API de predicción.
Probar el modelo: después de implementar el modelo, puede usar esta operación en Language Studio para probar la implementación y ver cómo funcionaría en producción.

Tipos de proyecto

La clasificación de texto personalizado admite dos tipos de proyectos:

Clasificación de etiqueta única: se puede asignar una sola clase a cada documento del conjunto de datos. Por ejemplo, el guion de una película solo podría clasificarse como "Romance" o como "Comedia".
Clasificación mediante varias etiquetas: se pueden asignar varias clases a cada documento del conjunto de datos. Por ejemplo, el guion de una película podría clasificarse como "Comedia" o "Romance" y como "Comedia".

Recuperación

Mide la capacidad del modelo para predecir clases positivas reales. Es la relación entre los verdaderos positivos previstos y lo que realmente se ha etiquetado. La métrica de coincidencia revela cuántas de las clases previstas están correctamente etiquetadas.