Etiquetado de datos de texto para el entrenamiento de un modelo

Artículo
12/19/2023

Antes de entrenar el modelo, debe etiquetar los documentos con las clases en las que quiere clasificarlos. El etiquetado de datos es un paso fundamental en el ciclo de vida de desarrollo; en este paso puede crear las clases en las que quiere clasificar los datos y etiquetar los documentos con estas clases. Estos datos se usarán en el paso siguiente al entrenar el modelo para que el modelo pueda aprender de los datos etiquetados. Si ya tiene datos etiquetados, puede importarlos directamente en el proyecto, pero debe asegurarse de que los datos siguen el formato de datos aceptado.

Antes de crear un modelo de clasificación de texto personalizado, debe haber etiquetado los datos. Si los datos todavía no están etiquetados, puede hacerlo en Language Studio. Los datos etiquetados informan al modelo sobre cómo interpretar el texto y se usan para el entrenamiento y la evaluación.

Prerrequisitos

Para poder etiquetar los datos, necesita lo siguiente:

Un proyecto creado correctamente con una cuenta de Azure Blob Storage configurada.
Documentos que contienen datos de texto que se han cargado en la cuenta de almacenamiento.

Consulte el ciclo de vida del desarrollo de proyectos para obtener más información.

Directrices de etiquetado de datos

Después de preparar los datos, diseñar el esquema y crear el proyecto, deberá etiquetar los datos. Etiquetar los datos es importante para que el modelo sepa qué documentos se asociarán a las clases que necesita. Al etiquetar los datos en Language Studio (o importar datos etiquetados), estas etiquetas se almacenarán en el archivo JSON en el contenedor de almacenamiento que ha conectado a este proyecto.

Al etiquetar los datos, tenga en cuenta lo siguiente:

En general, cuanto más datos etiquetados haya mejores serán los resultados obtenidos, siempre que se hayan etiquetado de forma precisa.
No hay ningún número establecido de etiquetas que puedan garantizar que el modelo funcione mejor. El rendimiento del modelo depende de la posible ambigüedad en el esquema y de la calidad de los datos etiquetados. No obstante, se recomiendan 50 documentos etiquetados por clase.

Etiquetado de los datos

Realice los pasos siguientes para etiquetar los datos:

Vaya a la página del proyecto en Language Studio.
En el menú de la izquierda, seleccione Etiquetado de datos. Puede encontrar una lista de todos los documentos del contenedor de almacenamiento. Consulte la imagen que aparece a continuación.

Sugerencia

Puede usar los filtros en el menú superior para ver los archivos sin etiquetar para que pueda empezar a etiquetarlos. También puede usar los filtros para ver los documentos etiquetados con una clase específica.
Cambie a una sola vista de archivo desde el lado izquierdo en el menú superior o seleccione un archivo específico para iniciar el etiquetado. A la izquierda, encontrará una lista de todos los archivos .txt disponibles en los proyectos. Puede usar los botones Atrás y Siguiente de la parte inferior de la página para navegar por el documento.

Nota

Si ha habilitado varios idiomas para el proyecto, encontrará una lista desplegable Idioma en el menú superior, que le permite seleccionar el idioma de cada documento.
En el panel derecho, Agregue clase al proyecto para que pueda empezar a etiquetar los datos con ellos.
Inicie el etiquetado de los archivos.
- Clasificación de etiqueta múltiple
- Clasificación de etiqueta única
Clasificación de etiquetas múltiples: el archivo se puede etiquetar con varias clases; para ello, active todas las casillas aplicables junto a las clases con las que quiere etiquetar este documento.

Clasificación de etiqueta única: el archivo solo se puede etiquetar con una clase; para ello, seleccione uno de los botones junto a la clase con la que quiere etiquetar el documento.
También es posible usar la característica de etiquetado automático para garantizar el etiquetado completo.
En el panel derecho debajo del pivot Etiquetas, puede encontrar todos los tipos de entidad del proyecto y el recuento de instancias etiquetadas por cada uno.
En la sección inferior del panel derecho, puede agregar el archivo actual que está viendo al conjunto de entrenamiento o al conjunto de pruebas. De forma predeterminada, todos los archivos de texto se agregan al conjunto de entrenamiento. Obtenga más información sobre los conjuntos de entrenamiento y pruebas y cómo se usan para el entrenamiento y la evaluación de modelos.

Sugerencia

Si planea usar la división automática de datos, use la opción predeterminada de asignar todos los documentos al conjunto de entrenamiento.
En el pivot Distribución, puede ver la distribución en conjuntos de entrenamiento y pruebas. Tiene dos opciones para la vista:
- Total de instancias donde puede ver el recuento de todas las instancias etiquetadas de una clase específica.
- Los documentos con al menos una etiqueta donde se cuenta cada documento si contiene al menos una instancia etiquetada de esta clase.
Durante el etiquetado, los cambios se sincronizarán periódicamente; si aún no se han guardado, aparecerá una advertencia en la parte superior de la página. Si quiere guardarlos de forma manual, seleccione el botón Guardar etiquetas en la parte inferior de la página.

Eliminación de etiquetas

Si quiere quitar una etiqueta, anule la selección del botón situado junto a la clase.

Eliminación de clases

Para eliminar una clase, seleccione el icono Eliminar situado junto a la clase que quiere quitar. Al eliminar una clase, se quitarán todas sus instancias etiquetadas del conjunto de datos.

Pasos siguientes

Después de etiquetar los datos, puede empezar a entrenar un modelo que aprenderá en función de los datos.