Share via


Etiquetado de los datos en Language Studio

Antes de entrenar el modelo, debe etiquetar los documentos con las entidades personalizadas en las que quiere extraerlos. El etiquetado de datos es un paso fundamental en el ciclo de vida de desarrollo. En este paso, puede crear los tipos de entidad que desea extraer de los datos y etiquetar estas entidades dentro de los documentos. Estos datos se usarán en el paso siguiente al entrenar el modelo para que el modelo pueda aprender de los datos etiquetados. Si ya tiene datos etiquetados, puede importarlos directamente en el proyecto, pero debe asegurarse de que los datos siguen el formato de datos aceptado. Consulte Crear proyecto para obtener más información sobre cómo importar datos etiquetados en el proyecto.

Antes de crear un modelo NER personalizado, debe haber etiquetado los datos. Si los datos todavía no están etiquetados, puede hacerlo en Language Studio. Los datos etiquetados informan al modelo sobre cómo interpretar el texto y se usan para el entrenamiento y la evaluación.

Requisitos previos

Para poder etiquetar sus datos, necesita lo siguiente:

  • Un proyecto creado correctamente con una cuenta de Azure Blob Storage configurada
  • Datos del texto que se ha cargado en la cuenta de almacenamiento.

Consulte el ciclo de vida del desarrollo de proyectos para obtener más información.

Directrices de etiquetado de datos

Después de preparar los datos, diseñar el esquema y crear el proyecto, deberá etiquetar los datos. Etiquetar los datos es importante para que el modelo sepa qué palabras se asociarán a los tipos de entidad que necesita extraer. Al etiquetar los datos en Language Studio (o importar datos etiquetados), estas etiquetas se almacenarán en el documento JSON en el contenedor de almacenamiento que ha conectado a este proyecto.

Al etiquetar los datos, tenga en cuenta lo siguiente:

  • En general, cuanto más datos etiquetados haya mejores serán los resultados obtenidos, siempre que se hayan etiquetado de forma precisa.

  • La precisión, la coherencia y la integridad de los datos etiquetados son factores clave para determinar el rendimiento del modelo.

    • Etiquetar con precisión: etiquete cada entidad en su tipo correcto siempre. Incluya solo lo que quiera extraer y evite datos innecesarios en sus etiquetas.
    • Etiquetar de forma coherente: la misma entidad debe tener la misma etiqueta en todos los documentos.
    • Etiquetar por completo: etiquete todas las instancias de la entidad en todos los documentos. Puede usar la característica de etiquetado automático para garantizar el etiquetado completo.

    Nota:

    No hay ningún número establecido de etiquetas que puedan garantizar que el modelo funcione mejor. El rendimiento del modelo depende de la posible ambigüedad en el esquema y de la calidad de los datos etiquetados. Sin embargo, se recomienda tener alrededor de 50 instancias etiquetadas por tipo de entidad.

Etiquetado de los datos

Realice los pasos siguientes para etiquetar los datos:

  1. Vaya a la página del proyecto en Language Studio.

  2. En el menú de la izquierda, seleccione Etiquetado de datos. Puede encontrar una lista de todos los documentos del contenedor de almacenamiento.

    Sugerencia

    Puede usar los filtros en el menú superior para ver los documentos sin etiquetar para que pueda empezar a etiquetarlos. También puede usar los filtros para ver los documentos etiquetados con un tipo de entidad.

  3. Cambie a la vista de un solo documento desde el lado izquierdo en el menú superior o seleccione un documento específico para iniciar el etiquetado. A la izquierda, puede ver una lista de todos los documentos .txt disponibles en el proyecto. Puede usar los botones Atrás y Siguiente de la parte inferior de la página para navegar por el documento.

    Nota

    Si ha habilitado varios idiomas para el proyecto, encontrará una lista desplegable Idioma en el menú superior, que le permite seleccionar el idioma de cada documento.

  4. En el panel derecho, Agregue tipo de entidad al proyecto para que pueda empezar a etiquetar los datos con ellos.

  5. Tiene dos opciones para etiquetar el documento:

    Opción Descripción
    Etiquetado mediante un pincel Seleccione el icono de pincel situado junto a un tipo de entidad en el panel derecho y, a continuación, resalte el texto del documento que desea anotar con este tipo de entidad.
    Etiquetado mediante un menú Resalte la palabra que quiera etiquetar como entidad y aparecerá un menú. Seleccione el tipo de entidad que quiera asignar para esta entidad.

    En la captura de pantalla siguiente se muestra el etiquetado mediante un pincel.

    Captura de pantalla en la que se muestran las opciones de etiquetado que se ofrecen en NER personalizado.

  6. En el panel derecho debajo del pivot Etiquetas, puede encontrar todos los tipos de entidad del proyecto y el recuento de instancias etiquetadas por cada uno.

  7. En la sección inferior del panel lateral derecho, puede agregar el documento actual que está viendo al conjunto de entrenamiento o al conjunto de pruebas. De forma predeterminada, todos los archivos de texto se agregan al conjunto de entrenamiento. Obtenga más información sobre los conjuntos de entrenamiento y pruebas y cómo se usan para el entrenamiento y la evaluación de modelos.

    Sugerencia

    Si planea usar la división automática de datos, use la opción predeterminada de asignar todos los documentos al conjunto de entrenamiento.

  8. En el pivot Distribución, puede ver la distribución en conjuntos de entrenamiento y pruebas. Tiene dos opciones para la vista:

    • Total de instancias donde puede ver el recuento de todas las instancias etiquetadas de un tipo de entidad específico.
    • Los documentos con al menos una etiqueta donde se cuenta cada documento si contiene al menos una instancia etiquetada de esta entidad.
  9. Durante el etiquetado, los cambios se sincronizarán periódicamente; si aún no se han guardado, aparecerá una advertencia en la parte superior de la página. Si quiere guardarlos de forma manual, seleccione el botón Guardar etiquetas en la parte inferior de la página.

Eliminación de etiquetas

Para quitar una etiqueta

  1. Seleccione la entidad de la que quiera quitar una etiqueta.
  2. Desplácese por el menú que aparece y seleccione Quitar etiqueta.

Eliminación de entidades

Para eliminar una entidad, seleccione el icono eliminar situado junto a la entidad que desea quitar. Al eliminar una entidad, se quitarán todas sus instancias etiquetadas del conjunto de datos.

Pasos siguientes

Después de etiquetar los datos, puede empezar a entrenar un modelo que aprenderá en función de los datos.