Preparación de datos y definición de un esquema personalizado para Text Analytics for Health
Para crear un modelo TA4H personalizado, necesitará datos de calidad para entrenarlo. En este artículo se explica cómo seleccionar y preparar los datos, además de definir un esquema. La definición del esquema es el primer paso en el ciclo de vida del desarrollo del proyecto, especifica y define los tipos o categorías de entidades que necesita que su modelo extraiga del texto en tiempo de ejecución.
Diseño de esquema
Text Analytics for Health personalizado permite ampliar y personalizar el mapa de entidades de Text Analytics for Health. El primer paso del proceso consiste en crear el esquema, lo que le permite definir los nuevos tipos de entidad o categorías que necesita que el modelo extraiga del texto, además del Text Analytics for Health para las entidades existentes en ejecución.
Revise los documentos de su conjunto de datos para familiarizarse con su formato y estructura.
Identifique las entidades que desea extraer de los datos.
Por ejemplo, si se extraen entidades de los correos electrónicos de asistencia, es posible que haya que extraer "Nombre del cliente", "Nombre del producto", "Fecha de solicitud" e "Información de contacto".
Evite la ambigüedad de los tipos de entidad.
La ambigüedad se produce cuando los tipos de entidades que se seleccionan son similares entre sí. Cuanto más ambiguo sea el esquema, más datos etiquetados necesitará para diferenciar los distintos tipos de entidad.
Por ejemplo, si va a extraer datos de un contrato legal, para extraer "Nombre de la primera entidad" y "Nombre de la segunda entidad", deberá agregar más ejemplos para superar la ambigüedad, ya que los nombres de ambas partes tienen un aspecto similar. Evite la ambigüedad, ya que ahorra tiempo y esfuerzo y produce mejores resultados.
Evite entidades complejas. Las entidades complejas pueden ser difíciles de seleccionar con precisión del texto; considere la posibilidad de dividirla en varias entidades.
Por ejemplo, extraer "Dirección" sería un reto si no se desglosa en entidades más pequeñas. Hay tantas variaciones en la forma en que aparecen las direcciones que se tardaría un gran número de entidades etiquetadas en enseñar al modelo a extraer una dirección, en su conjunto, sin desglosarla. Sin embargo, si reemplaza "Dirección" por "Nombre de la calle", "Apartado postal", "Ciudad", "Estado" y "Código postal", el modelo requerirá menos etiquetas por entidad.
agregar entidades
Para agregar entidades al proyecto:
Vaya a la tabla dinámica Entidades desde la parte superior de la página.
Text Analytics for Health se carga automáticamente en el proyecto. Para añadir categorías de entidad adicionales, seleccione Agregar en el menú superior. Se le pedirá que escriba un nombre antes de completar la creación de la entidad.
Después de crear una entidad, se le enrutará a la página de detalles de la entidad, donde puede definir la configuración de composición de esta entidad.
Las entidades se definen mediante componentes de entidad: aprendido, lista o precompilado. Las entidades de Text Analytics for Health se rellenan de forma predeterminada con el componente creado previamente y no pueden haber aprendido componentes. Las entidades recién definidas se pueden rellenar con el componente aprendido una vez que agregue etiquetas para ellos en los datos, pero no se pueden rellenar con el componente creado previamente.
Puede agregar un componente de lista a cualquiera de las entidades.
Adición de componente de lista
Para agregar un componente de lista, seleccione Agregar nueva lista. Puede agregar varias listas a cada entidad.
Para crear una nueva lista, en el cuadro de texto Escribir valor, escriba el valor normalizado que se devolverá cuando se extraiga cualquiera de los valores de sinónimos.
Para los proyectos multilingües, en el menú desplegable Idioma, seleccione el idioma de la lista de sinónimos, empiece a escribir los sinónimos y presione Entrar después de cada uno. Se recomienda tener listas de sinónimos en varios idiomas.
Definición de las opciones de entidad
Cambie a la tabla dinámica Opciones de entidad en la página de detalles de la entidad. Cuando se definen varios componentes para una entidad, sus predicciones pueden superponerse. Cuando se produce una superposición, la predicción final de cada entidad se determina en función de la opción de entidad que seleccione en este paso. Seleccione la que quiera aplicar a esta entidad y seleccione el botón Guardar de la parte superior.
Después de crear las entidades, puede volver y editarlas. Puede editar componentes de entidad o eliminarlos seleccionando esta opción en el menú superior.
Selección de datos
La calidad de los datos con los que entrena el modelo afecta enormemente al rendimiento del modelo.
Use datos de la vida real que reflejen el espacio de problemas del dominio para entrenar de forma eficaz el modelo. Puede usar datos sintéticos para acelerar el proceso de entrenamiento del modelo inicial, pero probablemente serán diferentes de los datos reales y harán que el modelo sea menos eficaz cuando se use.
Equilibra la distribución de datos tanto como sea posible sin desviarse de la distribución en la vida real. Por ejemplo, si está entrenando el modelo para extraer entidades de documentos legales que pueden llegar en muchos formatos e idiomas diferentes, debe proporcionar ejemplos que ejemplifiquen la diversidad como se esperaría ver en la vida real.
Use datos diversos siempre que sea posible para evitar el sobreajuste del modelo. Una menor diversidad en los datos de entrenamiento puede dar lugar a correlaciones falsas del aprendizaje del modelo que pueden no existir en los datos de la vida real.
Evite los documentos duplicados en los datos. Los datos duplicados tienen un efecto negativo en el proceso de entrenamiento, las métricas del modelo y el rendimiento del modelo.
Considere de dónde proceden los datos. Si va a recopilar datos de una persona, departamento o parte de su escenario, es probable que falte la diversidad que puede ser importante para que su modelo conozca.
Nota:
En caso de que los documentos estén en varios idiomas, seleccione la opción de habilitar el multilingüismo durante la creación del proyecto y establezca la opción de idioma en el idioma de la mayoría de sus documentos.
Preparación de datos
Como requisito previo para crear un proyecto, los datos de entrenamiento deben cargarse en un contenedor de blobs de la cuenta de almacenamiento. Puede crear y cargar documentos de entrenamiento desde Azure directamente o mediante la herramienta Explorador de Azure Storage. La herramienta Explorador de Azure Storage permite cargar más datos rápidamente.
- Creación y carga de documentos desde Azure
- Creación y carga de documentos mediante el Explorador de Azure Storage
Solo se puede usar documentos .txt
. Si los datos están en otro formato, puede usar el comando de análisis CLUtils para cambiar el formato del documento.
Puede cargar un conjunto de datos anotado o cargar uno sin anotar y etiquetar los datos en Language Studio.
Conjunto de pruebas
Al definir el conjunto de pruebas, asegúrese de incluir documentos de ejemplo que no estén presentes en el conjunto de entrenamiento. La definición del conjunto de pruebas es un paso importante para calcular el rendimiento del modelo. Además, asegúrese de que el conjunto de pruebas incluye documentos que representen todas las entidades usadas en el proyecto.
Pasos siguientes
Si aún no lo ha hecho, cree un Text Analytics for Health personalizado para el proyecto. Si es la primera vez que usa Text Analytics for Health personalizado, considere la posibilidad de seguir el inicio rápido para crear un proyecto de ejemplo. También puede ver el tutorial para obtener más detalles sobre lo que necesita para crear un proyecto.