Compartir vía


Extracción de información

Importante

Esta característica está en versión preliminar pública y es compatible con HIPAA.

En esta página se describe la nueva versión de Extracción de información. Para obtener información sobre la versión anterior, vea Uso de Extracción de Información (heredado)

La extracción de información transforma documentos y texto no estructurados en información estructurada clave mediante un esquema definido. Esto permite que la información insertada en texto no estructurado, archivos PDF, imágenes o tablas se use directamente para análisis, informes o agentes y aplicaciones posteriores.

Entre los ejemplos de extracción de información se incluyen:

  • Extracción de términos y partes legales de contratos.
  • Extracción de elementos de línea y condiciones de pago de facturas.
  • Extraer detalles clave de los registros médicos y las notas.

La extracción de información se basa en la función de IA, ai_extract. La extracción de información tiene una interfaz de usuario visual para personalizar y optimizar la función con un esquema definido para la extracción.

La extracción de información usa el almacenamiento predeterminado para almacenar transformaciones de datos temporales, puntos de control de modelo y metadatos internos que potencian a cada agente. En la eliminación del agente, todos los datos asociados al agente se quitan del almacenamiento predeterminado.

Requisitos

Creación de un agente de extracción de información

Vaya al icono Agentes.Agentes en el panel de navegación izquierdo del área de trabajo. Haga clic en Crear Agente>Extracción de Información.

Paso 1. Seleccione los datos para extraer información.

  1. Seleccione los archivos o datos de los que desea extraer información. Puede cargar archivos, seleccionar un volumen de Catálogo de Unity con tipos de archivo compatibles o una tabla que contenga datos de texto.

  2. Haga clic en Crear agente.

Paso 2. Configuración y refinación del esquema de extracción

Después de que la extracción de información procese los datos, configure y afina los datos que desea extraer de los documentos.

  1. En Configuración, defina el esquema de extracción. Esto se puede hacer de varias maneras:

    • Escriba lenguaje natural que describa la información que desea extraer y haga clic en Generar esquema. La extracción de información genera inteligentemente un esquema JSON con nombres de campo y definiciones. Edite estas descripciones según sea necesario.
    • Como alternativa, haga clic en O, Definir manualmente para definir manualmente el esquema:
      1. Haga clic en Agregar campo.
      2. Escriba el nombre, el tipo y la descripción del campo.
      3. Haga clic en Confirmar.
      4. Repita para cada campo que quiera extraer.
      5. Haga clic en Guardar y ejecutar extracción.
    • También puede hacer clic en JSON para editar el esquema JSON directamente. Haga clic en Aplicar cambios cuando haya finalizado.

    Cada vez que actualice el esquema y presione Guardar y ejecutar la extracción, La extracción de información actualiza el agente de extracción, ejecuta la extracción y muestra los resultados de cada entrada.

  2. A la izquierda, revise el documento analizado y la extracción del agente. Iterar los resultados de la extracción de dos maneras. En primer lugar, proporcionando comentarios de lenguaje natural en una o varias entradas. Esto ajustará de forma inteligente las descripciones una vez que presione Guardar y ejecutar la extracción. En segundo lugar, revisando manualmente las descripciones del esquema. Esto surtirá efecto una vez que presione Guardar y ejecutar la extracción.

  3. Use versiones para comparar o revertir a una configuración anterior. Haga clic en Versiones y, a continuación, haga clic en Comparar para comparar la definición de esquema de una versión anterior con la versión actual. Haga clic en Restaurar para restaurar una versión anterior.

Paso 3. Usa tu agente de extracción

Una vez que esté satisfecho con el rendimiento del agente, use el agente para extraer información.

Haga clic en Usar agente en la esquina superior derecha. Puede elegir:

  • Ejecute una consulta en SQL utilizando el agente para extraer información de todos sus datos. Se abre una consulta SQL que usa ai_extract para extraer información del volumen o tabla mediante el esquema definido. Para obtener más información sobre el uso ai_extract en consultas SQL, vea ai_extract Function.
  • Cree una canalización declarativa de Spark para implementar una canalización ETL que se ejecute en intervalos programados para invocar al agente en nuevos datos. Esto crea canalizaciones declarativas de Lakeflow Spark que actualizan una tabla en tiempo real con los datos extraídos. Puede configurar la programación de la canalización para que se ejecute cuando llegan nuevos datos. Para más información sobre las canalizaciones declarativas de Spark de Lakeflow, consulte Canalizaciones declarativas de Spark de Lakeflow.

Limitaciones

  • Los agentes de extracción de información tienen una longitud máxima de contexto del token de 128k.
  • No se admiten las áreas de trabajo que tienen habilitada la seguridad y el cumplimiento mejorados .
  • No se admiten los tipos de esquema de unión.