Compartir a través de


Extracción de datos de PDF

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Este artículo describe una plantilla de solución que puede utilizar para extraer datos de una fuente PDF utilizando Azure Data Factory y Azure AI Document Intelligence.

Acerca de esta plantilla de solución

Esta plantilla analiza los datos de una fuente de URL de PDF utilizando dos llamadas de Azure AI Document Intelligence. A continuación, transforma la salida en tablas legibles en un flujo de datos y genera los datos en un receptor de almacenamiento.

La plantilla contiene dos actividades:

  • Web Activity para llamar a la API del modelo de lectura precompilado de Documento de inteligencia de Azure AI
  • Flujo de datos para transformar los datos extraídos de PDF

La plantilla define cinco parámetros:

  • CognitiveServicesURL es la dirección URL de Documento de inteligencia de Azure AI ("https://{endpoint}/formrecognizer/v2.1/layout/analyze"). Sustituya {endpoint} por el endpoint que obtuvo con su suscripción a Azure AI Document Intelligence. Debe reemplazar el valor predeterminado por su propia dirección URL.
  • CognitiveServicesKey es la clave de suscripción de Documento de inteligencia de Azure AI. Debe reemplazar el valor predeterminado por su propia clave de suscripción.
  • PDF_SourceURL es la dirección URL del origen de PDF. Debe reemplazar el valor predeterminado por su propia dirección URL.
  • OutputContainer es el nombre de la ruta de acceso del contenedor en el que quiere que estén los archivos en el almacén de destino. Debe reemplazar el valor predeterminado por su propio contenedor.
  • OutputFolder es el nombre de la ruta de acceso de la carpeta en la que quiere que estén los archivos en el almacén de destino. Debe reemplazar el valor predeterminado por su propia ruta de acceso a la carpeta.

Requisitos previos

  • Clave y dirección URL del punto de conexión del recurso de los servicios de Azure AI (cree un nuevo recurso aquí)

Uso de esta plantilla de solución

  1. Vaya a la plantilla Extraer datos de PDF. Cree una Nueva conexión a su recurso Azure AI Document Intelligence o elija una conexión existente.

    Recorte de pantalla de cómo crear una nueva conexión o seleccionar una conexión existente desde un menú desplegable a una conexión de Documento de inteligencia de Azure AI en la configuración de la plantilla.

    En su conexión a Azure AI Document Intelligence, asegúrese de añadir un Parámetro de servicio vinculado. Tendrá que usar este parámetro url como su URL base dinámica. También deberá agregar un nuevo encabezado de autenticación bajo los encabezados de autenticación. El nombre debe ser Ocp-Apim-Subscription-Key y el valor debe ser el valor de clave que encuentre en el recurso de Azure.

    Recorte de pantalla de la dirección URL base del servicio vinculado que hace referencia al parámetro del servicio vinculado y a los encabezados de autenticación que hay que agregar.

  2. Cree una nueva conexión al almacenamiento de destino o elija una conexión existente. El destino elegido es donde se almacenan los datos PDF extraídos.

    Recorte de pantalla que muestra cómo crear una nueva conexión o seleccionar una que ya exista entre un menú desplegable y el receptor en la configuración de plantillas.

  3. Seleccione Usar esta plantilla.

    Captura de pantalla que muestra cómo completar la plantilla haciendo clic en Usar esta plantilla en la parte inferior de la pantalla.

  4. Debería ver la canalización siguiente:

    Captura de pantalla de la vista de canalización con la vinculación de actividad web a una actividad de flujo de datos.

  5. Vaya a la actividad Flujo de datos y busque Configuración. Aquí debe agregar contenido dinámico al parámetro url del servicio vinculado. Después de hacer clic en Agregar contenido dinámico, se abrirá el generador de expresiones de canalización. Seleccione Salida de actividad POST de Cognitive Services. A continuación, escriba o copie y pegue ".output.ADFWebActivityResponseHeaders['Operation-Location']." Debería ver la expresión siguiente en el generador de expresiones.

    Recorte de pantalla de la vista de canalización de la configuración de la actividad de flujo de datos.

    Recorte de pantalla del constructor de expresiones de canalización con el contenido dinámico de flujo de datos mostrado.

  6. Haga clic en Aceptar para volver a la canalización.

  7. Seleccione Depurar.

    Captura de pantalla que muestra cómo depurar una canalización con el botón Depurar, que está en el banner de la parte superior de la pantalla.

  8. Escriba los valores de los parámetros, revise los resultados y publique.

    Recorte de pantalla en el que se muestra dónde hay que escribir los parámetros de depuración de una canalización, en un panel a la derecha.

    Captura de pantalla que muestra los resultados devueltos después de desencadenar la canalización.