Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
SE APLICA A: Azure Data Factory
Azure Synapse Analytics
Sugerencia
Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.
Este artículo describe una plantilla de solución que puede utilizar para extraer datos de una fuente PDF utilizando Azure Data Factory y Azure AI Document Intelligence.
Acerca de esta plantilla de solución
Esta plantilla analiza los datos de una fuente de URL de PDF utilizando dos llamadas de Azure AI Document Intelligence. A continuación, transforma la salida en tablas legibles en un flujo de datos y genera los datos en un receptor de almacenamiento.
La plantilla contiene dos actividades:
- Web Activity para llamar a la API del modelo de lectura precompilado de Documento de inteligencia de Azure AI
- Flujo de datos para transformar los datos extraídos de PDF
La plantilla define cinco parámetros:
- CognitiveServicesURL es la dirección URL de Documento de inteligencia de Azure AI ("https://{endpoint}/formrecognizer/v2.1/layout/analyze"). Sustituya {endpoint} por el endpoint que obtuvo con su suscripción a Azure AI Document Intelligence. Debe reemplazar el valor predeterminado por su propia dirección URL.
- CognitiveServicesKey es la clave de suscripción de Documento de inteligencia de Azure AI. Debe reemplazar el valor predeterminado por su propia clave de suscripción.
- PDF_SourceURL es la dirección URL del origen de PDF. Debe reemplazar el valor predeterminado por su propia dirección URL.
- OutputContainer es el nombre de la ruta de acceso del contenedor en el que quiere que estén los archivos en el almacén de destino. Debe reemplazar el valor predeterminado por su propio contenedor.
- OutputFolder es el nombre de la ruta de acceso de la carpeta en la que quiere que estén los archivos en el almacén de destino. Debe reemplazar el valor predeterminado por su propia ruta de acceso a la carpeta.
Requisitos previos
- Clave y dirección URL del punto de conexión del recurso de los servicios de Azure AI (cree un nuevo recurso aquí)
Uso de esta plantilla de solución
Vaya a la plantilla Extraer datos de PDF. Cree una Nueva conexión a su recurso Azure AI Document Intelligence o elija una conexión existente.
En su conexión a Azure AI Document Intelligence, asegúrese de añadir un Parámetro de servicio vinculado. Tendrá que usar este parámetro url como su URL base dinámica. También deberá agregar un nuevo encabezado de autenticación bajo los encabezados de autenticación. El nombre debe ser Ocp-Apim-Subscription-Key y el valor debe ser el valor de clave que encuentre en el recurso de Azure.
Cree una nueva conexión al almacenamiento de destino o elija una conexión existente. El destino elegido es donde se almacenan los datos PDF extraídos.
Seleccione Usar esta plantilla.
Debería ver la canalización siguiente:
Vaya a la actividad Flujo de datos y busque Configuración. Aquí debe agregar contenido dinámico al parámetro url del servicio vinculado. Después de hacer clic en Agregar contenido dinámico, se abrirá el generador de expresiones de canalización. Seleccione Salida de actividad POST de Cognitive Services. A continuación, escriba o copie y pegue ".output.ADFWebActivityResponseHeaders['Operation-Location']." Debería ver la expresión siguiente en el generador de expresiones.
Haga clic en Aceptar para volver a la canalización.
Seleccione Depurar.
Escriba los valores de los parámetros, revise los resultados y publique.