Partilhar via


Extrair dados de PDF

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Este artigo descreve um modelo de solução que você pode usar para extrair dados de uma fonte PDF usando o Azure Data Factory e o Azure AI Document Intelligence.

Sobre este modelo de solução

Este modelo analisa dados de uma fonte de URL PDF usando duas chamadas do Azure AI Document Intelligence. Em seguida, ele transforma a saída em tabelas legíveis em um fluxo de dados e envia os dados para um coletor de armazenamento.

Este modelo contém duas atividades:

  • Atividade da Web para chamar a API de modelo de leitura pré-criada do Azure AI Document Intelligence
  • Fluxo de dados para transformar dados extraídos de PDF

Este modelo define cinco parâmetros:

  • CognitiveServicesURL é a URL do Azure AI Document Intelligence ("https://{endpoint}/formrecognizer/v2.1/layout/analyze"). Substitua {endpoint} pelo ponto de extremidade que você obteve com sua assinatura do Azure AI Document Intelligence. Você precisa substituir o valor padrão por sua própria URL.
  • CognitiveServicesKey é a chave de assinatura do Azure AI Document Intelligence. Você precisa substituir o valor padrão por sua própria chave de assinatura.
  • PDF_SourceURL é o URL da sua fonte PDF. Você precisa substituir o valor padrão por sua própria URL.
  • OutputContainer é o nome do caminho do contêiner onde você deseja que seus arquivos estejam no armazenamento de destino. Você precisa substituir o valor padrão por seu próprio contêiner.
  • OutputFolder é o nome do caminho da pasta onde você deseja que seus arquivos estejam no armazenamento de destino. Você precisa substituir o valor padrão pelo seu próprio caminho de pasta.

Pré-requisitos

  • Azure AI Document Intelligence Resource Endpoint URL and Key (crie um novo recurso aqui)

Como usar este modelo de solução

  1. Vá para o modelo Extrair dados do PDF. Crie uma nova conexão com seu recurso do Azure AI Document Intelligence ou escolha uma conexão existente.

    Captura de tela de como criar uma nova conexão ou selecionar uma conexão existente em um menu suspenso para uma conexão do Azure AI Document Intelligence na configuração do modelo.

    Em sua conexão com o Azure AI Document Intelligence, certifique-se de adicionar um parâmetro de serviço vinculado. Você precisará usar esse parâmetro url como sua URL base dinâmica. Você também precisará adicionar um novo cabeçalho de autenticação em cabeçalhos de autenticação. O nome deve ser Ocp-Apim-Subscription-Key e o valor deve ser o valor da chave que você encontrar do seu Recurso do Azure.

    Captura de tela da URL base do serviço vinculado que faz referência ao parâmetro de serviço vinculado e aos cabeçalhos de autenticação a serem adicionados.

  2. Crie uma nova conexão com seu armazenamento de armazenamento de destino ou escolha uma conexão existente. O destino escolhido é onde os dados PDF extraídos são armazenados.

    Captura de tela de como criar uma nova conexão ou selecionar conexão existente em um menu suspenso para o coletor na configuração do modelo.

  3. Selecione Utilizar este modelo.

    Captura de tela de como concluir o modelo clicando em usar este modelo na parte inferior da tela.

  4. Você deve ver o seguinte pipeline.

    Captura de ecrã da vista de pipeline com atividade Web ligada a uma atividade de fluxo de dados.

  5. Navegue até a atividade Fluxo de dados e localize Configurações. Aqui você precisa adicionar conteúdo dinâmico para o parâmetro url do serviço vinculado. Depois de clicar em Adicionar conteúdo dinâmico, o construtor de expressões Pipeline será aberto. Selecione Serviços Cognitivos - Saída da atividade POST. Em seguida, digite ou copie e cole ".output. ADFWebActivityResponseHeaders['Operation-Location']." Você deve ver a seguinte expressão em seu construtor de expressões.

    Captura de tela da exibição de pipeline das configurações de atividade de fluxo de dados.

    Captura de tela do construtor de expressões Pipeline com o conteúdo dinâmico de fluxo de dados exibido.

  6. Clique em OK para retornar ao pipeline.

  7. Em seguida, selecione Depurar.

    Captura de tela de como depurar pipeline usando o botão de depuração no banner superior da tela.

  8. Insira valores de parâmetro, revise os resultados e publique.

    Captura de tela de onde inserir parâmetros de depuração de pipeline em um painel à direita.

    Captura de tela dos resultados que retornam quando o pipeline é acionado.