Compartilhar via


Extrair dados do PDF

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Este artigo descreve um modelo de solução que você pode usar para extrair dados de uma fonte PDF usando o Azure Data Factory e a IA do Azure para Informação de Documentos.

Sobre o modelo de solução

Este modelo analisa dados de uma fonte de URL PDF usando duas chamadas de IA do Azure para Informação de Documentos. Em seguida, ele transforma a saída em tabelas legíveis em um fluxo de dados e envia os dados para um coletor de armazenamento.

Este modelo contém duas atividades:

  • Atividade da Web para chamar a API do modelo de layout da Inteligência de Documento de IA do Azure
  • Fluxo de dados para transformar dados extraídos de PDF

Este modelo define cinco parâmetros:

  • cognitiveServicesURL é a URL de Inteligência de Documento de IA do Azure ("https://{ponto de extremidade}/formrecognizer/v2.1/layout/analyze"). Substitua {endpoint} pelo valor do ponto de extremidade que você obteve com sua assinatura da IA do Azure para Informação de Documentos. Você precisa substituir o valor padrão pela sua própria URL.
  • FormRecognizerKey é a chave de assinatura da Inteligência de Documento de IA do Azure. Você precisa substituir o valor padrão por sua própria chave de assinatura.
  • PDF_SourceURL é a URL da sua fonte PDF. Você precisa substituir o valor padrão pela sua própria URL.
  • OutputContainer é o nome do caminho do contêiner no que você quer que seus arquivos estejam no repositório de destino. Você precisa substituir o valor padrão pelo seu próprio contêiner.
  • OutputFolder é o nome do caminho da pasta no que você quer que seus arquivos estejam no repositório de destino. Você precisará substituir o valor padrão por um caminho de pasta próprio.

Pré-requisitos

  • O URL e a Chave do ponto de extremidade do recurso da IA do Azure para Informação de Documentos (crie um novo recurso aqui)

Como usar este modelo de solução

  1. Vá para o modelo Extrair dados de PDF. Crie uma Nova conexão com a sua IA do Azure para Informação de Documentos ou escolha uma conexão existente.

    Captura de tela de como criar uma nova conexão ou selecionar uma existente em um menu suspenso para uma conexão de IA do Azure para Informação de Documentos na configuração de modelos.

    Em sua conexão com a IA do Azure para Informação de Documentos, adicione um parâmetro de serviço vinculado. Você precisará usar esse parâmetro de url como sua URL base dinâmica. Você também precisará adicionar um novo Cabeçalho de autenticação nos Cabeçalhos de autenticação. O nome deve ser Ocp-Apim-Subscription-Key e o valor deve ser o valor de chave que você encontra no recurso do Azure.

    Captura de tela da URL de base do serviço vinculado que faz referência ao parâmetro de serviço vinculado e aos cabeçalhos de autenticação para adicionar.

  2. Crie uma nova conexão com seu repositório de armazenamento de destino ou escolha uma conexão existente. O destino escolhido é onde os dados de PDF extraídos são armazenados.

    Captura de tela de como criar uma nova conexão ou selecionar uma conexão existente em um menu suspenso para o seu coletor na configuração de modelos.

  3. Selecione Usar este modelo.

    Captura de tela de como concluir o modelo clicando em Usar este modelo na parte inferior da tela.

  4. Você deverá ver o pipeline a seguir.

    Captura de tela da exibição de pipeline com a vinculação da atividade da Web a uma atividade de fluxo de dados.

  5. Navegue até a atividade de Fluxo de dados e localize Configurações. Aqui você precisa adicionar conteúdo dinâmico para o parâmetro de url do serviço vinculado. Depois de clicar em Adicionar conteúdo dinâmico, o construtor de expressões do pipeline será aberto. Selecione Serviços Cognitivos - Saída da atividades do POST. Em seguida, digite ou copie e cole ".output. ADFWebActivityResponseHeaders['Operation-Location']." Você deverá ver a expressão a seguir no seu construtor de expressões.

    Captura de tela da exibição de pipeline das configurações de atividade do fluxo de dados.

    Captura de tela do construtor de expressões Pipeline com o conteúdo dinâmico do fluxo de dados exibido.

  6. Clique em OK para voltar ao pipeline.

  7. Em seguida, selecione Depurar.

    Captura de tela de como Depurar pipeline usando o botão de depuração na faixa superior da tela.

  8. Insira os valores dos parâmetros, revise os resultados e publique.

    Captura de tela de onde inserir os parâmetros de depuração do pipeline em um painel à direita.

    Captura de tela de resultados que retornam quando o pipeline é disparado.