다음을 통해 공유


PDF에서 데이터 추출

적용 대상: Azure Data Factory Azure Synapse Analytics

기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!

이 문서에서는 Azure Data Factory 및 Azure AI Document Intelligence를 사용하여 PDF 원본에서 데이터를 추출하는 데 사용할 수 있는 솔루션 템플릿에 대해 설명합니다.

이 솔루션 템플릿 정보

이 템플릿은 두 개의 Azure AI Document Intelligence 호출을 사용하여 PDF URL 원본의 데이터를 분석합니다. 그런 다음 출력을 데이터 흐름의 읽을 수 있는 테이블로 변환하고 데이터를 스토리지 싱크로 출력합니다.

이 템플릿에는 두 가지 작업이 포함되어 있습니다.

  • Azure AI Document Intelligence의 미리 빌드된 읽기 모델 API를 호출하는 웹 작업
  • PDF에서 추출된 데이터를 변환하는 데이터 흐름

이 템플릿은 다음 5개의 매개 변수를 정의합니다.

  • CognitiveServicesURL은 Azure AI Document Intelligence URL(“https://{endpoint}/formrecognizer/v2.1/layout/analyze”)입니다. 청구서 URL을 Azure AI Document Intelligence 구독으로 가져오는 엔드포인트로 바꿉니다. 기본값을 고유의 URL로 바꿔야 합니다.
  • CognitiveServicesKey는 Azure AI Document Intelligence 구독 키입니다. 기본값을 고유의 구독 키로 바꿔야 합니다.
  • PDF_SourceURL은 PDF 원본의 URL입니다. 기본값을 고유의 URL로 바꿔야 합니다.
  • OutputContainer는 대상 저장소에서 파일을 두고자 하는 컨테이너 경로의 이름입니다. 기본값을 자체 컨테이너로 바꿔야 합니다.
  • outputFolder는 대상 저장소에서 파일을 두고자 하는 폴더 경로의 이름입니다. 기본값을 고유한 폴더 경로로 바꾸어야 합니다.

필수 조건

  • Azure AI Document Intelligence 리소스 엔드포인트 URL 및 키(여기서 새 리소스 만들기)

이 솔루션 템플릿을 사용하는 방법

  1. PDF에서 데이터 추출 템플릿으로 이동합니다. Azure AI Document Intelligence 리소스에 대한 연결을 만들거나 기존 연결을 선택합니다.

    템플릿 설정에서 새 연결을 만들거나 드롭다운 메뉴에서 Azure AI Document Intelligence 연결로의 기존 연결을 선택하는 방법의 스크린샷

    Azure AI Document Intelligence에 연결할 때 연결된 서비스 매개 변수를 추가해야 합니다. 이 url 매개 변수를 동적 기본 URL로 사용해야 합니다. 또한 Auth 헤더 아래에 새 Auth 헤더를 추가해야 합니다. 이름은 Ocp-Apim-Subscription-Key여야 하며 값은 Azure 리소스에서 찾은 키 값이어야 합니다.

    추가할 연결된 서비스 매개 변수 및 인증 헤더를 참조하는 연결된 서비스 기본 URL의 스크린샷

  2. 대상 스토리지 저장소에 대한 연결을 만들거나 기존 연결을 선택합니다. 선택한 대상은 추출된 PDF 데이터가 저장되는 위치입니다.

    템플릿 설정에서 드롭다운 메뉴에서 싱크로 새 연결을 만들거나 기존 연결을 선택하는 방법의 스크린샷.

  3. 이 템플릿 사용을 선택합니다.

    화면 아래쪽에서 이 템플릿 사용을 클릭하여 템플릿을 완료하는 방법의 스크린샷

  4. 다음 파이프라인이 표시되어야 합니다.

    데이터 흐름 활동에 연결하는 웹 작업이 있는 파이프라인 뷰의 스크린샷

  5. 데이터 흐름 작업으로 이동하고 설정을 찾습니다. 여기에서 연결된 서비스 url 매개 변수에 대한 동적 콘텐츠를 추가해야 합니다. 동적 콘텐츠 추가를 클릭하면 파이프라인 식 작성기가 열립니다. Cognitive Services - POST 작업 출력을 선택합니다. 그런 다음 “.output.ADFWebActivityResponseHeaders['Operation-Location']”을 입력하거나 복사하여 붙여 넣습니다. 식 작성기에서 다음 식이 표시됩니다.

    데이터 흐름 활동 설정의 파이프라인 보기 스크린샷

    데이터 흐름 동적 콘텐츠가 표시된 파이프라인 식 작성기의 스크린샷.

  6. 확인을 클릭하여 파이프라인으로 돌아갑니다.

  7. 다음으로, 디버그를 선택합니다.

    화면 위쪽 배너의 디버그 단추를 사용하여 파이프라인을 디버그하는 방법의 스크린샷

  8. 매개 변수 값을 입력하고 결과를 검토하고 게시합니다.

    오른쪽 패널에서 파이프라인 디버그 매개 변수를 입력할 위치의 스크린샷.

    파이프라인이 트리거될 때 반환되는 결과의 스크린샷