적용 대상: Azure Data Factory
Azure Synapse Analytics
팁
기업용 올인원 분석 솔루션인 Microsoft Fabric의 Data Factory를 사용해 보세요. Microsoft Fabric은 데이터 이동부터 데이터 과학, 실시간 분석, 비즈니스 인텔리전스 및 보고에 이르기까지 모든 것을 다룹니다. 무료로 새 평가판을 시작하는 방법을 알아봅니다!
이 문서에서는 Azure Data Factory 및 Azure AI Document Intelligence를 사용하여 PDF 원본에서 데이터를 추출하는 데 사용할 수 있는 솔루션 템플릿에 대해 설명합니다.
이 솔루션 템플릿 정보
이 템플릿은 두 개의 Azure AI Document Intelligence 호출을 사용하여 PDF URL 원본의 데이터를 분석합니다. 그런 다음 출력을 데이터 흐름의 읽을 수 있는 테이블로 변환하고 데이터를 스토리지 싱크로 출력합니다.
이 템플릿에는 두 가지 작업이 포함되어 있습니다.
- Azure AI Document Intelligence의 미리 빌드된 읽기 모델 API를 호출하는 웹 작업
- PDF에서 추출된 데이터를 변환하는 데이터 흐름
이 템플릿은 다음 5개의 매개 변수를 정의합니다.
- CognitiveServicesURL은 Azure AI Document Intelligence URL(“https://{endpoint}/formrecognizer/v2.1/layout/analyze”)입니다. 청구서 URL을 Azure AI Document Intelligence 구독으로 가져오는 엔드포인트로 바꿉니다. 기본값을 고유의 URL로 바꿔야 합니다.
- CognitiveServicesKey는 Azure AI Document Intelligence 구독 키입니다. 기본값을 고유의 구독 키로 바꿔야 합니다.
- PDF_SourceURL은 PDF 원본의 URL입니다. 기본값을 고유의 URL로 바꿔야 합니다.
- OutputContainer는 대상 저장소에서 파일을 두고자 하는 컨테이너 경로의 이름입니다. 기본값을 자체 컨테이너로 바꿔야 합니다.
- outputFolder는 대상 저장소에서 파일을 두고자 하는 폴더 경로의 이름입니다. 기본값을 고유한 폴더 경로로 바꾸어야 합니다.
필수 조건
- Azure AI Document Intelligence 리소스 엔드포인트 URL 및 키(여기서 새 리소스 만들기)
이 솔루션 템플릿을 사용하는 방법
PDF에서 데이터 추출 템플릿으로 이동합니다. Azure AI Document Intelligence 리소스에 대한 새 연결을 만들거나 기존 연결을 선택합니다.
Azure AI Document Intelligence에 연결할 때 연결된 서비스 매개 변수를 추가해야 합니다. 이 url 매개 변수를 동적 기본 URL로 사용해야 합니다. 또한 Auth 헤더 아래에 새 Auth 헤더를 추가해야 합니다. 이름은 Ocp-Apim-Subscription-Key여야 하며 값은 Azure 리소스에서 찾은 키 값이어야 합니다.
대상 스토리지 저장소에 대한 새 연결을 만들거나 기존 연결을 선택합니다. 선택한 대상은 추출된 PDF 데이터가 저장되는 위치입니다.
이 템플릿 사용을 선택합니다.
다음 파이프라인이 표시되어야 합니다.
데이터 흐름 작업으로 이동하고 설정을 찾습니다. 여기에서 연결된 서비스 url 매개 변수에 대한 동적 콘텐츠를 추가해야 합니다. 동적 콘텐츠 추가를 클릭하면 파이프라인 식 작성기가 열립니다. Cognitive Services - POST 작업 출력을 선택합니다. 그런 다음 “.output.ADFWebActivityResponseHeaders['Operation-Location']”을 입력하거나 복사하여 붙여 넣습니다. 식 작성기에서 다음 식이 표시됩니다.
확인을 클릭하여 파이프라인으로 돌아갑니다.
다음으로, 디버그를 선택합니다.
매개 변수 값을 입력하고 결과를 검토하고 게시합니다.