AI 문서 인텔리전스를 사용하여 문서 처리 자동화

Azure AI Search
Azure AI 서비스
Azure Cosmos DB
Azure AI 문서 인텔리전스
Azure Machine Learning

이 문서에서는 자동화된 문서 처리 파이프라인을 빌드하기 위한 확장성 있고 안전한 솔루션을 간략하게 설명합니다. 이 솔루션은 AI 문서 인텔리전스를 사용하여 데이터의 구조적 추출을 지원합니다. NLP(자연어 처리) 모델 및 사용자 지정 모델은 데이터를 보강합니다.

아키텍처

문서 처리의 추출, 보강 및 분석 단계를 통해 데이터가 흐르는 방식을 보여 주는 아키텍처 다이어그램

이 아키텍처의 Visio 파일을 다운로드합니다.

데이터 흐름

다음 섹션에서는 데이터 추출 프로세스의 다양한 단계를 설명합니다.

데이터 수집 및 추출

  1. 문서는 웹 애플리케이션의 프런트 엔드에 있는 브라우저를 통해 수집됩니다. 문서에 이미지가 포함되거나 PDF 형식입니다. Azure App Service는 백 엔드 애플리케이션을 호스트합니다. 이 솔루션은 Azure Application Gateway를 통해 문서를 해당 애플리케이션으로 라우팅합니다. 이 부하 분산 장치는 일반적인 공격 및 취약성으로부터 애플리케이션을 보호하는 데 도움이 되는 Azure Web Application Firewall과 함께 실행됩니다.

  2. 백 엔드 애플리케이션은 다음 모델 중 하나를 사용하는 Azure AI Document Intelligence REST API 엔드포인트에 요청을 게시합니다.

    Azure AI Document Intelligence의 응답에는 원시 OCR(광학 문자 인식) 데이터 및 구조적 추출이 포함됩니다. 또한 Azure AI Document Intelligence는 추출된 데이터에 [신뢰도 값][Form Recognizer의 특성 및 제한 사항 - 고객 평가]를 할당합니다.

  3. App Service 백 엔드 애플리케이션은 신뢰도 값을 통해 추출 품질을 확인합니다. 품질이 지정된 임계값 미만인 경우 앱은 수동 확인을 위해 데이터에 플래그를 지정합니다. 추출 품질이 요구 사항을 충족하는 경우 데이터는 다운스트림 애플리케이션 사용을 위해 Azure Cosmos DB로 들어갑니다. 앱은 프런트 엔드 브라우저에 결과를 반환할 수도 있습니다.

  4. 다른 원본은 이미지, PDF 파일 및 기타 문서를 제공합니다. 원본에는 이메일 첨부 파일 및 FTP(파일 전송 프로토콜) 서버가 포함됩니다. Azure Data FactoryAzCopy와 같은 도구는 이러한 파일을 Azure Blob Storage에 전송합니다. Azure Logic Apps는 이메일에서 첨부 파일을 자동으로 추출하기 위한 파이프라인을 제공합니다.

  5. 문서가 Blob Storage에 들어가면 Azure 함수가 트리거됩니다. 다음 함수는

    • 관련 Azure AI Document Intelligence 미리 빌드된 엔드포인트에 요청을 게시합니다.
    • 응답을 수신합니다.
    • 추출 품질을 평가합니다.
  6. 추출된 데이터는 Azure Cosmos DB에 들어갑니다.

데이터 보강

데이터 보강에 사용되는 파이프라인은 사용 사례에 따라 달라집니다.

  1. 데이터 보강에는 다음 NLP 기능이 포함될 수 있습니다.

    • NER(명명된 엔터티 인식)
    • 개인 정보, 핵심 문구, 건강 정보 및 기타 do기본 종속 엔터티 추출

    데이터를 보강하기 위해 웹앱은 다음을 수행합니다.

  2. 사용자 지정 모델은 데이터에 대한 사기 탐지, 위험 분석 및 기타 유형의 분석을 수행합니다.

    • Azure Machine Learning Service는 사용자 지정 모델을 학습시키고 배포합니다.
    • 추출된 데이터는 Azure Cosmos DB에서 검색됩니다.
    • 이 모델은 데이터에서 인사이트를 파생합니다.

    이러한 가능성은 다음 추론에 존재합니다.

  3. 보강된 데이터는 Azure Cosmos DB에 들어갑니다.

분석 및 시각화

  1. 애플리케이션은 원시 OCR, Azure AI Document Intelligence 엔드포인트의 구조적 데이터 및 NLP의 보강된 데이터를 사용합니다.

    • Power BI는 데이터를 표시하고 이에 대한 보고서를 제공합니다.
    • 데이터는 Azure Cognitive Search 원본으로 작동합니다.
    • 기타 애플리케이션은 해당 데이터를 사용합니다.

구성 요소

  • App Service는 Azure에서 제공하는 PaaS(Platform as a Service)입니다. App Service를 사용하여 수동 또는 자동으로 스케일 인하거나 스케일 아웃할 수 있는 웹 애플리케이션을 호스트할 수 있습니다. 이 서비스는 ASP.NET, ASP.NET Core, Java, Ruby, Node.js, PHP 및 Python과 같은 다양한 언어 및 프레임워크를 지원합니다.

  • Application Gateway는 웹 애플리케이션에 대한 트래픽을 관리하는 계층 7(애플리케이션 계층) 부하 분산 장치입니다. Application Gateway를 Azure Web Application Firewall과 함께 실행하여 일반적인 악용 및 취약성으로부터 웹 애플리케이션을 보호할 수 있습니다.

  • Azure Functions는 애플리케이션을 빌드하는 데 사용할 수 있는 서버리스 컴퓨팅 플랫폼입니다. Functions를 사용하면 트리거 및 바인딩을 사용하여 Blob Storage 및 Azure Cosmos DB와 같은 Azure 서비스의 변경 내용에 대응할 수 있습니다. Functions는 예약된 작업을 실행하고, 실시간으로 데이터를 처리하며, 메시징 큐를 처리할 수 있습니다.

  • Azure AI Document Intelligence 는 Azure AI 서비스의 일부입니다. Azure AI Document Intelligence는 청구서, 문서, 영수증, ID 카드 및 비즈니스 카드 데이터를 추출하기 위해 미리 빌드된 엔드포인트 컬렉션을 제공합니다. 이 서비스는 추출된 데이터의 각 부분을 키-값 쌍으로 필드에 매핑합니다. Azure AI Document Intelligence는 테이블 콘텐츠 및 구조도 추출합니다. 출력 형식은 JSON입니다.

  • Azure Storage는 개체, 파일, 디스크, 큐 및 테이블 스토리지를 포함하는 클라우드 스토리지 솔루션입니다.

  • Blob Storage는 Azure Storage에 포함된 서비스입니다. Blob Storage는 대량의 비정형 데이터에 최적화된 클라우드 개체 스토리지를 제공합니다.

  • Azure Data Lake Storage는 고성능 분석 워크로드를 위한 확장성 있고 안전한 데이터 레이크입니다. 데이터는 일반적으로 다른 유형의 여러 소스에서 제공되며 구조화, 반구조화 또는 구조화되지 않을 수 있습니다. Data Lake Storage Gen2는 Blob Storage와 Azure Data Lake Storage Gen1의 기능을 결합합니다. 이 차세대 Data Lake Storage Gen2 솔루션은 파일 시스템 의미 체계, 파일 수준 보안 및 크기를 제공합니다. Blob Storage의 계층화된 스토리지, 고가용성 및 재해 복구 기능도 제공합니다.

  • Azure Cosmos DB는 응답성이 뛰어나며 확장성 있는 완전 관리형 NoSQL 데이터베이스입니다. Azure Cosmos DB는 많은 데이터베이스, 언어 및 플랫폼에 대해 엔터프라이즈급 보안 및 지원 API를 제공합니다. 예를 들어 SQL, MongoDB, Gremlin, Table 및 Apache Cassandra가 있습니다. Azure Cosmos DB의 서버리스 자동 크기 조정 옵션은 애플리케이션의 용량 요구를 효율적으로 관리합니다.

  • AI Language 는 텍스트를 이해하고 분석하는 데 사용할 수 있는 많은 NLP 서비스를 제공합니다. 이러한 서비스 중 일부는 사용자 지정 NER, 사용자 지정 텍스트 분류, 대화 언어 이해 및 질문 답변과 같이 사용자 지정할 수 있습니다.

  • Machine Learning은 대규모 기계 학습 모델의 개발 및 배포를 관리하기 위한 개방형 플랫폼입니다. Machine Learning은 데이터 과학자 또는 비즈니스 분석가와 같은 다양한 사용자의 기술 수준을 충족합니다. 이 플랫폼은 일반적으로 사용되는 개방형 프레임워크를 지원하고 자동화된 기능화 및 알고리즘 선택을 제공합니다. 다양한 대상에 모델을 배포할 수 있습니다. 예를 들어 AKS, 대규모 실시간 추론을 위한 웹 서비스로 Azure Container Instances, 일괄 처리 채점을 위한 Azure Virtual Machine이 있습니다. Machine Learning의 관리 엔드포인트는 실시간 또는 일괄 처리 모델 추론에 필요한 인프라를 추상화합니다.

  • AKS는 컨테이너화된 애플리케이션을 쉽게 배포하고 관리할 수 있는 완전 관리형 Kubernetes 서비스입니다. AKS는 서버리스 Kubernetes 기술, CI/CD(연속 통합 및 지속적인 업데이트) 환경, 엔터프라이즈급 보안 및 거버넌스를 제공합니다.

  • Power BI는 분석 정보를 표시하는 소프트웨어 서비스 및 앱의 컬렉션입니다.

  • Azure Cognitive Search는 검색을 위한 인프라, API 및 도구를 제공하는 클라우드 검색 서비스입니다. Azure Cognitive Search를 사용하면 웹, 모바일 및 엔터프라이즈 애플리케이션에서 비공개, 이기종 콘텐츠에 대한 검색 환경을 구축할 수 있습니다.

대안

시나리오 정보

문서 처리 및 데이터 추출 자동화는 모든 산업 분야의 조직에서 필수적인 작업입니다. AI는 이 프로세스에서 입증된 솔루션 중 하나이지만 100% 정확도를 달성하는 것은 먼 현실입니다. 그러나 수동 프로세스 대신 AI를 디지털화에 사용하면 수동 작업을 최대 90%까지 줄일 수 있습니다.

OCR(광학 문자 인식)은 조직에서 사용하는 대부분의 문서를 구성하는 이미지 및 PDF 파일에서 콘텐츠를 추출할 수 있습니다. 이 프로세스에서는 키워드 검색 및 정규식 일치를 사용합니다. 이러한 메커니즘은 전체 텍스트에서 관련 데이터를 추출한 다음 구조화된 출력을 만듭니다. 그러나 이러한 접근 방식에는 단점이 있습니다. 변경되는 문서 형식에 맞게 추출 후 프로세스를 수정하려면 광범위한 유지 관리 작업이 필요합니다.

잠재적인 사용 사례

이 솔루션은 금융 업계에 이상적입니다. 또한 자동차, 여행 및 호스피탈리티 산업에 적용할 수 있습니다. 다음 작업은 이 솔루션의 이점을 얻을 수 있습니다.

  • 비용 보고서 승인
  • 보험 청구 및 재무 감사에 대한 청구서, 영수증 및 계산서 처리
  • 청구서, 퇴원 요약 및 기타 문서를 포함하는 클레임 처리
  • SoW(작업 명세서) 승인 자동화
  • 여권 또는 운전 면허증과 마찬가지로 확인 목적으로 ID 추출 자동화
  • 방문자 관리 시스템에 명함 데이터를 입력하는 프로세스 자동화
  • 사기 탐지를 위한 구매 패턴 식별 및 재무 문서 복제

고려 사항

이러한 고려 사항은 워크로드의 품질을 향상시키는 데 사용할 수 있는 일단의 지침 원칙인 Azure Well-Architected Framework의 핵심 요소를 구현합니다. 자세한 내용은 Microsoft Azure Well-Architected Framework를 참조하세요.

이 솔루션을 배포할 때에는 다음 사항에 유의하세요.

가용성

아키텍처의 가용성은 솔루션을 구성하는 Azure 서비스에 따라 달라집니다.

  • Azure AI Document Intelligence는 Azure AI 서비스의 일부입니다. 이 서비스의 가용성 보장은 Azure AI 서비스에 대한 SLA(서비스 수준 계약)를 참조 하세요.

  • AI 언어는 Azure AI 서비스의 일부입니다. 이러한 서비스에 대한 가용성 보장은 Azure AI 서비스에 대한 SLA를 참조 하세요.

  • Azure Cosmos DB는 각 지역 내에서 4개의 데이터 복제본을 유지 관리하고 지역 간에 데이터를 복제하여 고가용성을 제공합니다. 정확한 가용성 보장은 단일 지역 내에서 복제할지 여러 지역에 복제하는지에 따라 달라집니다. 자세한 내용은 Azure Cosmos DB의 고가용성 달성을 참조하세요.

  • Blob Storage는 고가용성을 보장하는 데 도움이 되는 중복 옵션을 제공합니다. 이러한 접근 방식을 사용하여 다음의 주 지역에서 데이터를 세 번 복제할 수 있습니다.

    • LRS(로컬 중복 스토리지)에 대한 단일 물리적 위치에서
    • 서로 다른 가용성 매개 변수를 사용하는 세 가지 가용성 영역에서 자세한 내용은 내구성 및 가용성 매개 변수를 참조하세요. 이 옵션은 고가용성이 필요한 애플리케이션에 가장 적합합니다.
  • 솔루션의 다른 Azure 서비스의 가용성 보장은 다음 리소스를 참조하세요.

확장성

보안

우수한 보안은 중요한 데이터 및 시스템에 대한 고의적인 공격과 악용을 방어합니다. 자세한 내용은 보안 요소의 개요를 참조하세요.

  • Azure Web Application Firewall는 일반적인 취약성으로부터 애플리케이션을 보호하는 데 도움이 됩니다. 이 Application Gateway 옵션은 OWASP(Open Web Application Security Project) 규칙을 사용하여 사이트 간 스크립팅, 세션 하이재킹 및 기타 악용과 같은 공격을 방지합니다.

  • App Service 보안을 향상하려면 다음 옵션을 고려합니다.

    • App Service는 가상 네트워크 통합을 통해 Azure Virtual Network 리소스에 액세스할 수 있습니다.
    • 전용 가상 네트워크에 배포하는 App Service Environment에서 App Service를 사용할 수 있습니다. 이러한 접근 방식은 가상 네트워크의 App Service 및 기타 리소스 간의 연결을 격리하는 데 도움이 됩니다.

    자세한 내용은 Azure App Service의 보안을 참조하세요.

  • Blob Storage 및 Azure Cosmos DB는 미사용 데이터를 암호화합니다. 서비스 엔드포인트 또는 프라이빗 엔드포인트를 사용하여 이러한 서비스를 보호할 수 있습니다.

  • Azure Functions는 가상 네트워크 통합을 지원합니다. 함수 앱은 이러한 기능을 사용하여 가상 네트워크 내의 리소스에 액세스할 수 있습니다. 자세한 내용은 Azure Functions 네트워킹 옵션을 참조하세요.

  • 특정 가상 네트워크 또는 프라이빗 엔드포인트에서 액세스하기 위해 Azure AI 문서 인텔리전스 및 AI 언어를 구성할 수 있습니다. 이러한 서비스는 미사용 데이터를 암호화합니다. 구독 키, 토큰 또는 Microsoft Entra ID를 사용하여 이러한 서비스에 대한 요청을 인증할 수 있습니다. 자세한 내용은 Azure AI 서비스에 대한 요청 인증을 참조 하세요.

  • Machine Learning은 다음과 같은 다양한 수준의 보안을 제공합니다.

복원력

  • 솔루션의 복원력은 App Service, Functions, Azure Cosmos DB, Storage 및 Application Gateway와 같은 개별 서비스의 실패 모드에 따라 달라집니다. 자세한 내용은 특정 Azure 서비스에 대한 복원력 검사 목록을 참조하세요.

  • Azure AI Document Intelligence를 복원력 있게 만들 수 있습니다. 다른 지역으로 장애 조치(failover)되도록 디자인하고 워크로드를 둘 이상의 지역으로 분할할 수 있습니다. 자세한 내용은 Azure AI Document Intelligence 모델 백업 및 복구를 참조하세요.

  • Azure Machine Learning Service는 다양한 Azure 서비스를 활용합니다. 복원력을 제공하려면 각 서비스를 복원력 있도록 구성해야 합니다. 자세한 내용은 비즈니스 연속성 및 재해 복구 장애 조치(failover)를 참조하세요.

비용 최적화

비용 최적화는 불필요한 비용을 줄이고 운영 효율성을 높이는 방법을 찾는 것입니다. 자세한 내용은 비용 최적화 핵심 요소 개요를 참조하세요.

이 솔루션을 구현하는 비용은 사용하는 구성 요소와 각 구성 요소에 대해 선택하는 옵션에 따라 달라집니다.

요소가 많으면 각 구성 요소의 가격에 영향을 미칠 수 있습니다.

  • 처리하는 문서 수
  • 애플리케이션이 수신하는 동시 요청 수
  • 처리 후 저장하는 데이터의 크기
  • 배포 지역

이러한 리소스는 구성 요소 가격 책정 옵션에 대한 정보를 제공합니다.

각 구성 요소에 대한 가격 책정 계층을 결정한 후 Azure 가격 책정 계산기를 사용하여 솔루션 비용을 예측합니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

보안 주체 작성자:

다음 단계