Azure Form Recognizer란?

이 문서는 Form Recognizer v3.0 확인 표시Form Recognizer v3.0에 적용됩니다. 이전 버전:Form Recognizer v2.1

Azure Form Recognizer 개발자가 지능형 문서 처리 솔루션을 빌드할 수 있는 클라우드 기반 Azure Applied AI Service입니다. Form Recognizer 기계 학습 기반 OCR(광학 문자 인식) 및 문서 이해 기술을 적용하여 문서에서 텍스트, 테이블, 구조 및 키-값 쌍을 추출합니다. 또한 사용자 지정 모델에 레이블을 지정하고 학습하여 구조적, 반구조적 및 비구조적 문서에서 데이터 추출을 자동화할 수 있습니다. 각 모델에 대한 자세한 내용은 개념 문서를 참조 하세요.

모델 형식 모델 이름
문서 분석 모델 OCR 모델
읽기 ● 일반 문서 모델
레이아웃 분석 모델
미리 빌드된 모델 W-2 양식 모델
청구서 모델
영수증 모델
ID(ID) 문서 모델
명함 모델
사용자 지정 모델 사용자 지정 모델
작성 모델

어떤 Form Recognizer 모델을 사용해야 하나요?

이 섹션에서는 애플리케이션에 사용해야 하는 Form Recognizer v3.0 지원 모델을 결정하는 데 도움이 됩니다.

문서 유형 추출할 데이터 문서 형식 최적의 솔루션
계약 또는 편지와 같은 일반 문서입니다. 주로 텍스트 줄, 단어, 위치 및 검색된 언어를 추출할 수 있습니다. 문서가 지원되는 언어로 작성되거나 인쇄됩니다. OCR 모델 읽기
보고서 또는 연구와 같은 구조적 정보를 포함하는 문서입니다. 텍스트 외에도 테이블, 선택 표시, 단락, 제목, 머리글 및 부제목과 같은 구조적 정보를 추출해야 합니다. 문서가 지원되는 언어로 작성되거나 인쇄됩니다. 레이아웃 분석 모델
크레딧 응용 프로그램 또는 설문 조사 양식과 같이 필드 및 값으로 서식이 지정된 콘텐츠를 포함하는 구조화된 또는 반구조화된 문서입니다. 사용자 지정 모델을 학습시킬 필요 없이 미리 빌드된 시나리오별 모델에서 다루지 않는 필드와 값을 추출할 수 있습니다. 양식이나 문서는 비즈니스 또는 업계에서 일반적으로 사용되며 지원되는 언어로 인쇄되는 표준화된 형식입니다. 일반 문서 모델
U.S. W-2 양식 미국 W2 세금 양식에서 급여, 임금, 원천징수세 등의 주요 정보를 추출할 수 있습니다. W-2 문서는 미국 영어(en-US) 텍스트로 작성됩니다. W-2 모델
청구서 고객 이름, 청구 주소, 청구서의 기한과 같은 주요 정보를 추출할 수 있습니다. 청구서 문서는 지원되는 언어로 작성되거나 인쇄됩니다. 청구서 모델
Receipt 판매 또는 단일 페이지 호텔 영수증에서 판매자 이름, 거래 날짜 및 거래 총액과 같은 주요 정보를 추출할 수 있습니다. 영수증은 지원되는 언어로 작성되거나 인쇄됩니다. 영수증 모델
여권 또는 운전 면허증과 같은 ID(ID) 미국 운전면허증 또는 국제 여권에서 이름, 성, 생년월일과 같은 주요 정보를 추출할 수 있습니다. ID 문서는 미국 운전면허증 또는 국제 여권의 전기 페이지(비자 아님)입니다. ID(ID) 모델
명함 명함에서 이름, 성, 회사 이름, 이메일 주소, 전화 번호와 같은 주요 정보를 추출할 수 있습니다. 명함 문서는 영어 또는 일본어 텍스트입니다. 비즈니스 카드 모델
혼합 형식 문서 키-값 쌍, 선택 표시, 테이블, 서명 필드 및 사전 구축 또는 일반 문서 모델에서 추출하지 않은 선택된 영역을 추출할 수 있습니다. 구조적, 반구조적 및/또는 비구조적 요소가 있는 다양한 문서가 있습니다. 사용자 지정 모델

  • 어떤 모델을 사용할지 아직 확실하지 않은 경우 일반 문서 모델을 사용하여 키-값 쌍을 추출해 보세요.
  • 일반 문서 모델은 읽기 OCR 엔진을 통해 텍스트 줄, 단어, 위치 및 언어를 검색합니다.
  • 또한 일반 문서는 문서 레이아웃 모델(페이지, 테이블, 스타일)과 동일한 데이터를 추출합니다.

문서 처리 모델 및 개발 옵션

참고

다음 문서 이해 모델 및 개발 옵션은 Form Recognizer 서비스 v3.0에서 지원됩니다.

Form Recognizer 사용하여 애플리케이션 및 워크플로에서 문서 처리를 자동화하고, 데이터 기반 전략을 개선하고, 문서 검색 기능을 보강할 수 있습니다. 이 표의 링크를 사용하여 각 모델에 대해 자세히 알아보고 API 참조를 찾아보세요.

모델 설명 자동화 사용 사례 개발 옵션
OCR 모델 읽기 텍스트 줄, 단어, 검색된 언어, 필기로 입력된 스타일(검색된 경우)을 추출합니다.
  • 계약 처리.
  • 재무 또는 의료 보고서 처리.
일반 문서 모델 텍스트, 테이블, 구조 및 키-값 쌍을 추출합니다.
  • 키-값 쌍 추출.
  • 양식 처리.
  • 설문 조사 데이터 수집 및 분석.
레이아웃 분석 모델 양식 및 문서에서 경계 상자 좌표와 함께 텍스트, 선택 표시 및 테이블 구조를 추출합니다.

레이아웃 API가 미리 빌드된 모델로 업데이트되었습니다.
  • 구조별로 인덱싱 및 검색을 문서화.
  • OCR 분석 전 전처리.
사용자 지정 모델(업데이트됨) 고유한 비즈니스 데이터 및 사용 사례와 관련된 양식 및 문서에서 데이터를 추출하고 분석합니다.

사용자 지정 모델 API v3.0은 사용자 지정 템플릿(사용자 지정 양식) 모델에 대한 서명 검색을 지원합니다.

사용자 지정 모델 API v3.0은 이제 두 가지 모델 형식을 지원합니다.
  • 규정 변경 또는 시장 이벤트의 영향을 받는 비즈니스 고유의 데이터 식별 및 편집.
  • 이전에 간과된 고유 데이터의 식별 및 분석.
Form Recognizer Studio
  • REST API
  • C# SDK
  • Python SDK
  • Java SDK
  • JavaScript
  • W-2 양식 W-2 양식의 각 상자에 보고된 정보를 추출합니다.
    • 자동화된 세금 문서 관리.
    • 모기지 대출 신청 처리.
    청구서 모델 판매 청구서에서 주요 정보를 자동으로 처리하고 추출합니다.
    • 미지급금 처리.
    • 자동화된 세금 기록 및 보고.
    영수증 모델(업데이트됨) 판매 영수증에서 주요 정보에 대해 자동화된 데이터 처리 및 추출을 수행합니다.

    영수증 모델 v3.0에서는 단일 페이지 호텔 영수증 처리가 지원됩니다.
    • 경비 관리.
    • 소비자 동작 데이터 분석.
    • 고객 충성도 프로그램.
    • 상품 반품 처리.
    • 자동화된 세금 기록 및 보고.
    ID(ID) 모델(업데이트됨) 미국 운전 면허증 및 국제 여권에서 주요 정보에 대해 자동화된 데이터 처리 및 추출을 수행합니다.

    미리 빌드된 ID 문서 API에서는 미국 운전 면허증에서 등록, 제한 사항, 차량 분류 정보 추출이 지원됩니다.
    • KYC(Know Your Customer) 금융 서비스 지침 준수 파악.
    • 의료 계정 관리.
    • ID 검사점 및 게이트웨이.
    • 호텔 등록.
    비즈니스 카드 모델 명함에서 주요 정보를 자동으로 처리하고 추출합니다.
    • 영업 책임자 및 마케팅 관리.

    이 문서의 적용 대상:Form Recognizer v2.1 확인 표시Form Recognizer v2.1. 이후 버전:Form Recognizer v3.0

    Azure Form Recognizer 개발자가 지능형 문서 처리 솔루션을 빌드할 수 있는 클라우드 기반 Azure Applied AI Service입니다. Form Recognizer 기계 학습 기반 OCR(광학 문자 인식) 및 문서 이해 기술을 적용하여 문서에서 텍스트, 테이블, 구조 및 키-값 쌍을 추출합니다. 또한 사용자 지정 모델에 레이블을 지정하고 학습하여 구조적, 반구조적 및 비구조적 문서에서 데이터 추출을 자동화할 수 있습니다. 각 모델에 대한 자세한 내용은 개념 문서를 참조 하세요.

    모델 형식 모델 이름
    문서 분석 모델 레이아웃 분석 모델
    미리 빌드된 모델 청구서 모델
    영수증 모델
    ID 문서(ID) 모델
    명함 모델
    사용자 지정 모델 사용자 지정 모델
    작성 모델

    어떤 문서 처리 모델을 사용해야 하나요?

    이 섹션에서는 애플리케이션에 사용해야 하는 Form Recognizer v2.1 지원 모델을 결정하는 데 도움이 됩니다.

    문서 유형 추출할 데이터 문서 형식 최적의 솔루션
    보고서 또는 연구와 같은 구조적 정보를 포함하는 문서입니다. 텍스트 외에도 테이블 및 선택 표시와 같은 구조적 정보를 추출해야 합니다. 문서가 지원되는 언어로 작성되거나 인쇄됩니다. 레이아웃 분석 모델
    청구서 고객 이름, 청구 주소, 청구서의 기한과 같은 주요 정보를 추출할 수 있습니다. 청구서 문서는 지원되는 언어로 작성되거나 인쇄됩니다. 청구서 모델
    Receipt 판매 또는 단일 페이지 호텔 영수증에서 판매자 이름, 거래 날짜 및 거래 총액과 같은 주요 정보를 추출할 수 있습니다. 영수증은 지원되는 언어로 작성되거나 인쇄됩니다. 영수증 모델
    여권 또는 운전 면허증과 같은 ID 문서(ID)입니다. 미국 운전면허증 또는 국제 여권에서 이름, 성, 생년월일과 같은 주요 정보를 추출할 수 있습니다. ID 문서는 미국 운전면허증 또는 국제 여권의 전기 페이지(비자 아님)입니다. ID 문서 모델
    명함 명함에서 이름, 성, 회사 이름, 이메일 주소, 전화 번호와 같은 주요 정보를 추출할 수 있습니다. 명함 문서는 영어 또는 일본어 텍스트입니다. 비즈니스 카드 모델
    혼합 형식 문서 키-값 쌍, 선택 표시, 테이블, 서명 필드 및 사전 구축 또는 일반 문서 모델에서 추출하지 않은 선택된 영역을 추출할 수 있습니다. 구조적, 반구조적 및/또는 비구조적 요소가 있는 다양한 문서가 있습니다. 사용자 지정 모델

    Form Recognizer 모델 및 개발 옵션

    • 향상된 환경과 고급 모델 품질을 위해 Form Recognizer v3.0 Studio를 사용해 보세요.
    • v3.0 Studio는 v2.1 레이블이 지정된 데이터로 학습된 모든 모델을 지원합니다.
    • v2.1에서 v3.0으로 마이그레이션하는 방법에 대한 자세한 내용은 API 마이그레이션 가이드를 참조하세요.

    참고

    다음 모델 및 개발 옵션은 Form Recognizer 서비스 v2.1에서 지원됩니다.

    테이블의 링크를 사용하여 각 모델에 대해 자세히 알아보고 API 참조를 찾아봅니다.

    모델 설명 개발 옵션
    레이아웃 분석 양식 및 문서에서 텍스트, 선택 표시, 테이블, 경계 상자 좌표에 대한 추출 및 분석을 지원합니다.
    사용자 지정 모델 고유한 비즈니스 데이터 및 사용 사례와 관련된 양식과 문서에서 데이터를 추출하고 분석합니다.
    청구서 모델 판매 청구서에서 주요 정보를 자동으로 처리하고 추출합니다.
    영수증 모델 판매 영수증에서 주요 정보를 자동으로 처리하고 추출합니다.
    ID(ID) 모델 미국 운전 면허증 및 국제 여권의 핵심 정보에 대한 자동화된 데이터 처리 및 추출.
    비즈니스 카드 모델 명함에서 주요 정보를 자동으로 처리하고 추출합니다.

    데이터 개인 정보 보호 및 보안

    모든 AI 서비스와 마찬가지로 Form Recognizer 서비스를 사용하는 개발자는 고객 데이터에 대한 Microsoft 정책을 알고 있어야 합니다. Form Recognizer에 대한 데이터, 개인 정보 보호 및 보안 페이지를 참조하세요.

    다음 단계