문서 인텔리전스 읽기 모델

아티클
04/14/2024

Important

문서 인텔리전스 공개 미리 보기 릴리스에서는 현재 개발 중인 기능에 대한 조기 액세스를 제공합니다.
기능, 방식 및 프로세스는 GA(일반 공급) 전에 사용자 피드백에 따라 변경될 수 있습니다.
문서 인텔리전스 클라이언트 라이브러리의 공개 미리 보기 버전은 기본적으로 REST API 버전 2024-02-29-preview로 설정됩니다.
공개 미리 보기 버전 2024-02-29-preview는 현재 다음 Azure 지역에서만 사용할 수 있습니다.
미국 동부
미국 서부2
서유럽

이 콘텐츠의 적용 대상은 다음과 같습니다.v4.0(미리 보기) | 이전 버전:v3.1(GA)v3.0(GA)

이 콘텐츠의 적용 대상은 다음과 같습니다.v3.1(GA) | 최신 버전:v4.0(미리 보기) | 이전 버전:v3.0

이 콘텐츠의 적용 대상은 다음과 같습니다.v3.0(GA) | 최신 버전:v4.0(미리 보기)v3.1

참고 항목

레이블, 도로 표지판 및 포스터와 같은 외부 이미지에서 텍스트를 추출하려면 사용자 환경 시나리오에 OCR을 쉽게 포함할 수 있도록 성능이 향상된 동기 API를 사용하여 일반 문서가 아닌 이미지에 최적화된 Azure AI 이미지 분석 v4.0 읽기 기능을 사용합니다.

문서 인텔리전스의 OCR(광학 인식) 읽기 모델은 PDF 문서 및 스캔한 이미지에서 인쇄 및 필기 텍스트를 읽고 추출하는 Azure AI Vision보다 높은 해상도로 실행됩니다. Microsoft Word, Excel, PowerPoint 및 HTML 문서에서 텍스트를 추출하기 위한 지원도 포함되어 있습니다. 단락, 텍스트 줄, 단어, 위치 및 언어를 검색합니다. 읽기 모델은 사용자 지정 모델 외에도 레이아웃, 일반 문서, 청구서, 영수증, ID 문서, 건강보험증, W2와 같은 다른 문서 인텔리전스 미리 빌드된 모델에 대한 기본 OCR 엔진입니다.

문서용 OCR이란?

문서용 OCR(광학 인식)은 여러 파일 형식 및 전역 언어로 된 텍스트가 많은 대형 문서에 최적화되어 있습니다. 더 작고 조밀한 텍스트를 더 잘 처리하기 위해 문서 이미지의 고해상도 검사, 단락 검색 및 채울 수 있는 양식 관리와 같은 기능이 포함되어 있습니다. OCR 기능에는 단일 문자 상자와 같은 고급 시나리오와 청구서, 영수증 및 기타 미리 빌드된 시나리오에서 일반적으로 발견되는 주요 필드의 정확한 추출도 포함됩니다.

개발 옵션

문서 인텔리전스 v4.0(2024-02-29-미리 보기 2023-10-31-preview)은 다음 도구, 애플리케이션 및 라이브러리를 지원합니다.

기능	리소스	Model ID
OCR 모델 읽기	• 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

문서 인텔리전스 v3.1은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.

기능	리소스	Model ID
OCR 모델 읽기	• 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

문서 인텔리전스 v3.0은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.

기능	리소스	Model ID
OCR 모델 읽기	• 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

입력 요구 사항

최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.

지원 파일 형식:

모델	PDF	이미지: JPEG/JPG, PNG, BMP, TIFF, HEIF	Microsoft Office: Word(DOCX), Excel(XLSX), PowerPoint(PPTX) 및 HTML
읽음	✔	✔	✔
레이아웃	✔	✔	✔ (2024-02-29-preview, 2023-10-31-preview)
일반 문서	✔	✔
사전 제작	✔	✔
사용자 지정 추출	✔	✔
사용자 지정 분류	✔	✔	✔ (2024-02-29-preview)

PDF 및 TIFF의 경우 최대 2000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).
문서 분석을 위한 파일 크기는 유료(S0) 계층의 경우 500MB, 무료(F0) 계층의 경우 4MB입니다.
이미지 크기는 50 x 50픽셀에서 10,000 x 10,000픽셀 사이여야 합니다.
PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.
추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150DPI(인치당 도트 수)에서 약 8포인트 텍스트에 해당합니다.
사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.
- 사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB, 신경망 모델의 경우 1G-MB입니다.
- 사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 최대 10,000페이지인 1GB입니다.

읽기 모델 시작

문서 인텔리전스 스튜디오를 사용하여 양식 및 문서에서 텍스트를 추출해 보세요. 다음 자산이 필요합니다.

Azure 구독은 무료로 만들 수 있습니다.
Azure Portal의 Document Intelligence 인스턴스입니다. 무료 가격 책정 계층(F0)을 사용하여 서비스를 시도할 수 있습니다. 리소스가 배포된 후 리소스로 이동을 선택하여 키 및 엔드포인트를 가져옵니다.

Azure Portal에서 키 및 엔드포인트 위치의 스크린샷

참고 항목

현재 문서 인텔리전스 스튜디오는 Microsoft Word, Excel, PowerPoint 및 HTML 파일 형식을 지원하지 않습니다.

문서 인텔리전스 스튜디오에서 처리된 샘플 문서

문서 인텔리전스 스튜디오의 읽기 프로세싱 스크린샷

문서 인텔리전스 스튜디오 홈페이지에서 읽기를 선택합니다.
샘플 문서를 분석하거나 자체 파일을 업로드할 수 있습니다.
분석 실행 버튼을 선택하고 필요한 경우 분석 옵션을 구성합니다.

문서 인텔리전스 스튜디오를 사용해 보세요.

지원되는 언어 및 로캘

지원되는 언어의 전체 목록은 언어 지원 - 문서 분석 모델 페이지를 참조하세요.

데이터 추출

참고 항목

Microsoft Word 및 HTML 파일은 v3.1 이상 버전에서 지원됩니다. PDF 및 이미지와 비교하여 아래 기능은 지원되지 않습니다.

각 페이지 개체에는 각도, 너비/높이 및 단위가 없습니다.
검색된 각 개체에 대해 경계 다각형 또는 경계 영역이 없습니다.
페이지 범위(pages)는 매개 변수로 지원되지 않습니다.
lines 개체가 없습니다.

페이지

페이지 컬렉션은 문서 내의 페이지 목록입니다. 각 페이지는 문서 내에서 순차적으로 표시되며 페이지가 회전되는지 여부를 나타내는 방향 각도와 너비와 높이(픽셀 단위)를 포함합니다. 모델 출력의 페이지 단위는 다음과 같이 계산됩니다.

파일 형식	컴퓨팅된 페이지 단위	전체 페이지 수
이미지(JPEG/JPG, PNG, BMP, HEIF)	각 이미지 = 1페이지 단위	총 이미지
PDF	PDF의 각 페이지 = 1페이지 단위	PDF의 총 페이지 수
TIFF	TIFF의 각 이미지 = 1페이지 단위	TIFF의 총 이미지
Word(DOCX)	최대 3,000자 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음	각각 최대 3,000자의 총 페이지
Excel(XLSX)	개별 워크시트 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음	전체 워크시트
PowerPoint(PPTX)	개별 슬라이드 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음	전체 슬라이드
HTML	최대 3,000자 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음	각각 최대 3,000자의 총 페이지

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

텍스트 추출을 위한 페이지 선택

대규모의 다중 페이지 PDF 문서의 경우 pages 쿼리 매개 변수를 사용하여 텍스트 추출을 위한 특정 페이지 번호 또는 페이지 범위를 지정합니다.

단락

문서 인텔리전스의 OCR 읽기 모델은 paragraphs 컬렉션에서 식별된 모든 텍스트 블록을 analyzeResults 아래의 최상위 개체로 추출합니다. 이 컬렉션의 각 항목은 텍스트 블록을 나타내며 추출된 텍스트를 content 및 경계 polygon 좌표로 포함합니다. span 정보는 문서의 전체 텍스트가 포함된 최상위 content 속성 내의 텍스트 조각을 가리킵니다.

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

텍스트 줄 및 단어

OCR 읽기 모델은 인쇄 및 필기 스타일 텍스트를 lines 및 words로 추출합니다. 모델은 추출된 단어에 대한 경계 polygon 좌표와 confidence를 출력합니다. styles 컬렉션에는 연결된 텍스트를 가리키는 범위와 함께 선에 대한 필기 스타일이 포함됩니다(탐지된 경우). 이 기능은 지원되는 필기 언어에 적용됩니다.

Microsoft Word, Excel, PowerPoint 및 HTML의 경우 문서 인텔리전스 읽기 모델 v3.1 이상 버전에서는 포함된 모든 텍스트를 있는 그대로 추출합니다. 텍스트는 단어와 단락으로 추출됩니다. 포함된 이미지는 지원되지 않습니다.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

텍스트 줄에 대한 필기 스타일

응답에는 신뢰도 점수와 함께 각 텍스트 줄이 필기 스타일인지 여부를 분류하는 것이 포함됩니다. 자세한 내용은 필기 언어 지원을 참조하세요. 다음 예제에서는 JSON 코드 조각 예제를 보여줍니다.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

글꼴/스타일 추가 기능을 사용하도록 설정하면 글꼴/스타일 결과도 styles 개체의 일부로 가져옵니다.

다음 단계

문서 인텔리전스 빠른 시작 완료하기:

REST API를 살펴봅니다.

문서 인텔리전스 API v4.0

문서 인텔리전스 읽기 모델

문서용 OCR이란?

개발 옵션

입력 요구 사항

읽기 모델 시작

지원되는 언어 및 로캘

데이터 추출

페이지

텍스트 추출을 위한 페이지 선택

단락

텍스트 줄 및 단어

텍스트 줄에 대한 필기 스타일

다음 단계

추가 리소스