문서 인텔리전스 읽기 모델
Important
- 문서 인텔리전스 공개 미리 보기 릴리스에서는 현재 개발 중인 기능에 대한 조기 액세스를 제공합니다. 기능, 방식 및 프로세스는 GA(일반 공급) 전에 사용자 피드백에 따라 변경될 수 있습니다.
- 문서 인텔리전스 클라이언트 라이브러리의 공개 미리 보기 버전은 기본적으로 REST API 버전 2024-07-31-preview입니다.
- 공개 미리 보기 버전 2024-07-31-preview는 현재 다음 Azure 지역에서만 사용할 수 있습니다. AI Studio의 사용자 지정 생성(문서 필드 추출) 모델은 미국 중북부 지역에서만 사용할 수 있습니다.
- 미국 동부
- 미국 서부2
- 서유럽
- 미국 중북부
이 콘텐츠의 적용 대상:v4.0(미리 보기) | 이전 버전:v3.1(GA)v3.0(GA)
이 콘텐츠의 적용 대상:v4.0(미리 보기) | 이전 버전:v3.1(GA)v3.0(GA)
참고 항목
레이블, 도로 표지판 및 포스터와 같은 외부 이미지에서 텍스트를 추출하려면 사용자 환경 시나리오에 OCR을 쉽게 포함할 수 있도록 성능이 향상된 동기 API를 사용하여 일반 문서가 아닌 이미지에 최적화된 Azure AI 이미지 분석 v4.0 읽기 기능을 사용합니다.
문서 인텔리전스의 OCR(광학 인식) 읽기 모델은 PDF 문서 및 스캔한 이미지에서 인쇄 및 필기 텍스트를 읽고 추출하는 Azure AI Vision보다 높은 해상도로 실행됩니다. Microsoft Word, Excel, PowerPoint 및 HTML 문서에서 텍스트를 추출하기 위한 지원도 포함되어 있습니다. 단락, 텍스트 줄, 단어, 위치 및 언어를 검색합니다. 읽기 모델은 사용자 지정 모델 외에도 레이아웃, 일반 문서, 청구서, 영수증, ID 문서, 건강보험증, W2와 같은 다른 문서 인텔리전스 미리 빌드된 모델에 대한 기본 OCR 엔진입니다.
광학 문자 인식이란?
문서용 OCR(광학 인식)은 여러 파일 형식 및 전역 언어로 된 텍스트가 많은 대형 문서에 최적화되어 있습니다. 더 작고 조밀한 텍스트를 더 잘 처리하기 위해 문서 이미지의 고해상도 검사, 단락 검색 및 채울 수 있는 양식 관리와 같은 기능이 포함되어 있습니다. OCR 기능에는 단일 문자 상자와 같은 고급 시나리오와 청구서, 영수증 및 기타 미리 빌드된 시나리오에서 일반적으로 발견되는 주요 필드의 정확한 추출도 포함됩니다.
개발 옵션(v4)
문서 인텔리전스 v4.0(2024-07-31-preview)은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.
기능 | 리소스 | Model ID |
---|---|---|
OCR 모델 읽기 | • 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-read |
입력 요구 사항(v4)
지원 파일 형식:
모델 PDF 이미지: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word(DOCX
), Excel(XLSX
), PowerPoint(PPTX
), HTML읽기 ✔ ✔ ✔ 레이아웃 ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) 일반 문서 ✔ ✔ 사전 제작 ✔ ✔ 사용자 지정 추출 ✔ ✔ 사용자 지정 분류 ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) 최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.
PDF 및 TIFF의 경우 최대 2,000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).
문서를 분석하기 위한 파일 크기는 유료(S0) 계층의 경우 500MB이고 무료(F0) 계층의 경우
4
MB입니다.이미지 크기는 50픽셀 x 50픽셀에서 10,000픽셀 x 10,000픽셀 사이여야 합니다.
PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.
추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150DPI(인치당 도트 수)에서 약
8
점 텍스트에 해당합니다.사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.
사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB이고 인공신경망 모델의 경우
1
GB입니다.사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는
1
GB이고 최대 10,000페이지입니다. 2024-07-31-preview 및 이후 버전의 경우 학습 데이터의 총 크기는2
GB이고 최대 10,000페이지입니다.
읽기 모델 시작(v4)
문서 인텔리전스 스튜디오를 사용하여 양식 및 문서에서 텍스트를 추출해 보세요. 다음 자산이 필요합니다.
Azure 구독은 무료로 만들 수 있습니다.
Azure Portal의 Document Intelligence 인스턴스입니다. 무료 가격 책정 계층(
F0
)을 사용하여 서비스를 시도할 수 있습니다. 리소스가 배포된 후 리소스로 이동을 선택하여 키 및 엔드포인트를 가져옵니다.
참고 항목
현재 문서 인텔리전스 스튜디오는 Microsoft Word, Excel, PowerPoint 및 HTML 파일 형식을 지원하지 않습니다.
문서 인텔리전스 스튜디오에서 처리된 샘플 문서
문서 인텔리전스 스튜디오 홈페이지에서 읽기를 선택합니다.
샘플 문서를 분석하거나 자체 파일을 업로드할 수 있습니다.
분석 실행 버튼을 선택하고 필요한 경우 분석 옵션을 구성합니다.
지원되는 언어 및 로캘(v4)
지원되는 언어의 전체 목록은 언어 지원 - 문서 분석 모델 페이지를 참조하세요.
데이터 추출(v4)
참고 항목
Microsoft Word 및 HTML 파일은 v4.0에서 지원됩니다. PDF 및 이미지와 비교하여 아래 기능은 지원되지 않습니다.
- 각 페이지 개체에는 각도, 너비/높이 및 단위가 없습니다.
- 검색된 각 개체에 대해 경계 다각형 또는 경계 영역이 없습니다.
- 페이지 범위(
pages
)는 매개 변수로 지원되지 않습니다. lines
개체가 없습니다.
검색 가능한 PDF
검색 가능한 PDF 기능을 사용하면 검사한 이미지 PDF 파일 등의 아날로그 PDF를 텍스트가 포함된 PDF로 변환할 수 있습니다. 포함된 텍스트를 사용하면 검색된 텍스트 엔터티를 이미지 파일 위에 중첩하여 PDF에서 추출된 콘텐츠 내에서 심층적인 텍스트 검색이 가능합니다.
Important
- 현재 검색 가능한 PDF 기능은 읽기 OCR 모델
prebuilt-read
에서만 지원됩니다. 이 기능을 사용할 때에는modelId
를prebuilt-read
로 지정하세요. 다른 모델 형식은 이 미리 보기 버전에서 오류를 반환합니다. - 검색 가능한 PDF는 2024-07-31-preview
prebuilt-read
모델에 포함되어 있으며, 검색 가능한 PDF 출력을 생성하기 위한 추가 비용이 발생하지 않습니다.- 검색 가능한 PDF에서는 현재 PDF 파일만 입력으로 지원합니다. 이미지 파일과 같은 다른 파일 형식에 대한 지원은 나중에 제공됩니다.
검색 가능한 PDF 사용
검색 가능한 PDF를 사용하려면 Analyze
작업을 사용하여 POST
요청을 만들고 출력 형식을 pdf
로 지정합니다.
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
Analyze
작업 완료 시 폴링합니다. 작업이 완료되면 작업 결과의 PDF 형식을 검색하라는 Analyze
요청을 발행합니다 GET
.
성공적으로 완료되면 PDF를 검색하여 application/pdf
로 다운로드할 수 있습니다. 이 작업을 사용하면 Base64로 인코딩된 JSON 대신 포함된 PDF 텍스트 형식을 직접 다운로드할 수 있습니다.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
Pages 매개 변수
페이지 컬렉션은 문서 내의 페이지 목록입니다. 각 페이지는 문서 내에서 순차적으로 표시되며 페이지가 회전되는지 여부를 나타내는 방향 각도와 너비와 높이(픽셀 단위)를 포함합니다. 모델 출력의 페이지 단위는 다음과 같이 계산됩니다.
파일 형식 | 컴퓨팅된 페이지 단위 | 전체 페이지 수 |
---|---|---|
이미지(JPEG/JPG, PNG, BMP, HEIF) | 각 이미지 = 1페이지 단위 | 총 이미지 |
PDF의 각 페이지 = 1페이지 단위 | PDF의 총 페이지 수 | |
TIFF | TIFF의 각 이미지 = 1페이지 단위 | TIFF의 총 이미지 |
Word(DOCX) | 최대 3,000자 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음 | 각각 최대 3,000자의 총 페이지 |
Excel(XLSX) | 개별 워크시트 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음 | 전체 워크시트 |
PowerPoint(PPTX) | 개별 슬라이드 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음 | 전체 슬라이드 |
HTML | 최대 3,000자 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음 | 각각 최대 3,000자의 총 페이지 |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
텍스트 추출에 페이지 사용
대규모의 다중 페이지 PDF 문서의 경우 pages
쿼리 매개 변수를 사용하여 텍스트 추출을 위한 특정 페이지 번호 또는 페이지 범위를 지정합니다.
단락 추출
문서 인텔리전스의 OCR 읽기 모델은 paragraphs
컬렉션에서 식별된 모든 텍스트 블록을 analyzeResults
아래의 최상위 개체로 추출합니다. 이 컬렉션의 각 항목은 텍스트 블록을 나타내며 추출된 텍스트를 content
및 경계 polygon
좌표로 포함합니다. span
정보는 문서의 전체 텍스트가 포함된 최상위 content
속성 내의 텍스트 조각을 가리킵니다.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
텍스트, 선 및 단어 추출
OCR 읽기 모델은 인쇄 및 필기 스타일 텍스트를 lines
및 words
로 추출합니다. 모델은 추출된 단어에 대한 경계 polygon
좌표와 confidence
를 출력합니다. styles
컬렉션에는 연결된 텍스트를 가리키는 범위와 함께 선에 대한 필기 스타일이 포함됩니다(탐지된 경우). 이 기능은 지원되는 필기 언어에 적용됩니다.
Microsoft Word, Excel, PowerPoint 및 HTML의 경우 문서 인텔리전스 읽기 모델 v3.1 이상 버전에서는 포함된 모든 텍스트를 있는 그대로 추출합니다. 텍스트는 단어와 단락으로 추출됩니다. 포함된 이미지는 지원되지 않습니다.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
필기 스타일 추출
응답에는 신뢰도 점수와 함께 각 텍스트 줄이 필기 스타일인지 여부를 분류하는 것이 포함됩니다. 자세한 내용은 필기 언어 지원을 참조하세요. 다음 예제에서는 JSON 코드 조각 예제를 보여줍니다.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
글꼴/스타일 추가 기능을 사용하도록 설정하면 글꼴/스타일 결과도 styles
개체의 일부로 가져옵니다.
다음 단계 v4.0
문서 인텔리전스 빠른 시작 완료하기:
REST API를 살펴봅니다.
GitHub에서 더 많은 샘플 찾기:
이 콘텐츠의 적용 대상: v3.1(GA) | 최신 버전: v4.0(미리 보기) | 이전 버전: v3.0
이 콘텐츠의 적용 대상:v3.0(GA) | 최신 버전:v4.0(미리 보기)v3.1
참고 항목
레이블, 도로 표지판 및 포스터와 같은 외부 이미지에서 텍스트를 추출하려면 사용자 환경 시나리오에 OCR을 쉽게 포함할 수 있도록 성능이 향상된 동기 API를 사용하여 일반 문서가 아닌 이미지에 최적화된 Azure AI 이미지 분석 v4.0 읽기 기능을 사용합니다.
문서 인텔리전스의 OCR(광학 인식) 읽기 모델은 PDF 문서 및 스캔한 이미지에서 인쇄 및 필기 텍스트를 읽고 추출하는 Azure AI Vision보다 높은 해상도로 실행됩니다. Microsoft Word, Excel, PowerPoint 및 HTML 문서에서 텍스트를 추출하기 위한 지원도 포함되어 있습니다. 단락, 텍스트 줄, 단어, 위치 및 언어를 검색합니다. 읽기 모델은 사용자 지정 모델 외에도 레이아웃, 일반 문서, 청구서, 영수증, ID 문서, 건강보험증, W2와 같은 다른 문서 인텔리전스 미리 빌드된 모델에 대한 기본 OCR 엔진입니다.
문서용 OCR이란?
문서용 OCR(광학 인식)은 여러 파일 형식 및 전역 언어로 된 텍스트가 많은 대형 문서에 최적화되어 있습니다. 더 작고 조밀한 텍스트를 더 잘 처리하기 위해 문서 이미지의 고해상도 검사, 단락 검색 및 채울 수 있는 양식 관리와 같은 기능이 포함되어 있습니다. OCR 기능에는 단일 문자 상자와 같은 고급 시나리오와 청구서, 영수증 및 기타 미리 빌드된 시나리오에서 일반적으로 발견되는 주요 필드의 정확한 추출도 포함됩니다.
개발 옵션
문서 인텔리전스 v3.1은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.
기능 | 리소스 | Model ID |
---|---|---|
OCR 모델 읽기 | • 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-read |
문서 인텔리전스 v3.0은 다음 도구, 애플리케이션, 라이브러리를 지원합니다.
기능 | 리소스 | Model ID |
---|---|---|
OCR 모델 읽기 | • 문서 인텔리전스 스튜디오 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-read |
입력 요구 사항
지원 파일 형식:
모델 PDF 이미지: JPEG/JPG
,PNG
,BMP
,TIFF
,HEIF
Microsoft Office:
Word(DOCX
), Excel(XLSX
), PowerPoint(PPTX
), HTML읽기 ✔ ✔ ✔ 레이아웃 ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) 일반 문서 ✔ ✔ 사전 제작 ✔ ✔ 사용자 지정 추출 ✔ ✔ 사용자 지정 분류 ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) 최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.
PDF 및 TIFF의 경우 최대 2,000페이지를 처리할 수 있습니다(무료 계층 구독의 경우 처음 2페이지만 처리됨).
문서를 분석하기 위한 파일 크기는 유료(S0) 계층의 경우 500MB이고 무료(F0) 계층의 경우
4
MB입니다.이미지 크기는 50픽셀 x 50픽셀에서 10,000픽셀 x 10,000픽셀 사이여야 합니다.
PDF가 암호로 잠긴 경우에는 제출하기 전에 잠금을 해제해야 합니다.
추출할 텍스트의 최소 높이는 1024 x 768 픽셀 이미지의 경우 12픽셀입니다. 이 차원은 150DPI(인치당 도트 수)에서 약
8
점 텍스트에 해당합니다.사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 인공신경망 모델의 경우 50,000개입니다.
사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB이고 인공신경망 모델의 경우
1
GB입니다.사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는
1
GB이고 최대 10,000페이지입니다. 2024-07-31-preview 이상의 경우 총 학습 데이터 크기는2
GB이고 최대 10,000페이지입니다.
읽기 모델 시작
문서 인텔리전스 스튜디오를 사용하여 양식 및 문서에서 텍스트를 추출해 보세요. 다음 자산이 필요합니다.
Azure 구독은 무료로 만들 수 있습니다.
Azure Portal의 Document Intelligence 인스턴스입니다. 무료 가격 책정 계층(
F0
)을 사용하여 서비스를 시도할 수 있습니다. 리소스가 배포된 후 리소스로 이동을 선택하여 키 및 엔드포인트를 가져옵니다.
참고 항목
현재 문서 인텔리전스 스튜디오는 Microsoft Word, Excel, PowerPoint 및 HTML 파일 형식을 지원하지 않습니다.
문서 인텔리전스 스튜디오에서 처리된 샘플 문서
문서 인텔리전스 스튜디오 홈페이지에서 읽기를 선택합니다.
샘플 문서를 분석하거나 자체 파일을 업로드할 수 있습니다.
분석 실행 버튼을 선택하고 필요한 경우 분석 옵션을 구성합니다.
지원되는 언어 및 로캘
지원되는 언어의 전체 목록은 언어 지원 - 문서 분석 모델 페이지를 참조하세요.
데이터 추출
참고 항목
Microsoft Word 및 HTML 파일은 v3.1 이상 버전에서 지원됩니다. PDF 및 이미지와 비교하여 아래 기능은 지원되지 않습니다.
- 각 페이지 개체에는 각도, 너비/높이 및 단위가 없습니다.
- 검색된 각 개체에 대해 경계 다각형 또는 경계 영역이 없습니다.
- 페이지 범위(
pages
)는 매개 변수로 지원되지 않습니다. lines
개체가 없습니다.
검색 가능한 PDF
검색 가능한 PDF 기능을 사용하면 검사한 이미지 PDF 파일 등의 아날로그 PDF를 텍스트가 포함된 PDF로 변환할 수 있습니다. 포함된 텍스트를 사용하면 검색된 텍스트 엔터티를 이미지 파일 위에 중첩하여 PDF에서 추출된 콘텐츠 내에서 심층적인 텍스트 검색이 가능합니다.
Important
- 현재 검색 가능한 PDF 기능은 읽기 OCR 모델
prebuilt-read
에서만 지원됩니다. 이 기능을 사용할 때에는modelId
를prebuilt-read
로 지정하세요. 다른 모델 형식은 이 미리 보기 버전에서 오류를 반환합니다. - 검색 가능한 PDF는 2024-07-31-preview
prebuilt-read
모델에 포함되어 있으며, 검색 가능한 PDF 출력을 생성하기 위한 추가 비용이 발생하지 않습니다.- 검색 가능한 PDF에서는 현재 PDF 파일만 입력으로 지원합니다. 이미지 파일과 같은 다른 파일 형식에 대한 지원은 나중에 제공됩니다.
검색 가능한 PDF 사용
검색 가능한 PDF를 사용하려면 Analyze
작업을 사용하여 POST
요청을 만들고 출력 형식을 pdf
로 지정합니다.
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
Analyze
작업 완료 시 폴링합니다. 작업이 완료되면 작업 결과의 PDF 형식을 검색하라는 Analyze
요청을 발행합니다 GET
.
성공적으로 완료되면 PDF를 검색하여 application/pdf
로 다운로드할 수 있습니다. 이 작업을 사용하면 Base64로 인코딩된 JSON 대신 포함된 PDF 텍스트 형식을 직접 다운로드할 수 있습니다.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
페이지
페이지 컬렉션은 문서 내의 페이지 목록입니다. 각 페이지는 문서 내에서 순차적으로 표시되며 페이지가 회전되는지 여부를 나타내는 방향 각도와 너비와 높이(픽셀 단위)를 포함합니다. 모델 출력의 페이지 단위는 다음과 같이 계산됩니다.
파일 형식 | 컴퓨팅된 페이지 단위 | 전체 페이지 수 |
---|---|---|
이미지(JPEG/JPG, PNG, BMP, HEIF) | 각 이미지 = 1페이지 단위 | 총 이미지 |
PDF의 각 페이지 = 1페이지 단위 | PDF의 총 페이지 수 | |
TIFF | TIFF의 각 이미지 = 1페이지 단위 | TIFF의 총 이미지 |
Word(DOCX) | 최대 3,000자 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음 | 각각 최대 3,000자의 총 페이지 |
Excel(XLSX) | 개별 워크시트 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음 | 전체 워크시트 |
PowerPoint(PPTX) | 개별 슬라이드 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음 | 전체 슬라이드 |
HTML | 최대 3,000자 = 1페이지 단위, 포함되거나 연결된 이미지가 지원되지 않음 | 각각 최대 3,000자의 총 페이지 |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
텍스트 추출을 위한 페이지 선택
대규모의 다중 페이지 PDF 문서의 경우 pages
쿼리 매개 변수를 사용하여 텍스트 추출을 위한 특정 페이지 번호 또는 페이지 범위를 지정합니다.
단락
문서 인텔리전스의 OCR 읽기 모델은 paragraphs
컬렉션에서 식별된 모든 텍스트 블록을 analyzeResults
아래의 최상위 개체로 추출합니다. 이 컬렉션의 각 항목은 텍스트 블록을 나타내며 추출된 텍스트를 content
및 경계 polygon
좌표로 포함합니다. span
정보는 문서의 전체 텍스트가 포함된 최상위 content
속성 내의 텍스트 조각을 가리킵니다.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
텍스트 줄 및 단어
OCR 읽기 모델은 인쇄 및 필기 스타일 텍스트를 lines
및 words
로 추출합니다. 모델은 추출된 단어에 대한 경계 polygon
좌표와 confidence
를 출력합니다. styles
컬렉션에는 연결된 텍스트를 가리키는 범위와 함께 선에 대한 필기 스타일이 포함됩니다(탐지된 경우). 이 기능은 지원되는 필기 언어에 적용됩니다.
Microsoft Word, Excel, PowerPoint 및 HTML의 경우 문서 인텔리전스 읽기 모델 v3.1 이상 버전에서는 포함된 모든 텍스트를 있는 그대로 추출합니다. 텍스트는 단어와 단락으로 추출됩니다. 포함된 이미지는 지원되지 않습니다.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
텍스트 줄에 대한 필기 스타일
응답에는 신뢰도 점수와 함께 각 텍스트 줄이 필기 스타일인지 여부를 분류하는 것이 포함됩니다. 자세한 내용은 필기 언어 지원을 참조하세요. 다음 예제에서는 JSON 코드 조각 예제를 보여줍니다.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
글꼴/스타일 추가 기능을 사용하도록 설정하면 글꼴/스타일 결과도 styles
개체의 일부로 가져옵니다.
다음 단계
문서 인텔리전스 빠른 시작 완료하기:
REST API를 살펴봅니다.
GitHub에서 더 많은 샘플 찾기: