Document Intelligence 讀取模型

發行項
03/10/2024

重要

Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
根據使用者意見反應，功能、方法和流程在正式發行 (GA) 前可能有所變更。
Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview。
公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域：
美國東部
美國西部 2
西歐

此內容適用於：v4.0 （預覽） | 舊版：v3.1 （GA）v3.0 （GA）

此內容適用於：v3.1 （GA） | 最新版本：v4.0 （預覽） | 舊版：v3.0

此內容適用於：v3.0 （GA） | 最新版本：v4.0 （預覽）v3.1

注意

若要從標籤、街道標誌和海報等外部影像擷取文字，請使用 Azure AI 影像分析 v4.0 已針對一般、非檔影像優化的一般非檔影像使用效能增強的同步 API，讓您更輕鬆地在用戶體驗案例中內嵌 OCR。

Document Intelligence 的讀取光學字元辨識 (OCR) 模型會以高於 Azure AI 視覺讀取的解析度執行，並擷取 PDF 文件和掃描影像中的列印和手寫文字。其同樣也包含擷取 Microsoft Word、Excel、PowerPoint 及 HTML 文件中文字的支援。它會偵測段落、文字行、單字、位置和語言。讀取模型是其他 Document Intelligence 預建模型的基礎 OCR 引擎，例如版面配置、一般文件、發票、收據、身分識別 (ID) 文件、醫療保險卡、W2 (聯邦報稅表) 以及自訂模型。

檔 OCR 是什麼？

檔的光學字元辨識（OCR）已針對多種檔格式和全域語言的大型重文字檔進行優化。它包含檔影像的高解析度掃描等功能，可更好地處理較小且密集的文字;段落偵測;和可填滿的窗體管理。 OCR 功能也包括進階案例，例如單一字元方塊，以及正確擷取發票、收據和其他預先建置案例中常用的索引鍵字段。

開發選項

Document Intelligence v4.0 （2024-02-29-preview， 2023-10-31-preview）支援下列工具、應用程式和連結庫：

功能	資源	Model ID
讀取 OCR 模型	• Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK	prebuilt-read

Document Intelligence v3.1 支援下列工具、應用程式和連結庫：

功能	資源	Model ID
讀取 OCR 模型	• Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK	prebuilt-read

Document Intelligence v3.0 支援下列工具、應用程式和連結庫：

功能	資源	Model ID
讀取 OCR 模型	• Document Intelligence Studio • REST API • C# SDK• Python SDK • Java SDK • JavaScript SDK	prebuilt-read

輸入需求

若要得到最佳結果，請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

支援的檔案格式：

模型	PDF	圖片： JPEG/JPG、PNG、BMP、TIFF、HEIF	Microsoft Office： Word（DOCX）、Excel（XLSX）、PowerPoint（PPTX）和 HTML
參閱	✔	✔	✔
版面配置	✔	✔	✔ （2024-02-29-preview， 2023-10-31-preview）
一般文件	✔	✔
預建	✔	✔
自訂擷取	✔	✔
自訂分類	✔	✔	✔ （2024-02-29-preview）

若使用 PDF 和 TIFF，最多可處理 2000 頁 (若使用免費層訂閱，則只會處理前兩頁)。
用於分析文件的檔案大小是付費（S0）層的 500 MB，免費 #F0 層為 4 MB。
影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。
如果您的 PDF 有密碼鎖定，則必須先移除鎖定才能提交。
針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。
針對自訂模型定型，自訂範本模型的定型資料頁數上限為 500，而自訂神經網路模型的上限則為 50,000。
- 針對自訂擷取模型定型，範本模型的定型資料大小總計為 50 MB，而神經模型的大小總計則為 1G-MB。
- 針對自訂分類模型定型，定型資料的大小總計為 1GB (上限為 10,000 頁)。

開始使用讀取模型

請嘗試使用 Document Intelligence Studio 來擷取表單和文件中的文字。您需要以下資產：

Azure 訂用帳戶-您可以免費建立一個訂用帳戶。
Azure 入口網站中的 Document Intelligence 執行個體。您可以使用免費定價層（F0）來試用服務。部署資源之後，選取 [移至資源 ] 以取得您的金鑰和端點。

Azure 入口網站中金鑰和端點位置的螢幕快照。

注意

Document Intelligence Studio 目前不支援 Microsoft Word、Excel、PowerPoint 和 HTML 檔案格式。

使用 Document Intelligence Studio (英文) 處理的文件範例

在 Document Intelligence Studio 中讀取處理之螢幕擷取畫面。

在 [Document Intelligence Studio] 首頁上，選取 [ 讀取]。
您可以分析範例檔或上傳您自己的檔案。
選取 [ 執行分析] 按鈕，並視需要設定 [分析] 選項：

請嘗試 Document Intelligence Studio。

支援的語言和地區設定

如需支援語言的完整清單，請參閱我們的語言支援 — 檔案分析模型頁面。

資料擷取

注意

v3.1 和更新版本中支援 Microsoft Word 和 HTML 檔案。相較於 PDF 和影像，不支援下列功能：

每個頁面對象沒有角度、寬度/高度和單位。
針對偵測到的每個對象，沒有周框多邊形或周框區域。
不支援頁面範圍（pages）做為參數。
沒有 lines 物件。

頁面

pages 集合是檔中的頁面清單。每個頁面都會在檔中循序表示，並包含方向角度，指出頁面是否旋轉，寬度和高度（以像素為單位的維度）。模型輸出中的頁面單位會計算，如下所示：

檔案格式	計算頁面單位	總頁數
圖片（JPEG/JPG、PNG、BMP、HEIF）	每個影像 = 1 個頁面單位	影像總數
PDF	PDF 中的每個頁面 = 1 個頁面單位	PDF 中的總頁數
TIFF	TIFF = 1 頁單位中的每個影像	TIFF 中的影像總數
Word （DOCX）	最多 3,000 個字元 = 1 個頁面單位，不支援內嵌或連結的影像	每頁最多 3,000 個字元的總頁數
Excel （XLSX）	每個工作表 = 1 個頁面單位，不支援內嵌或連結的影像	工作表總計
PowerPoint （PPTX）	每張投影片 = 1 個頁面單位，不支援內嵌或連結的影像	投影片總計
HTML	最多 3,000 個字元 = 1 個頁面單位，不支援內嵌或連結的影像	每頁最多 3,000 個字元的總頁數

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

選取用於文字擷取的頁面

對於大型多頁 PDF 檔，請使用 pages 查詢參數來指出文字擷取的特定頁碼或頁面範圍。

段落

文件智慧服務中的讀取 OCR 模型會擷取 paragraphs 集合中所有已識別的文字區塊，以做為 analyzeResults 底下的最上層物件。這個集合中的每個專案都代表文本塊，並包含擷取的文字作為content 和周 polygon 框座標。資訊 span 會指向最上層 content 屬性內的文字片段，其中包含檔中的全文檢索。

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

文字、行和文字

讀取 OCR 模型會將列印和手寫樣式文字擷取為 lines 和 words。模型會輸出周 polygon 框座標和 confidence 擷取字組的座標。如果偵測到線條以及指向相關聯文字之範圍，集合 styles 會包含任何手寫樣式。此功能適用於支援的手寫語言。

對於 Microsoft Word、Excel、PowerPoint 和 HTML，檔智慧讀取模型 v3.1 和更新版本會依目前擷取所有內嵌文字。文字會引渡為單字和段落。不支援內嵌影像。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

手寫樣式的文字行

回應包含分類每個文字行是否為手寫樣式，以及信賴分數。如需詳細資訊，請參閱手寫語言支援。下列範例顯示範例 JSON 代碼段。

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

如果您啟用字型/樣式附加元件功能，也會取得物件一部分的 styles 字型/樣式結果。

下一步

完成 Document Intelligence 快速入門：

探索我們的 REST API：

檔智慧 API v4.0