共用方式為


Document Intelligence 讀取模型

重要

  • Document Intelligence 公開預覽版本提供早期存取作用中開發的功能。
  • 根據使用者意見反應,功能、方法和流程在正式發行 (GA) 前可能有所變更。
  • Document Intelligence 用戶端連結庫的公開預覽版本預設為 REST API 版本 2024-02-29-preview
  • 公開預覽版本 2024-02-29-preview 目前僅適用於下列 Azure 區域:
  • 美國東部
  • 美國西部 2
  • 西歐

此內容適用於:複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)

此內容適用於:複選標記v3.1 (GA) | 最新版本:紫色複選標記v4.0 (預覽) | 舊版:blue-checkmarkv3.0

此內容適用於:複選標記v3.0 (GA) | 最新版本:紫色複選標記v4.0 (預覽)紫色複選標記v3.1

注意

若要從標籤、街道標誌和海報等外部影像擷取文字,請使用 Azure AI 影像分析 v4.0 已針對一般、非檔影像優化的一 般非檔影像使用效能增強的同步 API,讓您更輕鬆地在用戶體驗案例中內嵌 OCR。

Document Intelligence 的讀取光學字元辨識 (OCR) 模型會以高於 Azure AI 視覺讀取的解析度執行,並擷取 PDF 文件和掃描影像中的列印和手寫文字。 其同樣也包含擷取 Microsoft Word、Excel、PowerPoint 及 HTML 文件中文字的支援。 它會偵測段落、文字行、字組、位置和語言。 讀取模型是其他 Document Intelligence 預建模型的基礎 OCR 引擎,例如版面配置、一般文件、發票、收據、身分識別 (ID) 文件、醫療保險卡、W2 (聯邦報稅表) 以及自訂模型。

什麼是文件的 OCR?

文件的光學字元辨識 (OCR) 已針對多種檔案格式及全域語言中的大型文字密集文件進行最佳化。 它包含更高解析度的文件影像掃描等功能,可以更妥善地處理較小且密集的文字、段落偵測,以及可填寫的表單管理。 OCR 功能也包括單一字元方塊等進階案例,還能精確擷取發票、收據及其他預先建置案例中常見的索引鍵欄位。

開發選項

Document Intelligence v4.0 (2024-02-29-preview, 2023-10-31-preview) 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
讀取 OCR 模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-read

Document Intelligence v3.1 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
讀取 OCR 模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-read

Document Intelligence v3.0 支援下列工具、應用程式和連結庫:

功能 資源 Model ID
讀取 OCR 模型 Document Intelligence Studio
REST API
C# SDK• Python SDK
Java SDK
JavaScript SDK
prebuilt-read

輸入需求

  • 若要得到最佳結果,請為每個文件提供一張清晰的照片或高畫質的掃描檔案。

  • 支援的檔案格式:

    模型 PDF 圖片:
    JPEG/JPG、PNG、BMP、TIFF、HEIF
    Microsoft Office:
    Word(DOCX)、Excel(XLSX)、PowerPoint(PPTX)和 HTML
    參閱
    版面配置 ✔ (2024-02-29-preview, 2023-10-31-preview)
    一般文件
    預建
    自訂擷取
    自訂分類 ✔ (2024-02-29-preview)
  • 若使用 PDF 和 TIFF,最多可處理 2000 頁 (若使用免費層訂閱,則只會處理前兩頁)。

  • 用於分析文件的檔案大小是付費 (S0) 層的 500 MB,免費 #F0 層為 4 MB。

  • 影像維度必須介於 50 x 50 像素和 10,000 x 10,000 像素之間。

  • 如果您的 PDF 有密碼鎖定,則必須先移除鎖定才能提交。

  • 針對 1024 x 768 像素影像的擷取文字高度下限為 12 像素。 此尺寸在 150 點/英吋 (DPI) 時大約相當於 8 點文字。

  • 針對自訂模型定型,自訂範本模型的定型資料頁數上限為 500,而自訂神經網路模型的上限則為 50,000。

    • 針對自訂擷取模型定型,範本模型的定型資料大小總計為 50 MB,而神經模型的大小總計則為 1G-MB。

    • 針對自訂分類模型定型,定型資料的大小總計為 1GB (上限為 10,000 頁)。

開始使用讀取模型

請嘗試使用 Document Intelligence Studio 來擷取表單和文件中的文字。 您需要以下資產:

  • Azure 訂用帳戶-您可以 免費建立一個訂用帳戶。

  • Azure 入口網站中的 Document Intelligence 執行個體。 您可以使用免費定價層 (F0) 來試用服務。 部署資源後,選取 [前往資源] 以取得金鑰和端點。

Azure 入口網站 中金鑰和端點位置的螢幕快照。

注意

Document Intelligence Studio 目前不支援 Microsoft Word、Excel、PowerPoint 和 HTML 檔案格式。

使用 Document Intelligence Studio (英文) 處理的文件範例

在 Document Intelligence Studio 中讀取處理之螢幕擷取畫面。

  1. 在 [Document Intelligence Studio] 首頁上,選取 [ 讀取]。

  2. 您可以分析範例檔或上傳您自己的檔案。

  3. 選取 [ 執行分析] 按鈕,並視需要設定 [分析] 選項

    Document Intelligence Studio 中 [執行分析和分析選項] 按鈕的螢幕快照。

支援的語言和地區設定

如需支援語言的完整清單,請參閱我們的 語言支援 — 檔案分析模型 頁面。

資料擷取

注意

v3.1 和更新版本中支援 Microsoft Word 和 HTML 檔案。 相較於 PDF 和影像,不支援下列功能:

  • 每個頁面對象沒有角度、寬度/高度和單位。
  • 針對偵測到的每個對象,沒有周框多邊形或周框區域。
  • 不支援頁面範圍 (pages) 做為參數。
  • 沒有 lines 物件。

頁面

pages 集合是檔中的頁面清單。 每個頁面都會在檔中循序表示,並包含方向角度,指出頁面是否旋轉,寬度和高度(以像素為單位的維度)。 會計算模型輸出中的頁面單位,如下所示:

檔案格式 計算的頁面單位 總頁數
圖片(JPEG/JPG、PNG、BMP、HEIF) 每個影像 = 1 個頁面單位 影像總計
PDF PDF 每頁 = 1 個頁面單位 PDF 總頁數
TIFF TIFF = 1 個頁面單位中的每個映像 TIFF 中的影像總數
Word (DOCX) 最多 3,000 個字元 = 1 個頁面單位,不支援內嵌或連結的影像 總頁數 (每頁最多 3,000 個字元)
Excel (XLSX) 每個工作表 = 1 個頁面單位,不支援內嵌或連結的影像 工作表總計
PowerPoint (PPTX) 每張投影片 = 1 個頁面單位,不支援內嵌或連結的影像 投影片總計
HTML 最多 3,000 個字元 = 1 個頁面單位,不支援內嵌或連結的影像 總頁數 (每頁最多 3,000 個字元)
"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]
# Analyze pages.
for page in result.pages:
    print(f"----Analyzing document from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )
# Analyze pages.
for page in result.pages:
    print(f"----Analyzing document from page #{page.page_number}----")
    print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

選取用於文字擷取的頁面

若為大型的多頁 PDF 文件,請使用 pages 查詢參數來表示文字擷取的特定頁碼或頁面範圍。

段落

文件智慧服務中的讀取 OCR 模型會擷取 paragraphs 集合中所有已識別的文字區塊,以做為 analyzeResults 底下的最上層物件。 這個集合中的每個專案都代表文本塊,並包含擷取的文字作為content 和周 polygon 框座標。 span 資訊會指向包含文件全文檢索的最上層 content 屬性的文字片段。

"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

文字、行和文字

讀取 OCR 模型會將列印和手寫樣式的文字擷取為 lineswords。 模型會輸出所擷取字組的週框 polygon 座標和 confidence。 若也偵測到指向相關文字的範圍,styles 集合便會包含任何手寫樣式的文字行。 此功能適用於支援的手寫語言

對於 Microsoft Word、Excel、PowerPoint 和 HTML,檔智慧讀取模型 v3.1 和更新版本會依目前擷取所有內嵌文字。 文字會引渡為單字和段落。 不支援內嵌影像。

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )
# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
        words = get_words(page, line)
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
        )

        # Analyze words.
        for word in words:
            print(f"......Word '{word.content}' has a confidence of {word.confidence}")

手寫樣式的文字行

回應會包含辨別每個文字行是否為手寫樣式的分類,以及信賴度分數。 如需詳細資訊,請參閱手寫語言支援。 下列範例顯示 JSON 程式碼片段範例。

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

如果您啟用 字型/樣式附加元件功能,也會取得物件一部分的 styles 字型/樣式結果。

下一步

完成 Document Intelligence 快速入門:

探索 REST API:

在 GitHub 上尋找更多範例:

在 GitHub 上尋找更多範例: