Model tata letak Kecerdasan Dokumen

Penting

  • Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif.
  • Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
  • Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-02-29-preview.
  • Pratinjau publik versi 2024-02-29-preview saat ini hanya tersedia di wilayah Azure berikut:
  • US Timur
  • US Barat2
  • Eropa Barat

Konten ini berlaku untuk:tanda centangv4.0 (pratinjau) | Versi sebelumnya:tanda centang biruv3.1 (GA)tanda centang biruv3.0 (GA)tanda centang biruv2.1 (GA)

Konten ini berlaku untuk:tanda centangv3.1 (GA) | Versi terbaru:tanda centang unguv4.0 (pratinjau) | Versi sebelumnya:tanda centang biruv3.0tanda centang biruv2.1

Konten ini berlaku untuk:tanda centangv3.0 (GA) | Versi terbaru:tanda centang unguv4.0 (pratinjau)tanda centang unguv3.1 | Versi sebelumnya:tanda centang biruv2.1

Konten ini berlaku untuk:tanda centangv2.1 | Versi terbaru:tanda centang biruv4.0 (pratinjau)

Model tata letak Kecerdasan Dokumen adalah API analisis dokumen berbasis pembelajaran mesin tingkat lanjut yang tersedia di cloud Kecerdasan Dokumen. Ini memungkinkan Anda untuk mengambil dokumen dalam berbagai format dan mengembalikan representasi data terstruktur dari dokumen. API menggabungkan versi yang disempurnakan dari kemampuan Pengenalan Karakter Optik (OCR) kami yang canggih dengan model pembelajaran mendalam untuk mengekstrak teks, tabel, tanda pilihan, dan struktur dokumen.

Analisis tata letak dokumen

Analisis tata letak struktur dokumen adalah proses menganalisis dokumen untuk mengekstrak wilayah yang diminati dan hubungan antar-hubungannya. Tujuannya adalah untuk mengekstrak teks dan elemen struktural dari halaman untuk membangun model pemahaman semantik yang lebih baik. Ada dua jenis peran dalam tata letak dokumen:

  • Peran geometris: Teks, tabel, gambar, dan tanda pilihan adalah contoh peran geometris.
  • Peran logis: Judul, judul, dan footer adalah contoh peran logis teks.

Ilustrasi berikut menunjukkan komponen umum dalam gambar halaman sampel.

Ilustrasi contoh tata letak dokumen.

Opsi pengembangan

Kecerdasan Dokumen v4.0 (2024-02-29-preview, 2023-10-31-preview) mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Model tata letak Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-layout

Kecerdasan Dokumen v3.1 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Model tata letak Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-layout

Kecerdasan Dokumen v3.0 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Model tata letak Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-layout

Kecerdasan Dokumen v2.1 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber
Model tata letak Alat
pelabelan Kecerdasan Dokumen• REST API
SDK
pustaka klien• Kontainer Docker Kecerdasan Dokumen

Persyaratan input

  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Format file yang didukung:

    Model PDF Gambar:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), dan HTML
    Read
    Tata letak ✔ (2024-02-29-preview, 2023-10-31-preview)
    Dokumen Umum
    Bawaan
    Ekstraksi kustom
    Klasifikasi kustom ✔ (Pratinjau 2024-02-29)
  • Untuk PDF dan TIFF, hingga 2000 halaman yang dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan teks sekitar 8-point pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

    • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1G-MB untuk model neural.

    • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1GB dengan maksimum 10.000 halaman.

  • Format file yang didukung: JPEG, PNG, PDF, dan TIFF.
  • Jumlah halaman yang didukung: Untuk PDF dan TIFF, hingga 2.000 halaman diproses. Untuk pelanggan level gratis, hanya dua halaman pertama yang diproses.
  • Ukuran file yang didukung: ukuran file harus kurang dari 50 MB dan dimensi minimal 50 x 50 piksel dan paling banyak 10.000 x 10.000 piksel.

Mulai menggunakan model Tata Letak

Lihat bagaimana data, termasuk teks, tabel, header tabel, tanda pilihan, dan informasi struktur diekstrak dari dokumen menggunakan Kecerdasan Dokumen. Anda membutuhkan sumber daya berikut:

  • Langganan Azure—Anda dapat membuatnya secara gratis.

  • Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.

Cuplikan layar di titik akhir di portal Azure.

Catatan

Document Intelligence Studio tersedia dengan API v3.0 dan versi yang lebih baru.

Contoh dokumen yang diproses dengan Document Intelligence Studio

Cuplikan layar 'Tata Letak' memproses halaman koran di Studio Kecerdasan Dokumen.

  1. Pada beranda Studio Kecerdasan Dokumen, pilih Tata Letak.

  2. Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.

  3. Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:

    Cuplikan layar tombol Jalankan analisis dan Analisis opsi di Studio Kecerdasan Dokumen.

    Coba Studio Kecerdasan Dokumen.

Alat Pelabelan Sampel Kecerdasan Dokumen

  1. Navigasikan ke alat sampel Kecerdasan Dokumen.

  2. Pada beranda alat sampel, pilih Gunakan Tata Letak untuk mendapatkan teks, tabel, dan tanda pilihan.

    Cuplikan layar pengaturan koneksi untuk proses tata letak Kecerdasan Dokumen.

  3. Di bidang titik akhir layanan Inteligensi Dokumen, tempelkan titik akhir yang Anda peroleh dengan langganan Kecerdasan Dokumen Anda.

  4. Di bidang kunci, tempelkan kunci yang Anda peroleh dari sumber daya Kecerdasan Dokumen Anda.

  5. Di bidang Sumber, pilih URL dari menu dropdown Anda dapat menggunakan dokumen sampel kami:

  6. Pilih Jalankan Tata letak. Alat Pelabelan Sampel Kecerdasan Dokumen memanggil Analyze Layout API untuk menganalisis dokumen.

    Cuplikan layar jendela dropdown 'Tata Letak'.

  7. Lihat hasilnya - lihat teks yang diekstrak yang disorot, tanda pilihan yang terdeteksi, dan tabel yang terdeteksi.

    Cuplikan layar pengaturan koneksi untuk alat Pelabelan Sampel Kecerdasan Dokumen.

Bahasa dan lokal yang didukung

Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.

Kecerdasan Dokumen v2.1 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber
API Tata Letak

Ekstraksi data

Model tata letak mengekstrak teks, tanda pilihan, tabel, paragraf, dan jenis paragraf (roles) dari dokumen Anda.

Catatan

2024-02-29-previewVersi , 2023-10-31-preview, dan yang lebih baru mendukung file Microsoft office (DOCX, XLSX, PPTX) dan HTML. Fitur berikut tidak didukung:

  • Tidak ada sudut, lebar/tinggi, dan unit dengan setiap objek halaman.
  • Untuk setiap objek yang terdeteksi, tidak ada poligon pembatas atau wilayah pembatas.
  • Rentang halaman (pages) tidak didukung sebagai parameter.
  • Tidak ada lines objek.

Halaman

Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:

Format file Unit halaman terkomputasi Total halaman
Gambar (JPEG/JPG, PNG, BMP, HEIF) Setiap gambar = 1 unit halaman Total gambar
PDF Setiap halaman dalam PDF = 1 unit halaman Total halaman dalam PDF
TIFF Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman Total gambar di TIFF
Word (DOCX) Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
Excel (XLSX) Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total lembar kerja
PowerPoint (PPTX) Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total slide
HTML Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Mengekstrak halaman yang dipilih dari dokumen

Untuk dokumen yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks.

Paragraf

Model Tata Letak mengekstrak semua blok teks yang diidentifikasi dalam koleksi paragraphs sebagai objek tingkat atas di bawah analyzeResults. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagai contentdan koordinat polygon pembatas. Informasi spanmenunjuk ke fragmen teks dalam properti content tingkat atas yang berisi teks lengkap dari dokumen.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Peran paragraf

Deteksi objek halaman berbasis pembelajaran mesin baru mengekstrak peran logis seperti judul, judul bagian, header halaman, footer halaman, dan banyak lagi. Model Tata Letak Kecerdasan Dokumen menetapkan blok teks tertentu dalam paragraphs koleksi dengan peran atau jenis khusus yang diprediksi oleh model. Mereka paling baik digunakan dengan dokumen yang tidak terstruktur untuk membantu memahami tata letak konten yang diekstrak untuk analisis semantik yang lebih kaya. Peran paragraf berikut didukung:

Peran yang diprediksi Keterangan Jenis file yang didukung
title Judul utama di halaman pdf, gambar, docx, pptx, xlsx, html
sectionHeading Satu atau beberapa subjudul di halaman pdf, image, docx, xlsx, html
footnote Teks di dekat bagian bawah halaman pdf, gambar
pageHeader Teks di dekat tepi atas halaman pdf, image, docx
pageFooter Teks di dekat tepi bawah halaman pdf, gambar, docx, pptx, html
pageNumber Nomor halaman pdf, gambar
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Teks, baris, dan kata

Model tata letak dokumen dalam Kecerdasan Dokumen mengekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Koleksi styles mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.

Untuk Microsoft Word, Excel, PowerPoint, dan HTML, Kecerdasan Dokumen versi 2024-02-29-preview dan model Tata Letak pratinjau 2023-10-31 mengekstrak semua teks yang disematkan apa adanya. Teks diekstrak sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Gaya tulisan tangan untuk baris teks

Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya. Lihat Dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles dari objek.

Tanda pilihan

Model Tata Letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak muncul di dalam koleksi pages untuk setiap halaman. Mereka termasuk batas polygon, confidence, dan pilihan state (selected/unselected). Representasi teks (yaitu, :selected: dan :unselected) juga disertakan sebagai indeks awal (offset) dan length yang mereferensikan properti tingkat content atas yang berisi teks lengkap dari dokumen.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Tabel

Mengekstrak tabel adalah persyaratan utama untuk memproses dokumen yang berisi data dalam volume besar yang biasanya diformat sebagai tabel. Model Tata Letak mengekstrak tabel di bagian pageResults output JSON. Informasi tabel yang diekstrak mencakup jumlah kolom dan baris, rentang baris, dan rentang kolom. Setiap sel dengan poligon pembatasnya adalah output bersama dengan informasi apakah area dikenali sebagai atau columnHeader tidak. Model ini mendukung ekstraksi tabel yang diputar. Setiap sel tabel berisi indeks baris dan kolom dan koordinat poligon pembatas. Untuk teks sel, model menghasilkan informasi span yang berisi indeks awal (offset). Model ini juga mengeluarkan length dalam konten tingkat atas yang berisi teks lengkap dari dokumen.

Catatan

Tabel tidak didukung jika file input adalah XLSX.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Anotasi (hanya tersedia di 2023-02-28-preview API.)

Model Tata Letak mengekstrak anotasi dalam dokumen, seperti pemeriksaan dan silang. Responsnya mencakup jenis anotasi, bersama dengan skor keyakinan dan poligon pembatas.

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

Output ke format markdown

API Tata Letak dapat menghasilkan teks yang diekstrak dalam format markdown. outputContentFormat=markdown Gunakan untuk menentukan format output dalam markdown. Konten markdown adalah output sebagai bagian dari bagian content .

"analyzeResult": {
"apiVersion": "2024-02-29-preview",
"modelId": "prebuilt-layout",
"contentFormat": "markdown",
"content": "# CONTOSO LTD...",
}

Angka

Gambar (bagan, gambar) dalam dokumen memainkan peran penting dalam melengkapi dan meningkatkan konten tekstual, memberikan representasi visual yang membantu pemahaman informasi yang kompleks. Objek gambar yang terdeteksi oleh model Tata Letak memiliki properti utama seperti boundingRegions (lokasi spasial gambar pada halaman dokumen, termasuk nomor halaman dan koordinat poligon yang menguraikan batas gambar), spans (merinci rentang teks yang terkait dengan gambar, menentukan offset dan panjangnya dalam teks dokumen. Koneksi ini membantu mengaitkan gambar dengan konteks tekstual yang relevan), elements (pengidentifikasi untuk elemen teks atau paragraf dalam dokumen yang terkait dengan atau menggambarkan gambar) dan caption jika ada.

{
    "figures": [
      {
        "boundingRegions": [],
        "spans": [],
        "elements": [
          "/paragraphs/15",
          ...
        ],
        "caption": {
          "content": "Here is a figure with some text",
          "boundingRegions": [],
          "spans": [],
          "elements": [
            "/paragraphs/15"
          ]
        }
      }
    ]
}

Bagian

Analisis struktur dokumen hierarkis sangat penting dalam mengatur, memahami, dan memproses dokumen yang luas. Pendekatan ini sangat penting untuk mensegmentasi dokumen panjang secara semantik untuk meningkatkan pemahaman, memfasilitasi navigasi, dan meningkatkan pengambilan informasi. Munculnya Retrieval Augmented Generation (RAG) dalam AI generatif dokumen menggarisbawahi pentingnya analisis struktur dokumen hierarkis. Model Tata Letak mendukung bagian dan subbagian dalam output, yang mengidentifikasi hubungan bagian dan objek dalam setiap bagian. Struktur hierarki dipertahankan di elements setiap bagian. Anda dapat menggunakan output untuk menandai format untuk dengan mudah mendapatkan bagian dan subbagian dalam markdown.

{
    "sections": [
      {
        "spans": [],
        "elements": [
          "/paragraphs/0",
          "/sections/1",
          "/sections/2",
          "/sections/5"
        ]
      },
...
}

Output urutan baca alami (hanya Latin)

Anda dapat menentukan urutan output baris teks dengan parameter kueri readingOrder. Gunakan natural untuk output urutan membaca yang lebih dapat dipahami manusia seperti yang ditunjukkan pada contoh berikut. Fitur ini hanya didukung untuk bahasa Latin.

Cuplikan layar pemrosesan urutan baca model 'tata letak'.

Pilih nomor halaman atau rentang untuk ekstraksi teks

Untuk dokumen yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk ekstraksi teks. Contoh berikut memperlihatkan dokumen dengan 10 halaman, dengan teks yang diekstrak untuk kedua kasus - semua halaman (1-10) dan halaman yang dipilih (3-6).

Cuplikan layar model tata letak output halaman yang dipilih.

Operasi Dapatkan Hasil Analisis Tata Letak

Langkah kedua adalah memanggil operasi Dapatkan Hasil Analisis Tata Letak. Operasi ini mengambil sebagai input ID Hasil yang Analyze Layout dibuat operasi. Operasi menghasilkan respons JSON yang berisi bidang status dengan kemungkinan nilai berikut.

Bidang Jenis Nilai yang dapat dipakai
status string notStarted: Operasi analisis tidak dimulai.
running
: Operasi analisis sedang berlangsung.
failed
: Operasi analisis gagal.

succeeded: Operasi analisis berhasil.

Panggil operasi ini secara berulang hingga menghasilkan nilai succeeded. Untuk menghindari melebihi tarif permintaan per detik (RPS), gunakan interval 3 hingga 5 detik.

Saat bidang status memiliki succeeded nilai , respons JSON menyertakan tata letak, teks, tabel, dan tanda pilihan yang diekstrak. Data yang diekstrak meliputi baris teks dan kata yang diekstrak, kotak pembatas, tampilan teks dengan indikasi tulisan tangan, tabel, dan tanda pilihan dengan indikasi terpilih/tidak terpilih.

Klasifikasi tulisan tangan untuk baris teks (hanya dalam bahasa Latin)

Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Fitur ini hanya didukung untuk bahasa Latin. Contoh berikut menunjukkan klasifikasi tulisan tangan untuk teks dalam gambar.

Cuplikan layar proses klasifikasi tulisan tangan model 'tata letak'.

Sampel output JSON

Respons terhadap operasi Dapatkan Hasil Analisis Tata Letak adalah representasi terstruktur dari dokumen dengan semua informasi yang diekstrak. Lihat di sini untuk file dokumen sampel dan output terstruktur output tata letak sampel.

Output JSON memiliki dua bagian:

  • readResults node berisi semua teks yang dikenali dan tanda pilihan. Hierarki presentasi teks adalah halaman, lalu baris, lalu kata individual.
  • pageResults node berisi tabel dan sel yang diekstrak dengan kotak pembatas, keyakinan, dan referensi ke baris dan kata di bidang "readResults".

Contoh Keluaran

Teks

API tata letak mengekstrak teks dari dokumen dan gambar dengan berbagai sudut dan warna teks. API menerima foto dokumen, faks, teks cetak dan/atau tulisan tangan (hanya dalam bahasa Inggris), dan mode campuran. Teks diekstrak dengan informasi yang diberikan pada garis, kata, kotak pembatas, skor keyakinan, dan gaya (tulisan tangan atau lainnya). Semua informasi teks disertakan dalam bagian readResults dari output JSON.

Tabel dengan header

API Tata Letak mengekstrak tabel di bagian pageResults dari output JSON. Dokumen dapat dipindai, difoto, atau di buat digital. Tabel dapat menjadi rumit dengan sel atau kolom yang digabungkan, dengan atau tanpa batas, dan dengan sudut ganjil. Informasi tabel yang diekstrak mencakup jumlah kolom dan baris, rentang baris, dan rentang kolom. Setiap sel dengan kotak pembatasnya adalah output bersama dengan apakah area dikenali sebagai bagian dari header atau tidak. Model sel header yang diprediksi dapat menjangkau beberapa baris dan belum tentu merupakan baris pertama dalam tabel. Model juga bekerja dengan tabel yang diputar. Setiap sel tabel juga menyertakan teks lengkap dengan referensi ke masing-masing kata di bagian readResults.

Contoh tabel

Tanda pilihan

API tata letak juga mengekstrak tanda pilihan dari dokumen. Tanda pilihan yang diekstrak termasuk kotak pembatas, keyakinan, dan status (dipilih/tidak dipilih). Informasi tanda pilihan diekstrak di bagian readResults dari output JSON.

Panduan migrasi

Langkah berikutnya