Bagikan melalui


Model baca Kecerdasan Dokumen

Penting

  • Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif. Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
  • Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-07-31-preview.
  • Pratinjau publik versi 2024-07-31-preview saat ini hanya tersedia di wilayah Azure berikut. Perhatikan bahwa model generatif kustom (ekstraksi bidang dokumen) di AI Studio hanya tersedia di wilayah US Tengah Utara:
    • US Timur
    • US Barat2
    • Eropa Barat
    • US Tengah Utara

Konten ini berlaku untuk:tanda centang v4.0 (pratinjau) | Versi sebelumnya: tanda centang biru v3.1 (GA)tanda centang biru v3.0 (GA)

Konten ini berlaku untuk:tanda centang v4.0 (pratinjau) | Versi sebelumnya: tanda centang biru v3.1 (GA)tanda centang biru v3.0 (GA)

Catatan

Untuk mengekstrak teks dari gambar eksternal seperti label, tanda jalan, dan poster, gunakan fitur Azure AI Image Analysis v4.0 Read yang dioptimalkan untuk gambar umum non-dokumen dengan API sinkron yang ditingkatkan performanya yang memudahkan penyematan OCR dalam skenario pengalaman pengguna Anda.

Model Pengenalan Karakter Optik Baca Kecerdasan Dokumen (OCR) berjalan pada resolusi yang lebih tinggi daripada Azure AI Vision Read dan mengekstrak teks cetak dan tulisan tangan dari dokumen PDF dan gambar yang dipindai. Ini juga termasuk dukungan untuk mengekstrak teks dari dokumen Microsoft Word, Excel, PowerPoint, dan HTML. Ini mendeteksi paragraf, baris teks, kata, lokasi, dan bahasa. Model Baca adalah mesin OCR yang mendasari untuk model bawaan Inteligensi Dokumen lainnya seperti dokumen Tata Letak, Dokumen Umum, Faktur, Tanda Terima, Identitas (ID), Kartu asuransi kesehatan, W2 selain model kustom.

Apa itu Pengenalan Karakter Optik?

Pengenalan Karakter Optik (OCR) untuk dokumen dioptimalkan untuk dokumen teks-berat besar dalam beberapa format file dan bahasa global. Ini termasuk fitur seperti pemindaian gambar dokumen resolusi lebih tinggi untuk penanganan teks yang lebih kecil dan padat; deteksi paragraf; dan manajemen formulir yang dapat diisi. Kemampuan OCR juga mencakup skenario lanjutan seperti kotak karakter tunggal dan ekstraksi bidang kunci yang akurat yang umumnya ditemukan dalam faktur, tanda terima, dan skenario bawaan lainnya.

Opsi pengembangan (v4)

Kecerdasan Dokumen v4.0 (pratinjau 2024-07-31) mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Membaca model OCR Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
baca bawaan

Persyaratan input (v4)

  • Format file yang didukung:

    Model PDF Gambar:
    JPEG/JPG, , BMPPNG, TIFF, ,HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Read
    Tata letak ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Dokumen Umum
    Bawaan
    Ekstraksi kustom
    Klasifikasi kustom ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang 8 teks titik pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

    • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.

    • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk pratinjau 2024-07-31 dan yang lebih baru, ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.

Mulai menggunakan model Baca (v4)

Coba ekstrak teks dari formulir dan dokumen menggunakan Studio Kecerdasan Dokumen. Anda memerlukan aset berikut:

  • Langganan Azure—Anda dapat membuatnya secara gratis.

  • Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.

    Cuplikan layar di titik akhir di portal Azure.

Catatan

Saat ini, Document Intelligence Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML.

Contoh dokumen yang diproses dengan Document Intelligence Studio

Cuplikan layar Pemrosesan baca di Studio Kecerdasan Dokumen.

  1. Pada beranda Studio Kecerdasan Dokumen, pilih Baca.

  2. Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.

  3. Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:

    Cuplikan layar tombol Jalankan analisis dan Analisis opsi di Studio Kecerdasan Dokumen.

    Coba Studio Kecerdasan Dokumen.

Bahasa dan lokal yang didukung (v4)

Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.

Ekstraksi data (v4)

Catatan

File Microsoft Word dan HTML didukung di v4.0. Dibandingkan dengan PDF dan gambar, fitur di bawah ini tidak didukung:

  • Tidak ada sudut, lebar/tinggi, dan unit dengan setiap objek halaman.
  • Untuk setiap objek yang terdeteksi, tidak ada poligon pembatas atau wilayah pembatas.
  • Rentang halaman (pages) tidak didukung sebagai parameter.
  • Tidak ada lines objek.

PDF yang dapat dicari

Kemampuan PDF yang dapat dicari memungkinkan Anda mengonversi PDF analog, seperti file PDF gambar yang dipindai, ke PDF dengan teks yang disematkan. Teks yang disematkan memungkinkan pencarian teks mendalam dalam konten PDF yang diekstrak dengan melapisi entitas teks yang terdeteksi di atas file gambar.

Penting

  • Saat ini, kemampuan PDF yang dapat dicari hanya didukung oleh model prebuilt-readRead OCR . Saat menggunakan fitur ini, tentukan modelId sebagai prebuilt-read, karena jenis model lain akan mengembalikan kesalahan untuk versi pratinjau ini.
  • PDF yang dapat dicari disertakan dengan model pratinjau prebuilt-read 2024-07-31 tanpa biaya tambahan untuk menghasilkan output PDF yang dapat dicari.
    • PDF yang dapat dicari saat ini hanya mendukung file PDF sebagai input. Dukungan untuk jenis file lain, seperti file gambar, akan tersedia nanti.

Menggunakan PDF yang dapat dicari

Untuk menggunakan PDF yang dapat dicari, buat POST permintaan menggunakan Analyze operasi dan tentukan format output sebagai pdf:


     POST /documentModels/prebuilt-read:analyze?output=pdf
     {...}
     202

Polling untuk penyelesaian Analyze operasi. Setelah operasi selesai, terbitkan GET permintaan untuk mengambil format PDF dari hasil Analyze operasi.

Setelah berhasil diselesaikan, PDF dapat diambil dan diunduh sebagai application/pdf. Operasi ini memungkinkan pengunduhan langsung bentuk teks PDF yang disematkan alih-alih JSON yang dikodekan Base64.


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
     200 OK
     Content-Type: application/pdf

Parameter halaman

Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:

Format file Unit halaman terkomputasi Total halaman
Gambar (JPEG/JPG, PNG, BMP, HEIF) Setiap gambar = 1 unit halaman Total gambar
PDF Setiap halaman dalam PDF = 1 unit halaman Total halaman dalam PDF
TIFF Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman Total gambar di TIFF
Word (DOCX) Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
Excel (XLSX) Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total lembar kerja
PowerPoint (PPTX) Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total slide
HTML Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Menggunakan halaman untuk ekstraksi teks

Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.

Ekstraksi paragraf

Model Baca OCR dalam Kecerdasan Dokumen mengekstrak semua blok teks yang diidentifikasi dalam paragraphs koleksi sebagai objek tingkat atas di bawah analyzeResults. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagaicontent dan koordinat pembatas polygon . Informasi span menunjuk ke fragmen teks dalam properti tingkat content atas yang berisi teks lengkap dari dokumen.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Ekstraksi teks, baris, dan kata

Model Read OCR mengekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Model mengeluarkan koordinat polygon dan confidence untuk kata-kata yang diekstraksi. Koleksi styles mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.

Untuk Microsoft Word, Excel, PowerPoint, dan HTML, model Baca Inteligensi Dokumen v3.1 dan versi yang lebih baru mengekstrak semua teks yang disematkan apa adanya. Teks dilebarkan sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Ekstraksi gaya tulisan tangan

Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihat dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles dari objek.

Langkah berikutnya v4.0

Selesaikan mulai cepat Inteligensi Dokumen:

Jelajahi REST API kami:

Temukan sampel lainnya di GitHub:

Konten ini berlaku untuk: tanda centang v3.1 (GA) | Versi terbaru: tanda centang ungu v4.0 (pratinjau) | Versi sebelumnya: tanda centang biru v3.0

Konten ini berlaku untuk: tanda centang v3.0 (GA) | Versi terbaru: tanda centang ungu v4.0 (pratinjau)tanda centang ungu v3.1

Catatan

Untuk mengekstrak teks dari gambar eksternal seperti label, tanda jalan, dan poster, gunakan fitur Azure AI Image Analysis v4.0 Read yang dioptimalkan untuk gambar umum non-dokumen dengan API sinkron yang ditingkatkan performanya yang memudahkan penyematan OCR dalam skenario pengalaman pengguna Anda.

Model Pengenalan Karakter Optik Baca Kecerdasan Dokumen (OCR) berjalan pada resolusi yang lebih tinggi daripada Azure AI Vision Read dan mengekstrak teks cetak dan tulisan tangan dari dokumen PDF dan gambar yang dipindai. Ini juga termasuk dukungan untuk mengekstrak teks dari dokumen Microsoft Word, Excel, PowerPoint, dan HTML. Ini mendeteksi paragraf, baris teks, kata, lokasi, dan bahasa. Model Baca adalah mesin OCR yang mendasari untuk model bawaan Inteligensi Dokumen lainnya seperti dokumen Tata Letak, Dokumen Umum, Faktur, Tanda Terima, Identitas (ID), Kartu asuransi kesehatan, W2 selain model kustom.

Apa itu OCR untuk dokumen?

Pengenalan Karakter Optik (OCR) untuk dokumen dioptimalkan untuk dokumen teks-berat besar dalam beberapa format file dan bahasa global. Ini termasuk fitur seperti pemindaian gambar dokumen resolusi lebih tinggi untuk penanganan teks yang lebih kecil dan padat; deteksi paragraf; dan manajemen formulir yang dapat diisi. Kemampuan OCR juga mencakup skenario lanjutan seperti kotak karakter tunggal dan ekstraksi bidang kunci yang akurat yang umumnya ditemukan dalam faktur, tanda terima, dan skenario bawaan lainnya.

Opsi pengembangan

Kecerdasan Dokumen v3.1 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Membaca model OCR Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
baca bawaan

Kecerdasan Dokumen v3.0 mendukung alat, aplikasi, dan pustaka berikut:

Fitur Sumber ID Model
Membaca model OCR Document Intelligence Studio
REST API
C# SDK
Python SDK
Java SDK
JavaScript SDK
baca bawaan

Persyaratan input

  • Format file yang didukung:

    Model PDF Gambar:
    JPEG/JPG, , BMPPNG, TIFF, ,HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
    Read
    Tata letak ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview)
    Dokumen Umum
    Bawaan
    Ekstraksi kustom
    Klasifikasi kustom ✔ (2024-07-31-preview, 2024-02-29-preview)
  • Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.

  • Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).

  • Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan 4 MB secara gratis (F0).

  • Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.

  • Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.

  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang 8 teks titik pada 150 titik per inci (DPI).

  • Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.

    • Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan 1 GB untuk model neural.

    • Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah 1 GB dengan maksimum 10.000 halaman. Untuk pratinjau 2024-07-31 dan yang lebih baru, ukuran total data pelatihan adalah 2 GB dengan maksimum 10.000 halaman.

Mulai menggunakan model Baca

Coba ekstrak teks dari formulir dan dokumen menggunakan Studio Kecerdasan Dokumen. Anda memerlukan aset berikut:

  • Langganan Azure—Anda dapat membuatnya secara gratis.

  • Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.

Cuplikan layar di titik akhir di portal Azure.

Catatan

Saat ini, Document Intelligence Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML.

Contoh dokumen yang diproses dengan Document Intelligence Studio

Cuplikan layar Pemrosesan baca di Studio Kecerdasan Dokumen.

  1. Pada beranda Studio Kecerdasan Dokumen, pilih Baca.

  2. Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.

  3. Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:

    Cuplikan layar tombol Jalankan analisis dan Analisis opsi di Studio Kecerdasan Dokumen.

    Coba Studio Kecerdasan Dokumen.

Bahasa dan lokal yang didukung

Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.

Ekstraksi data

Catatan

File Microsoft Word dan HTML didukung di v3.1 dan versi yang lebih baru. Dibandingkan dengan PDF dan gambar, fitur di bawah ini tidak didukung:

  • Tidak ada sudut, lebar/tinggi, dan unit dengan setiap objek halaman.
  • Untuk setiap objek yang terdeteksi, tidak ada poligon pembatas atau wilayah pembatas.
  • Rentang halaman (pages) tidak didukung sebagai parameter.
  • Tidak ada lines objek.

PDF yang dapat dicari

Kemampuan PDF yang dapat dicari memungkinkan Anda mengonversi PDF analog, seperti file PDF gambar yang dipindai, ke PDF dengan teks yang disematkan. Teks yang disematkan memungkinkan pencarian teks mendalam dalam konten PDF yang diekstrak dengan melapisi entitas teks yang terdeteksi di atas file gambar.

Penting

  • Saat ini, kemampuan PDF yang dapat dicari hanya didukung oleh model prebuilt-readRead OCR . Saat menggunakan fitur ini, tentukan modelId sebagai prebuilt-read, karena jenis model lain akan mengembalikan kesalahan untuk versi pratinjau ini.
  • PDF yang dapat dicari disertakan dengan model pratinjau prebuilt-read 2024-07-31 tanpa biaya tambahan untuk menghasilkan output PDF yang dapat dicari.
    • PDF yang dapat dicari saat ini hanya mendukung file PDF sebagai input. Dukungan untuk jenis file lain, seperti file gambar, akan tersedia nanti.

Gunakan PDF yang dapat dicari

Untuk menggunakan PDF yang dapat dicari, buat POST permintaan menggunakan Analyze operasi dan tentukan format output sebagai pdf:


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

Polling untuk penyelesaian Analyze operasi. Setelah operasi selesai, terbitkan GET permintaan untuk mengambil format PDF dari hasil Analyze operasi.

Setelah berhasil diselesaikan, PDF dapat diambil dan diunduh sebagai application/pdf. Operasi ini memungkinkan pengunduhan langsung bentuk teks PDF yang disematkan alih-alih JSON yang dikodekan Base64.


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

Halaman

Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:

Format file Unit halaman terkomputasi Total halaman
Gambar (JPEG/JPG, PNG, BMP, HEIF) Setiap gambar = 1 unit halaman Total gambar
PDF Setiap halaman dalam PDF = 1 unit halaman Total halaman dalam PDF
TIFF Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman Total gambar di TIFF
Word (DOCX) Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
Excel (XLSX) Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total lembar kerja
PowerPoint (PPTX) Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total slide
HTML Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing
    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]
    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

Pilih halaman untuk ekstraksi teks

Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.

Paragraf

Model Baca OCR dalam Kecerdasan Dokumen mengekstrak semua blok teks yang diidentifikasi dalam paragraphs koleksi sebagai objek tingkat atas di bawah analyzeResults. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagaicontent dan koordinat pembatas polygon . Informasi span menunjuk ke fragmen teks dalam properti tingkat content atas yang berisi teks lengkap dari dokumen.

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

Teks, baris, dan kata

Model Read OCR mengekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Model mengeluarkan koordinat polygon dan confidence untuk kata-kata yang diekstraksi. Koleksi styles mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.

Untuk Microsoft Word, Excel, PowerPoint, dan HTML, model Baca Inteligensi Dokumen v3.1 dan versi yang lebih baru mengekstrak semua teks yang disematkan apa adanya. Teks dilebarkan sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]
    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

Gaya tulisan tangan untuk baris teks

Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihat dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles dari objek.

Langkah berikutnya

Selesaikan mulai cepat Inteligensi Dokumen:

Jelajahi REST API kami:

Temukan sampel lainnya di GitHub: