Model baca Kecerdasan Dokumen
Penting
- Rilis pratinjau publik Kecerdasan Dokumen menyediakan akses awal ke fitur yang sedang dalam pengembangan aktif. Fitur, pendekatan, dan proses dapat berubah, sebelum Ketersediaan Umum (GA), berdasarkan umpan balik pengguna.
- Versi pratinjau publik pustaka klien Kecerdasan Dokumen default ke REST API versi 2024-07-31-preview.
- Pratinjau publik versi 2024-07-31-preview saat ini hanya tersedia di wilayah Azure berikut. Perhatikan bahwa model generatif kustom (ekstraksi bidang dokumen) di AI Studio hanya tersedia di wilayah US Tengah Utara:
- US Timur
- US Barat2
- Eropa Barat
- US Tengah Utara
Konten ini berlaku untuk: v4.0 (pratinjau) | Versi sebelumnya: v3.1 (GA) v3.0 (GA)
Konten ini berlaku untuk: v4.0 (pratinjau) | Versi sebelumnya: v3.1 (GA) v3.0 (GA)
Catatan
Untuk mengekstrak teks dari gambar eksternal seperti label, tanda jalan, dan poster, gunakan fitur Azure AI Image Analysis v4.0 Read yang dioptimalkan untuk gambar umum non-dokumen dengan API sinkron yang ditingkatkan performanya yang memudahkan penyematan OCR dalam skenario pengalaman pengguna Anda.
Model Pengenalan Karakter Optik Baca Kecerdasan Dokumen (OCR) berjalan pada resolusi yang lebih tinggi daripada Azure AI Vision Read dan mengekstrak teks cetak dan tulisan tangan dari dokumen PDF dan gambar yang dipindai. Ini juga termasuk dukungan untuk mengekstrak teks dari dokumen Microsoft Word, Excel, PowerPoint, dan HTML. Ini mendeteksi paragraf, baris teks, kata, lokasi, dan bahasa. Model Baca adalah mesin OCR yang mendasari untuk model bawaan Inteligensi Dokumen lainnya seperti dokumen Tata Letak, Dokumen Umum, Faktur, Tanda Terima, Identitas (ID), Kartu asuransi kesehatan, W2 selain model kustom.
Apa itu Pengenalan Karakter Optik?
Pengenalan Karakter Optik (OCR) untuk dokumen dioptimalkan untuk dokumen teks-berat besar dalam beberapa format file dan bahasa global. Ini termasuk fitur seperti pemindaian gambar dokumen resolusi lebih tinggi untuk penanganan teks yang lebih kecil dan padat; deteksi paragraf; dan manajemen formulir yang dapat diisi. Kemampuan OCR juga mencakup skenario lanjutan seperti kotak karakter tunggal dan ekstraksi bidang kunci yang akurat yang umumnya ditemukan dalam faktur, tanda terima, dan skenario bawaan lainnya.
Opsi pengembangan (v4)
Kecerdasan Dokumen v4.0 (pratinjau 2024-07-31) mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Membaca model OCR | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
baca bawaan |
Persyaratan input (v4)
Format file yang didukung:
Model PDF Gambar: JPEG/JPG
, ,BMP
PNG
,TIFF
, ,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLRead ✔ ✔ ✔ Tata letak ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Dokumen Umum ✔ ✔ Bawaan ✔ ✔ Ekstraksi kustom ✔ ✔ Klasifikasi kustom ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan
4
MB secara gratis (F0).Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang
8
teks titik pada 150 titik per inci (DPI).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan
1
GB untuk model neural.Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1
GB dengan maksimum 10.000 halaman. Untuk pratinjau 2024-07-31 dan yang lebih baru, ukuran total data pelatihan adalah2
GB dengan maksimum 10.000 halaman.
Mulai menggunakan model Baca (v4)
Coba ekstrak teks dari formulir dan dokumen menggunakan Studio Kecerdasan Dokumen. Anda memerlukan aset berikut:
Langganan Azure—Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (
F0
) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Catatan
Saat ini, Document Intelligence Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML.
Contoh dokumen yang diproses dengan Document Intelligence Studio
Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.
Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:
Coba Studio Kecerdasan Dokumen.
Bahasa dan lokal yang didukung (v4)
Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.
Ekstraksi data (v4)
Catatan
File Microsoft Word dan HTML didukung di v4.0. Dibandingkan dengan PDF dan gambar, fitur di bawah ini tidak didukung:
- Tidak ada sudut, lebar/tinggi, dan unit dengan setiap objek halaman.
- Untuk setiap objek yang terdeteksi, tidak ada poligon pembatas atau wilayah pembatas.
- Rentang halaman (
pages
) tidak didukung sebagai parameter. - Tidak ada
lines
objek.
PDF yang dapat dicari
Kemampuan PDF yang dapat dicari memungkinkan Anda mengonversi PDF analog, seperti file PDF gambar yang dipindai, ke PDF dengan teks yang disematkan. Teks yang disematkan memungkinkan pencarian teks mendalam dalam konten PDF yang diekstrak dengan melapisi entitas teks yang terdeteksi di atas file gambar.
Penting
- Saat ini, kemampuan PDF yang dapat dicari hanya didukung oleh model
prebuilt-read
Read OCR . Saat menggunakan fitur ini, tentukanmodelId
sebagaiprebuilt-read
, karena jenis model lain akan mengembalikan kesalahan untuk versi pratinjau ini. - PDF yang dapat dicari disertakan dengan model pratinjau
prebuilt-read
2024-07-31 tanpa biaya tambahan untuk menghasilkan output PDF yang dapat dicari.- PDF yang dapat dicari saat ini hanya mendukung file PDF sebagai input. Dukungan untuk jenis file lain, seperti file gambar, akan tersedia nanti.
Menggunakan PDF yang dapat dicari
Untuk menggunakan PDF yang dapat dicari, buat POST
permintaan menggunakan Analyze
operasi dan tentukan format output sebagai pdf
:
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
Polling untuk penyelesaian Analyze
operasi. Setelah operasi selesai, terbitkan GET
permintaan untuk mengambil format PDF dari hasil Analyze
operasi.
Setelah berhasil diselesaikan, PDF dapat diambil dan diunduh sebagai application/pdf
. Operasi ini memungkinkan pengunduhan langsung bentuk teks PDF yang disematkan alih-alih JSON yang dikodekan Base64.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
Parameter halaman
Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:
Format file | Unit halaman terkomputasi | Total halaman |
---|---|---|
Gambar (JPEG/JPG, PNG, BMP, HEIF) | Setiap gambar = 1 unit halaman | Total gambar |
Setiap halaman dalam PDF = 1 unit halaman | Total halaman dalam PDF | |
TIFF | Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman | Total gambar di TIFF |
Word (DOCX) | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
Excel (XLSX) | Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total lembar kerja |
PowerPoint (PPTX) | Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total slide |
HTML | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Menggunakan halaman untuk ekstraksi teks
Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages
untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.
Ekstraksi paragraf
Model Baca OCR dalam Kecerdasan Dokumen mengekstrak semua blok teks yang diidentifikasi dalam paragraphs
koleksi sebagai objek tingkat atas di bawah analyzeResults
. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagaicontent
dan koordinat pembatas polygon
. Informasi span
menunjuk ke fragmen teks dalam properti tingkat content
atas yang berisi teks lengkap dari dokumen.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Ekstraksi teks, baris, dan kata
Model Read OCR mengekstrak teks gaya cetak dan tulisan tangan sebagai lines
dan words
. Model mengeluarkan koordinat polygon
dan confidence
untuk kata-kata yang diekstraksi. Koleksi styles
mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.
Untuk Microsoft Word, Excel, PowerPoint, dan HTML, model Baca Inteligensi Dokumen v3.1 dan versi yang lebih baru mengekstrak semua teks yang disematkan apa adanya. Teks dilebarkan sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Ekstraksi gaya tulisan tangan
Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihat dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles
dari objek.
Langkah berikutnya v4.0
Selesaikan mulai cepat Inteligensi Dokumen:
Jelajahi REST API kami:
Temukan sampel lainnya di GitHub:
Konten ini berlaku untuk: v3.1 (GA) | Versi terbaru: v4.0 (pratinjau) | Versi sebelumnya: v3.0
Konten ini berlaku untuk: v3.0 (GA) | Versi terbaru: v4.0 (pratinjau) v3.1
Catatan
Untuk mengekstrak teks dari gambar eksternal seperti label, tanda jalan, dan poster, gunakan fitur Azure AI Image Analysis v4.0 Read yang dioptimalkan untuk gambar umum non-dokumen dengan API sinkron yang ditingkatkan performanya yang memudahkan penyematan OCR dalam skenario pengalaman pengguna Anda.
Model Pengenalan Karakter Optik Baca Kecerdasan Dokumen (OCR) berjalan pada resolusi yang lebih tinggi daripada Azure AI Vision Read dan mengekstrak teks cetak dan tulisan tangan dari dokumen PDF dan gambar yang dipindai. Ini juga termasuk dukungan untuk mengekstrak teks dari dokumen Microsoft Word, Excel, PowerPoint, dan HTML. Ini mendeteksi paragraf, baris teks, kata, lokasi, dan bahasa. Model Baca adalah mesin OCR yang mendasari untuk model bawaan Inteligensi Dokumen lainnya seperti dokumen Tata Letak, Dokumen Umum, Faktur, Tanda Terima, Identitas (ID), Kartu asuransi kesehatan, W2 selain model kustom.
Apa itu OCR untuk dokumen?
Pengenalan Karakter Optik (OCR) untuk dokumen dioptimalkan untuk dokumen teks-berat besar dalam beberapa format file dan bahasa global. Ini termasuk fitur seperti pemindaian gambar dokumen resolusi lebih tinggi untuk penanganan teks yang lebih kecil dan padat; deteksi paragraf; dan manajemen formulir yang dapat diisi. Kemampuan OCR juga mencakup skenario lanjutan seperti kotak karakter tunggal dan ekstraksi bidang kunci yang akurat yang umumnya ditemukan dalam faktur, tanda terima, dan skenario bawaan lainnya.
Opsi pengembangan
Kecerdasan Dokumen v3.1 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Membaca model OCR | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
baca bawaan |
Kecerdasan Dokumen v3.0 mendukung alat, aplikasi, dan pustaka berikut:
Fitur | Sumber | ID Model |
---|---|---|
Membaca model OCR | • Document Intelligence Studio • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK |
baca bawaan |
Persyaratan input
Format file yang didukung:
Model PDF Gambar: JPEG/JPG
, ,BMP
PNG
,TIFF
, ,HEIF
Microsoft Office:
Word (DOCX
), Excel (XLSX
), PowerPoint (PPTX
), HTMLRead ✔ ✔ ✔ Tata letak ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Dokumen Umum ✔ ✔ Bawaan ✔ ✔ Ekstraksi kustom ✔ ✔ Klasifikasi kustom ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Untuk hasil terbaik, berikan satu foto yang jelas atau pemindaian berkualitas tinggi per dokumen.
Untuk PDF dan TIFF, hingga 2.000 halaman dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
Ukuran file untuk menganalisis dokumen adalah 500 MB untuk tingkat berbayar (S0) dan
4
MB secara gratis (F0).Dimensi gambar harus antara 50 piksel x 50 piksel dan 10.000 piksel x 10.000 piksel.
Jika PDF Anda dikunci dengan kata sandi, Anda harus menghapus kunci sebelum pengiriman.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar piksel 1024 x 768. Dimensi ini sesuai dengan tentang
8
teks titik pada 150 titik per inci (DPI).Untuk pelatihan model kustom, jumlah maksimum halaman untuk data pelatihan adalah 500 untuk model template kustom dan 50.000 untuk model neural kustom.
Untuk pelatihan model ekstraksi kustom, ukuran total data pelatihan adalah 50 MB untuk model templat dan
1
GB untuk model neural.Untuk pelatihan model klasifikasi kustom, ukuran total data pelatihan adalah
1
GB dengan maksimum 10.000 halaman. Untuk pratinjau 2024-07-31 dan yang lebih baru, ukuran total data pelatihan adalah2
GB dengan maksimum 10.000 halaman.
Mulai menggunakan model Baca
Coba ekstrak teks dari formulir dan dokumen menggunakan Studio Kecerdasan Dokumen. Anda memerlukan aset berikut:
Langganan Azure—Anda dapat membuatnya secara gratis.
Instans Kecerdasan Dokumen di portal Azure. Anda dapat menggunakan tingkat harga gratis (
F0
) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, pilih Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Catatan
Saat ini, Document Intelligence Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML.
Contoh dokumen yang diproses dengan Document Intelligence Studio
Anda dapat menganalisis contoh dokumen atau mengunggah file Anda sendiri.
Pilih tombol Jalankan analisis dan, jika perlu, konfigurasikan opsi Analisis:
Coba Studio Kecerdasan Dokumen.
Bahasa dan lokal yang didukung
Lihat halaman Dukungan Bahasa—model analisis dokumen untuk daftar lengkap bahasa yang didukung.
Ekstraksi data
Catatan
File Microsoft Word dan HTML didukung di v3.1 dan versi yang lebih baru. Dibandingkan dengan PDF dan gambar, fitur di bawah ini tidak didukung:
- Tidak ada sudut, lebar/tinggi, dan unit dengan setiap objek halaman.
- Untuk setiap objek yang terdeteksi, tidak ada poligon pembatas atau wilayah pembatas.
- Rentang halaman (
pages
) tidak didukung sebagai parameter. - Tidak ada
lines
objek.
PDF yang dapat dicari
Kemampuan PDF yang dapat dicari memungkinkan Anda mengonversi PDF analog, seperti file PDF gambar yang dipindai, ke PDF dengan teks yang disematkan. Teks yang disematkan memungkinkan pencarian teks mendalam dalam konten PDF yang diekstrak dengan melapisi entitas teks yang terdeteksi di atas file gambar.
Penting
- Saat ini, kemampuan PDF yang dapat dicari hanya didukung oleh model
prebuilt-read
Read OCR . Saat menggunakan fitur ini, tentukanmodelId
sebagaiprebuilt-read
, karena jenis model lain akan mengembalikan kesalahan untuk versi pratinjau ini. - PDF yang dapat dicari disertakan dengan model pratinjau
prebuilt-read
2024-07-31 tanpa biaya tambahan untuk menghasilkan output PDF yang dapat dicari.- PDF yang dapat dicari saat ini hanya mendukung file PDF sebagai input. Dukungan untuk jenis file lain, seperti file gambar, akan tersedia nanti.
Gunakan PDF yang dapat dicari
Untuk menggunakan PDF yang dapat dicari, buat POST
permintaan menggunakan Analyze
operasi dan tentukan format output sebagai pdf
:
POST /documentModels/prebuilt-read:analyze?output=pdf
{...}
202
Polling untuk penyelesaian Analyze
operasi. Setelah operasi selesai, terbitkan GET
permintaan untuk mengambil format PDF dari hasil Analyze
operasi.
Setelah berhasil diselesaikan, PDF dapat diambil dan diunduh sebagai application/pdf
. Operasi ini memungkinkan pengunduhan langsung bentuk teks PDF yang disematkan alih-alih JSON yang dikodekan Base64.
// Monitor the operation until completion.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}
200
{...}
// Upon successful completion, retrieve the PDF as application/pdf.
GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
200 OK
Content-Type: application/pdf
Halaman
Kumpulan halaman adalah daftar halaman dalam dokumen. Setiap halaman diwakili secara berurutan dalam dokumen dan menyertakan sudut orientasi yang menunjukkan apakah halaman diputar dan lebar dan tinggi (dimensi dalam piksel). Unit halaman dalam output model dihitung seperti yang ditunjukkan:
Format file | Unit halaman terkomputasi | Total halaman |
---|---|---|
Gambar (JPEG/JPG, PNG, BMP, HEIF) | Setiap gambar = 1 unit halaman | Total gambar |
Setiap halaman dalam PDF = 1 unit halaman | Total halaman dalam PDF | |
TIFF | Setiap gambar dalam Format File Gambar Bertag = 1 unit halaman | Total gambar di TIFF |
Word (DOCX) | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
Excel (XLSX) | Setiap lembar kerja = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total lembar kerja |
PowerPoint (PPTX) | Setiap slide = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total slide |
HTML | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing document from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Pilih halaman untuk ekstraksi teks
Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages
untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.
Paragraf
Model Baca OCR dalam Kecerdasan Dokumen mengekstrak semua blok teks yang diidentifikasi dalam paragraphs
koleksi sebagai objek tingkat atas di bawah analyzeResults
. Setiap entri dalam koleksi ini mewakili blok teks dan menyertakan teks yang diekstrak sebagaicontent
dan koordinat pembatas polygon
. Informasi span
menunjuk ke fragmen teks dalam properti tingkat content
atas yang berisi teks lengkap dari dokumen.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Teks, baris, dan kata
Model Read OCR mengekstrak teks gaya cetak dan tulisan tangan sebagai lines
dan words
. Model mengeluarkan koordinat polygon
dan confidence
untuk kata-kata yang diekstraksi. Koleksi styles
mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.
Untuk Microsoft Word, Excel, PowerPoint, dan HTML, model Baca Inteligensi Dokumen v3.1 dan versi yang lebih baru mengekstrak semua teks yang disematkan apa adanya. Teks dilebarkan sebagai kata dan paragraf. Gambar yang disematkan tidak didukung.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
Gaya tulisan tangan untuk baris teks
Respons meliputi pengklasifikasian apakah setiap baris teks memiliki gaya tulisan tangan atau tidak, bersama dengan skor keyakinan. Untuk informasi selengkapnya, lihat dukungan bahasa tulisan tangan. Contoh berikut menunjukkan contoh cuplikan JSON.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Jika Anda mengaktifkan kemampuan addon font/style, Anda juga mendapatkan hasil font/gaya sebagai bagian styles
dari objek.
Langkah berikutnya
Selesaikan mulai cepat Inteligensi Dokumen:
Jelajahi REST API kami:
Temukan sampel lainnya di GitHub: