OCR - Pengenalan Karakter Optik

2024-10-17

Peringatan

Layanan ini, termasuk API OCR warisan Azure AI Vision di v3.2 dan RecognizeText API di v2.1, tidak disarankan untuk digunakan.

Edisi OCR (Baca)

Penting

Pilih Edisi Baca yang paling sesuai dengan kebutuhan Anda.

Masukan	Contoh	Edisi baca	Keuntungan
Gambar: Gambar umum, di alam bebas	label, tanda jalan, dan poster	OCR untuk gambar (versi 4.0)	Dioptimalkan untuk gambar umum non-dokumen dengan API sinkron yang ditingkatkan performanya yang memudahkan penyematan OCR dalam skenario pengalaman pengguna Anda.
Dokumen: Digital dan dipindai, termasuk gambar	buku, artikel, dan laporan	Model Pembacaan Kecerdasan Dokumen	Dioptimalkan untuk dokumen dengan teks yang berat, baik yang dipindai maupun digital, dengan API asinkron untuk membantu mengotomatiskan pemrosesan dokumen secara cerdas dalam skala besar.

Tentang Azure AI Vision v3.2 GA Read

Apakah Anda mencari versi terbaru dari Azure AI Vision v3.2 GA Read? Semua penyempurnaan Read OCR di masa mendatang adalah bagian dari dua layanan yang tercantum sebelumnya. Tidak ada pembaruan lebih lanjut untuk Azure AI Vision v3.2. Untuk informasi selengkapnya, lihat Memanggil AZURE AI Vision 3.2 GA Read API dan Quickstart: Azure AI Vision v3.2 GA Read.

Pengenalan Karakter OCR atau Optik juga disebut sebagai pengenalan teks atau ekstraksi teks. Teknik OCR berbasis pembelajaran mesin memungkinkan Anda mengekstrak teks cetak atau tulisan tangan dari gambar seperti poster, tanda jalan dan label produk, serta dari dokumen seperti artikel, laporan, formulir, dan faktur. Teks biasanya diekstrak sebagai kata, baris teks, dan paragraf atau blok teks, memungkinkan akses ke versi digital teks yang dipindai. Ini menghilangkan atau secara signifikan mengurangi kebutuhan akan entri data manual.

Mesin OCR

Mesin Read OCR Microsoft terdiri dari beberapa model berbasis pembelajaran mesin canggih yang mendukung bahasa global. Ini dapat mengekstrak teks cetak dan tulisan tangan termasuk bahasa campuran dan gaya penulisan. Baca tersedia sebagai layanan cloud dan kontainer lokal untuk fleksibilitas penyebaran. Ini juga tersedia sebagai API sinkron untuk skenario tunggal, non-dokumen, khusus gambar dengan peningkatan performa yang memudahkan penerapan pengalaman pengguna yang dibantu OCR.

Pemrosesan Dokumen Cerdas (IDP) menggunakan OCR sebagai teknologi dasarnya untuk mengekstrak struktur, hubungan, nilai kunci, entitas, dan wawasan berpusat pada dokumen lainnya dengan layanan AI berbasis pembelajaran mesin tingkat lanjut seperti Kecerdasan Dokumen. Kecerdasan Dokumen menyertakan versi Read yang dioptimalkan untuk dokumen sebagai mesin OCR-nya, sambil mendelegasikan kepada model lain untuk mendapatkan wawasan mendalam. Jika Anda mengekstrak teks dari dokumen yang dipindai dan digital, gunakan Document Intelligence Read OCR.

Cara menggunakan OCR

Cobalah OCR dengan menggunakan Vision Studio. Kemudian ikuti salah satu tautan ke edisi Baca yang paling sesuai dengan kebutuhan Anda.

Coba Vision Studio

Cuplikan layar: Membaca demo OCR di Vision Studio.

Bahasa yang didukung OCR

Kedua versi Baca yang tersedia saat ini di Azure AI Vision mendukung beberapa bahasa untuk teks cetak dan tulisan tangan. OCR untuk teks cetak mencakup dukungan untuk bahasa Inggris, Prancis, Jerman, Italia, Portugis, Spanyol, Cina, Jepang, Korea, Rusia, Arab, Hindi, dan bahasa internasional lainnya yang menggunakan skrip Latin, Sirilik, Arab, dan Devanagari. OCR untuk teks tulisan tangan mencakup dukungan untuk bahasa Inggris, Tionghoa Sederhana, Prancis, Jerman, Italia, Jepang, Korea, Portugis, dan Spanyol.

Lihat daftar lengkap bahasa yang didukung OCR.

Fitur umum OCR

Model Baca OCR tersedia di Azure AI Vision dan Document Intelligence dengan kemampuan dasar umum sambil mengoptimalkan untuk setiap skenario. Daftar berikut ini meringkas fitur umum:

Ekstraksi teks cetak dan tulisan tangan dalam bahasa yang didukung
Halaman, baris teks, dan kata-kata dengan skor posisi dan kepercayaan
Dukungan untuk bahasa campuran, mode campuran (cetak dan tulisan tangan)
Tersedia sebagai kontainer Docker Distroless untuk penyebaran lokal

Menggunakan API cloud OCR atau mengimplementasikan di lokasi

API cloud adalah opsi yang disukai bagi sebagian besar pelanggan karena kemudahan integrasi dan produktivitas cepat mereka di luar kotak. Azure dan layanan Azure AI Vision menangani skala, performa, keamanan data, dan kebutuhan kepatuhan saat Anda fokus pada memenuhi kebutuhan pelanggan Anda.

Untuk penyebaran lokal, kontainer Read Docker memungkinkan Anda untuk menyebarkan kemampuan OCR Azure AI Vision v3.2 yang tersedia secara umum di lingkungan lokal Anda sendiri. Kontainer sangat bagus untuk persyaratan keamanan dan tata kelola data tertentu.

Persyaratan input

API Baca mengambil gambar dan dokumen sebagai inputnya. Gambar dan dokumen harus memenuhi persyaratan berikut:

Format file yang didukung adalah JPEG, PNG, BMP, PDF, dan TIFF.
Untuk file PDF dan TIFF, hingga 2.000 halaman (hanya dua halaman pertama untuk tingkat gratis) yang diproses.
Ukuran file gambar harus kurang dari 500 MB (4 MB untuk tingkat gratis) dengan dimensi setidaknya 50 x 50 piksel dan paling banyak 10.000 x 10.000 piksel. File PDF tidak memiliki batas ukuran.
Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar 1024 x 768, yang sesuai dengan sekitar teks font 8 titik pada 150 DPI.

Catatan

Anda tidak perlu memotong gambar untuk baris teks. Kirim seluruh gambar ke API Baca dan mengenali semua teks.

Privasi dan keamanan data OCR

Seperti semua layanan Azure AI, pengembang yang menggunakan layanan Azure AI Vision harus mengetahui kebijakan Microsoft tentang data pelanggan. Lihat halaman layanan Azure AI di Pusat Kepercayaan Microsoft untuk mempelajari selengkapnya.

Langkah berikutnya

OCR untuk gambar umum (non-dokumen): coba mulai cepat Azure AI Vision 4.0 preview Image Analysis REST API.
OCR untuk dokumen PDF, Office, dan HTML serta gambar dokumen: mulai dengan Baca Kecerdasan Dokumen.
Mencari versi GA sebelumnya? Panduan memulai cepat Azure AI Vision 3.2 GA SDK atau REST API.