Mulai menggunakan Azure AI Vision
Kemampuan sistem komputer untuk memproses teks tertulis dan dicetak adalah area AI di mana visi komputer bersinggungan dengan pemrosesan bahasa alami. Kemampuan penglihatan diperlukan untuk "membaca" teks, dan kemudian kemampuan pemrosesan bahasa alami memahaminya.
OCR adalah fondasi pemrosesan teks dalam gambar dan menggunakan model pembelajaran mesin yang dilatih untuk mengenali bentuk individu sebagai huruf, angka, tanda baca, atau elemen teks lainnya. Sebagian besar pekerjaan awal dalam menerapkan kemampuan semacam ini dilakukan oleh layanan pos untuk mendukung pengurutan surat secara otomatis berdasarkan kode pos. Sejak itu, state-of-the-art untuk membaca teks telah beralih, dan kami memiliki model yang mendeteksi teks cetak atau tulisan tangan dalam gambar dan membacanya baris demi baris dan kata demi kata.
Mesin OCR Azure AI Vision
Layanan Azure AI Vision memiliki kemampuan untuk mengekstrak teks yang dapat dibaca mesin dari gambar. API Baca Azure AI Vision adalah mesin OCR yang mendukung ekstraksi teks dari gambar, PDF, dan file TIFF. OCR untuk gambar dioptimalkan untuk gambar umum non-dokumen yang memudahkan penyematan OCR dalam skenario pengalaman pengguna Anda.
API Baca, atau dikenal sebagai mesin Read OCR, menggunakan model pengenalan terbaru dan dioptimalkan untuk gambar yang memiliki sejumlah besar teks atau memiliki kebisingan visual yang cukup besar. Ini dapat secara otomatis menentukan model pengenalan yang tepat untuk digunakan dengan mempertimbangkan jumlah baris teks, gambar yang menyertakan teks, dan tulisan tangan.
Mesin OCR mengambil file gambar dan mengidentifikasi kotak pembatas, atau koordinat, tempat item berada dalam gambar. Di OCR, model mengidentifikasi kotak pembatas di sekitar apa pun yang tampaknya menjadi teks dalam gambar.
Memanggil READ API mengembalikan hasil yang diatur ke dalam hierarki berikut:
- Halaman - Satu untuk setiap halaman teks, termasuk informasi tentang ukuran dan orientasi halaman.
- Baris - Baris teks di halaman.
- Kata - Kata-kata dalam baris teks, termasuk koordinat kotak pembatas dan teks itu sendiri.
Setiap baris dan kata menyertakan koordinat kotak batas yang menunjukkan posisinya di halaman.