Tugas dan teknik visi komputer
Nota
Lihat tab Teks dan gambar untuk detail selengkapnya!
Istilah "visi komputer" mengacu pada berbagai tugas dan teknik di mana perangkat lunak AI memproses input visual; biasanya dari gambar, video, atau streaming kamera langsung. Visi komputer adalah bidang AI yang mapan, dan teknik yang digunakan untuk mengekstrak informasi dari input visual telah berkembang secara signifikan selama bertahun-tahun.
Klasifikasi gambar
Salah satu solusi visi komputer tertua adalah teknik yang disebut klasifikasi gambar, di mana model yang telah dilatih dengan sejumlah besar gambar digunakan untuk memprediksi label teks berdasarkan konten gambar.
Misalnya, toko kelontong ingin menerapkan sistem checkout pintar yang mengidentifikasi produksi secara otomatis. Misalnya, pelanggan dapat menempatkan buah atau sayuran dalam skala besar saat checkout, dan aplikasi AI yang terhubung ke kamera dapat secara otomatis mengidentifikasi jenis hasil bumi (apel, oranye, pisang, dan sebagainya) dan mengisi jumlah yang sesuai berdasarkan beratnya. Agar solusi ini berfungsi, model perlu dilatih dengan volume gambar yang besar, masing-masing diberi label dengan nama yang benar. Hasilnya adalah model yang dapat menggunakan fitur visual gambar untuk memprediksi subjek utamanya.
Pendeteksian objek
Misalkan toko kelontong menginginkan sistem yang lebih canggih, di mana checkout dapat memindai beberapa item pada checkout dan mengidentifikasi masing-masing item. Pendekatan umum untuk jenis masalah ini disebut "deteksi objek". Model deteksi objek memeriksa beberapa wilayah dalam gambar untuk menemukan objek individual dan lokasinya. Prediksi yang dihasilkan dari model mencakup objek mana yang terdeteksi, dan wilayah tertentu dari gambar tempat objek muncul - ditunjukkan oleh koordinat kotak pembatas persegi panjang.
Segmentasi semantik
Cara lain yang lebih canggih untuk mendeteksi objek dalam gambar, disebut "segmentasi semantik". Dalam pendekatan ini, model dilatih untuk menemukan objek, dan mengklasifikasikan piksel individual dalam gambar berdasarkan objek tempat mereka berada. Hasil dari proses ini adalah prediksi yang jauh lebih tepat dari lokasi objek dalam gambar.
Analisis gambar kontekstual
Model visi komputer multimodal terbaru dilatih untuk menemukan hubungan kontekstual antara objek dalam gambar dan teks yang menjelaskannya. Hasilnya adalah kemampuan untuk menafsirkan gambar secara semantik untuk menentukan objek dan aktivitas apa yang digambarkannya; dan hasilkan deskripsi yang sesuai atau sarankan tag yang relevan.
Seseorang makan apel.