Klasifikasi gambar di Azure

Penyimpanan Azure Blob

Azure Computer Vision

Azure Cosmos DB

Kisi Aktivitas Azure

Azure Functions

ide solusi

Artikel ini menjelaskan ide solusi. Arsitek cloud Anda dapat menggunakan panduan ini untuk membantu memvisualisasikan komponen utama untuk implementasi umum arsitektur ini. Gunakan artikel ini sebagai titik awal untuk merancang solusi yang dirancang dengan baik yang selaras dengan persyaratan spesifik beban kerja Anda.

Dengan menggunakan layanan Azure, seperti Computer Vision API dan Azure Functions, perusahaan dapat menghilangkan kebutuhan untuk mengelola server individual, sekaligus mengurangi biaya dan menggunakan keahlian yang telah dikembangkan Microsoft dengan memproses gambar dengan layanan Azure AI. Ide solusi ini secara khusus membahas kasus penggunaan pemrosesan gambar. Jika Anda memiliki kebutuhan AI yang berbeda, pertimbangkan rangkaian lengkap layanan Azure AI.

Arsitektur

Diagram arsitektur untuk digunakan untuk tugas klasifikasi gambar.

Unduh file visio ide solusi ini.

Aliran Data

Skenario ini mencakup komponen back-end dari aplikasi web atau seluler. Data mengalir melalui skenario sebagai berikut:

Menambahkan file baru (unggahan gambar) di penyimpanan Blob memicu peristiwa di Azure Event Grid. Proses pengunggahan dapat diorkestrasi melalui web atau aplikasi seluler. Atau, gambar dapat diunggah secara terpisah ke penyimpanan Azure Blob.
Event Grid mengirimkan pemberitahuan yang memicu fungsi Azure.
Azure Functions memanggil Azure AI Vision API untuk menganalisis gambar yang baru diunggah. Azure AI Vision mengakses gambar melalui URL blob yang diurai oleh Azure Functions.
Azure Functions mempertahankan respons AI Vision API di Azure Cosmos DB. Respons ini mencakup hasil analisis, bersama dengan metadata gambar.
Hasilnya dapat dikonsumsi dan tercermin di web atau ujung depan seluler. Perhatikan bahwa pendekatan ini mengambil hasil klasifikasi tetapi bukan gambar yang diunggah.

Komponen

Azure AI Vision adalah bagian dari rangkaian layanan Azure AI dan digunakan untuk mengambil informasi tentang setiap gambar.
Azure Functions menyediakan API back-end untuk aplikasi web. Platform ini juga menyediakan pemrosesan peristiwa untuk gambar yang diunggah.
Azure Event Grid memicu peristiwa saat gambar baru diunggah ke penyimpanan blob. Gambar kemudian diproses dengan Azure Functions.
Azure Blob Storage menyimpan semua file gambar yang diunggah ke dalam aplikasi web, serta file statis apa pun yang digunakan aplikasi web.
Azure Cosmos DB menyimpan metadata tentang setiap gambar yang diunggah, termasuk hasil pemrosesan dari Computer Vision API.

Alternatif

Azure OpenAI GPT-4o dan GPT-4o-mini. GPT-4o dan GPT-4o-mini adalah model obrolan multimodal dari OpenAI yang dapat menjawab pertanyaan umum tentang apa yang ada dalam gambar yang Anda berikan.
Custom Vision Service. Computer Vision API mengembalikan serangkaian kategori berbasis taksonomi . Jika Anda perlu memproses informasi yang tidak dikembalikan oleh Computer Vision API, pertimbangkan Custom Vision Service, yang memungkinkan Anda membangun pengklasifikasi gambar kustom. Untuk mempelajari tentang layanan ini, ikuti mulai cepat Membangun model klasifikasi gambar dengan Custom Vision.
Pencarian Azure AI . Jika kasus penggunaan Anda melibatkan kueri metadata untuk menemukan gambar yang memenuhi kriteria tertentu, pertimbangkan untuk menggunakan Azure AI Search. pencarian Azure AI mengintegrasikan alur kerja ini dengan lancar.
Logic Apps. Jika Anda tidak perlu bereaksi secara real time pada file yang ditambahkan ke blob, Anda mungkin mempertimbangkan untuk menggunakan Logic Apps. Aplikasi logika yang dapat memeriksa apakah file ditambahkan mungkin dimulai oleh pemicu pengulangan atau pemicu jendela geser.
Jika Anda memiliki gambar yang disematkan dalam dokumen, gunakan Azure AI Document Intelligence untuk menemukan gambar tersebut. Dengan informasi tersebut, Anda dapat mengekstrak dan melakukan tugas visi komputer lebih lanjut pada gambar yang disematkan. Gunakan Kecerdasan Dokumen untuk mengumpulkan data tentang gambar yang disematkan tersebut, seperti nomor halaman atau teks keterangan yang dapat disimpan bersama dengan metadata lain gambar yang diterima melalui Computer Vision API. Jika gambar Anda terutama adalah foto atau pemindaian dokumen, gunakan model klasifikasi kustom Inteligensi Dokumen untuk melakukan klasifikasi file input satu halaman pada satu waktu untuk mengidentifikasi dokumen di dalamnya. Pendekatan ini juga dapat mengidentifikasi beberapa dokumen atau beberapa instans dari satu dokumen dalam file input.

Detail skenario

Skenario ini relevan untuk bisnis yang perlu memproses gambar.

Aplikasi potensial termasuk mengklasifikasikan gambar untuk situs web mode, menganalisis teks dan gambar untuk klaim asuransi, atau memahami data telemetri dari tangkapan layar game. Secara tradisional, perusahaan perlu mengembangkan keahlian dalam model pembelajaran mesin, melatih model, dan akhirnya menjalankan gambar melalui proses kustom mereka untuk mengeluarkan data dari gambar.

Potensi kasus penggunaan

Solusi ini sangat ideal untuk industri ritel, game, keuangan, dan asuransi. Kasus penggunaan relevan lainnya meliputi:

Mengklasifikasikan gambar di situs web mode. Klasifikasi gambar dapat digunakan oleh penjual sambil mengunggah gambar produk di platform untuk dijual. Mereka kemudian dapat mengotomatiskan pemberian tag manual konsekuensi yang terlibat. Pelanggan juga dapat mencari melalui kesan visual produk.
Mengklasifikasikan data telemetri dari cuplikan layar game. Klasifikasi video game dari tangkapan layar berkembang menjadi masalah yang relevan di media sosial, ditambah dengan visi komputer. Misalnya, ketika streamer Twitch memainkan game yang berbeda secara berturut-turut, mereka mungkin melewati pembaruan informasi streaming mereka secara manual. Kegagalan memperbarui informasi streaming dapat mengakibatkan kesalahan klasifikasi aliran dalam pencarian pengguna dan dapat menyebabkan hilangnya potensi penampil untuk pembuat konten dan platform streaming. Saat memperkenalkan game baru, rute model kustom dapat membantu memperkenalkan kemampuan untuk mendeteksi gambar baru dari game tersebut.
Mengklasifikasikan gambar untuk klaim asuransi. Klasifikasi gambar dapat membantu mengurangi waktu dan biaya pemrosesan dan penjajahan klaim. Ini dapat membantu menganalisis kerusakan bencana alam, kerusakan kendaraan, dan mengidentifikasi properti perumahan dan komersial.

Langkah berikutnya

Dokumentasi produk

Untuk jalur pembelajaran terpandu, lihat:

Menggunakan pengayaan AI dengan pemrosesan gambar dan teks
Mulai menggunakan aplikasi obrolan visi multimodal menggunakan Azure OpenAI