Klasifikasi gambar di Azure

Azure Blob Storage
Azure Computer Vision
Azure Cosmos DB
Azure Event Grid
Azure Functions

Ide solusi

Artikel ini menjelaskan ide solusi. Arsitek cloud Anda dapat menggunakan panduan ini untuk membantu memvisualisasikan komponen utama untuk implementasi umum arsitektur ini. Gunakan artikel ini sebagai titik awal untuk merancang solusi yang dirancang dengan baik yang selaras dengan persyaratan spesifik beban kerja Anda.

Dengan menggunakan layanan Azure, seperti Computer Vision API dan Azure Functions, perusahaan dapat menghilangkan kebutuhan untuk mengelola server individual, sekaligus mengurangi biaya dan menggunakan keahlian yang telah dikembangkan Microsoft dengan memproses gambar dengan layanan Azure AI. Ide solusi ini secara khusus membahas kasus penggunaan pemrosesan gambar. Jika Anda memiliki kebutuhan AI yang berbeda, pertimbangkan rangkaian lengkap layanan Azure AI.

Sistem

Diagram arsitektur untuk digunakan untuk tugas klasifikasi gambar.

Unduh file Visio dari ide solusi ini.

Aliran data

Skenario ini mencakup komponen back-end dari web atau aplikasi seluler. Data mengalir melalui skenario sebagai berikut:

  1. Menambahkan file baru (unggahan gambar) di penyimpanan Blob memicu peristiwa di Azure Event Grid. Proses pengunggahan dapat diorkestrasi melalui web atau aplikasi seluler. Atau, gambar dapat diunggah secara terpisah ke penyimpanan Azure Blob.
  2. Event Grid mengirimkan pemberitahuan yang memicu fungsi Azure.
  3. Azure Functions memanggil Azure AI Vision API untuk menganalisis gambar yang baru diunggah. Azure AI Vision mengakses gambar melalui URL blob yang diurai oleh Azure Functions.
  4. Azure Functions mempertahankan respons AI Vision API di Azure Cosmos DB. Respons ini mencakup hasil analisis, bersama dengan metadata gambar.
  5. Hasilnya dapat dikonsumsi dan tercermin di web atau ujung depan seluler. Perhatikan bahwa pendekatan ini mengambil hasil klasifikasi tetapi bukan gambar yang diunggah.

Komponen

  • Azure AI Vision adalah bagian dari rangkaian layanan Azure AI dan digunakan untuk mengambil informasi tentang setiap gambar.
  • Azure Functions menyediakan API back-end untuk aplikasi web. Platform ini juga menyediakan pemrosesan peristiwa untuk gambar yang diunggah.
  • Azure Event Grid memicu peristiwa saat gambar baru diunggah ke penyimpanan blob. Gambar kemudian diproses dengan Azure Functions.
  • Azure Blob Storage menyimpan semua file gambar yang diunggah ke dalam aplikasi web, serta file statis apa pun yang digunakan aplikasi web.
  • Azure Cosmos DB menyimpan metadata tentang setiap gambar yang diunggah, termasuk hasil pemrosesan dari Computer Vision API.

Alternatif

  • Azure OpenAI GPT-4 Turbo dengan Visi (pratinjau). GPT-4 Turbo with Vision adalah model multimodal yang dapat menganalisis gambar dan menjawab pertanyaan tentang mereka.
  • Layanan Visual Kustom. Computer Vision API menampilkan sekumpulan kategori berbasis taksonomi. Jika Anda perlu memproses informasi yang tidak ditampilkan oleh Computer Vision API, pertimbangkan Layanan Visual Kustom, yang memungkinkan Anda membuat pengklasifikasi gambar kustom.
  • Azure AI Search (sebelumnya Azure Search). Jika kasus penggunaan Anda melibatkan kueri metadata untuk menemukan gambar yang memenuhi kriteria tertentu, pertimbangkan untuk menggunakan Azure AI Search. Pencarian Azure AI mengintegrasikan alur kerja ini dengan mulus.
  • Logic Apps. Jika Anda tidak perlu bereaksi secara real-time pada file yang ditambahkan ke blob, Anda dapat mempertimbangkan untuk menggunakan Logic Apps. Aplikasi logika yang dapat memeriksa apakah file telah ditambahkan mungkin dimulai oleh pemicu pengulangan atau pemicu jendela geser.
  • Jika Anda memiliki gambar yang disematkan dalam dokumen, gunakan Kecerdasan Dokumen Azure AI untuk menemukan gambar tersebut. Dengan informasi tersebut, Anda dapat mengekstrak dan melakukan tugas visi komputer lebih lanjut pada gambar yang disematkan. Gunakan Kecerdasan Dokumen untuk mengumpulkan data tentang gambar yang disematkan tersebut, seperti nomor halaman atau teks keterangan yang dapat disimpan bersama dengan metadata lain gambar yang diterima melalui Computer Vision API.

Detail skenario

Skenario ini relevan untuk bisnis yang perlu memproses gambar.

Aplikasi potensial meliputi mengklasifikasikan gambar untuk situs web mode, menganalisis teks dan gambar untuk klaim asuransi, atau memahami data telemetri dari cuplikan layar game. Secara tradisional, perusahaan perlu mengembangkan keahlian dalam model pembelajaran mesin, melatih model, dan akhirnya menjalankan gambar melalui proses kustom mereka untuk mengeluarkan data dari gambar.

Kemungkinan kasus penggunaan

Solusi ini sangat ideal untuk industri ritel, game, keuangan, dan asuransi. Kasus penggunaan yang relevan lainnya meliputi:

  • Mengklasifikasikan gambar di situs web mode. Klasifikasi gambar dapat digunakan oleh penjual sambil mengunggah gambar produk di platform untuk dijual. Mereka kemudian dapat mengotomatiskan pemberian tag manual konsekuensi yang terlibat. Pelanggan juga dapat mencari melalui kesan visual produk.

  • Mengklasifikasikan data telemetri dari cuplikan layar game. Klasifikasi video game dari tangkapan layar berkembang menjadi masalah yang relevan di media sosial, ditambah dengan visi komputer. Misalnya, ketika streamer Twitch memainkan game yang berbeda secara berturut-turut, mereka mungkin melewati pembaruan informasi streaming mereka secara manual. Kegagalan memperbarui informasi streaming dapat mengakibatkan kesalahan klasifikasi aliran dalam pencarian pengguna dan dapat menyebabkan hilangnya potensi penampil untuk pembuat konten dan platform streaming. Saat memperkenalkan game baru, rute model kustom dapat membantu memperkenalkan kemampuan untuk mendeteksi gambar baru dari game tersebut.

  • Mengklasifikasikan gambar untuk klaim asuransi. Klasifikasi gambar dapat membantu mengurangi waktu dan biaya pemrosesan dan penjajahan klaim. Ini dapat membantu menganalisis kerusakan bencana alam, kerusakan kendaraan, dan mengidentifikasi properti perumahan dan komersial.

Langkah berikutnya

Dokumentasi produk

Untuk jalur pembelajaran terpandu, lihat:

Menggunakan pengayaan AI dengan pemrosesan gambar dan teks