Bagikan melalui


Penyematan multimodal (versi 4.0)

Penyematan multimodal adalah proses menghasilkan representasi vektor gambar yang menangkap fitur dan karakteristiknya. Vektor ini mengodekan konten dan konteks gambar dengan cara yang kompatibel dengan pencarian teks di atas ruang vektor yang sama.

Sistem pengambilan gambar secara tradisional menggunakan fitur yang diekstrak dari gambar, seperti label konten, tag, dan deskriptor gambar, untuk membandingkan gambar dan memberi peringkat berdasarkan kesamaan. Namun, pencarian kesamaan vektor menawarkan sejumlah manfaat atas pencarian berbasis kata kunci tradisional dan menjadi komponen penting dalam layanan pencarian konten populer.

Pencarian kata kunci adalah metode pengambilan informasi yang paling mendasar dan tradisional. Dalam pendekatan itu, mesin pencari mencari kecocokan yang tepat dari kata kunci atau frasa yang dimasukkan oleh pengguna dalam kueri pencarian dan membandingkannya dengan label dan tag yang disediakan untuk gambar. Mesin pencari kemudian mengembalikan gambar yang berisi kata kunci yang tepat sebagai tag konten dan label gambar. Pencarian kata kunci sangat bergantung pada kemampuan pengguna untuk menggunakan istilah pencarian yang relevan dan spesifik.

Pencarian vektor mencari kumpulan besar vektor di ruang dimensi tinggi untuk menemukan vektor yang mirip dengan kueri tertentu. Pencarian vektor mencari kesamaan semantik dengan menangkap konteks dan arti kueri pencarian. Pendekatan ini sering lebih efisien daripada teknik pengambilan gambar tradisional, karena dapat mengurangi ruang pencarian dan meningkatkan akurasi hasil.

Aplikasi bisnis

Penyematan multimodal memiliki berbagai aplikasi di bidang yang berbeda, termasuk:

  • Manajemen aset digital: Penyematan multimodal dapat digunakan untuk mengelola koleksi besar gambar digital, seperti di museum, arsip, atau galeri online. Pengguna dapat mencari gambar berdasarkan fitur visual dan mengambil gambar yang cocok dengan kriteria mereka.
  • Keamanan dan pengawasan: Vektorisasi dapat digunakan dalam sistem keamanan dan pengawasan untuk mencari gambar berdasarkan fitur atau pola tertentu, seperti di, orang & pelacakan objek, atau deteksi ancaman.
  • Pengambilan gambar forensik: Vektorisasi dapat digunakan dalam penyelidikan forensik untuk mencari gambar berdasarkan konten visual atau metadata mereka, seperti dalam kasus kejahatan cyber.
  • E-niaga: Vektorisasi dapat digunakan dalam aplikasi belanja online untuk mencari produk serupa berdasarkan fitur atau deskripsi mereka atau memberikan rekomendasi berdasarkan pembelian sebelumnya.
  • Mode dan desain: Vektorisasi dapat digunakan dalam mode dan desain untuk mencari gambar berdasarkan fitur visual mereka, seperti warna, pola, atau tekstur. Ini dapat membantu desainer atau pengecer untuk mengidentifikasi produk atau tren serupa.

Perhatian

Penyematan multimodal tidak dirancang untuk menganalisis gambar medis untuk fitur diagnostik atau pola penyakit. Jangan gunakan penyematan Multimodal untuk tujuan medis.

Apa itu penyematan vektor?

Penyematan vektor adalah cara untuk mewakili konten—teks atau gambar—sebagai vektor angka nyata dalam ruang dimensi tinggi. Penyematan vektor sering dipelajari dari sejumlah besar data tekstual dan visual menggunakan algoritma pembelajaran mesin, seperti jaringan neural.

Setiap dimensi vektor sesuai dengan fitur atau atribut konten yang berbeda, seperti makna semantik, peran sindikat, atau konteks yang umumnya muncul. Di Azure AI Vision, penyematan vektor gambar dan teks memiliki 1024 dimensi.

Penting

Penyematan vektor hanya dapat dibandingkan dan dicocokkan jika berasal dari jenis model yang sama. Gambar yang di-vektorisasi oleh satu model tidak akan dapat dicari melalui model yang berbeda. IMAGE Analysis API terbaru menawarkan dua model, versi 2023-04-15 yang mendukung pencarian teks dalam banyak bahasa, dan model warisan 2022-04-11 yang hanya mendukung bahasa Inggris.

Bagaimana cara kerjanya?

Berikut ini adalah langkah utama proses pengambilan gambar menggunakan penyematan Multimodal.

Diagram proses penyematan multimodal/pengambilan gambar.

  1. Vektorisasi Gambar dan Teks: API Penyematan Multimodal, VectorizeImage dan VectorizeText, dapat digunakan untuk mengekstrak vektor fitur dari gambar atau teks masing-masing. API mengembalikan vektor fitur tunggal yang mewakili seluruh input.

    Catatan

    Penyematan multimodal tidak melakukan pemrosesan biometrik wajah manusia. Untuk deteksi wajah dan identifikasi, lihat layanan Azure AI Face.

  2. Mengukur kesamaan: Sistem pencarian vektor biasanya menggunakan metrik jarak, seperti jarak kosinus atau jarak Euclidean, untuk membandingkan vektor dan memberi peringkat berdasarkan kesamaan. Demo studio Visi menggunakan jarak kosinus untuk mengukur kesamaan.
  3. Ambil Gambar: Gunakan vektor N teratas yang mirip dengan kueri pencarian dan ambil gambar yang sesuai dengan vektor tersebut dari pustaka foto Anda untuk memberikan hasil akhir.

Skor relevansi

Layanan pengambilan gambar dan video mengembalikan bidang yang disebut "relevansi." Istilah "relevansi" menunjukkan ukuran kesamaan antara penyematan kueri dan gambar atau bingkai video. Skor relevansi terdiri dari dua bagian:

  1. Kesamaan kosinus (yang termasuk dalam kisaran [0,1]) antara penyematan kueri dan gambar atau bingkai video.
  2. Skor metadata, yang mencerminkan kesamaan antara kueri dan metadata yang terkait dengan bingkai gambar atau video.

Penting

Skor relevansi adalah ukuran yang baik untuk memberi peringkat hasil seperti gambar atau bingkai video sehubungan dengan satu kueri. Namun, skor relevansi tidak dapat dibandingkan secara akurat di seluruh kueri. Oleh karena itu, tidak mungkin untuk dengan mudah memetakan skor relevansi ke tingkat kepercayaan diri. Tidak mungkin juga membuat algoritma ambang batas secara sepele untuk menghilangkan hasil yang tidak relevan hanya berdasarkan skor relevansi.

Persyaratan input

Input gambar

  • Ukuran file gambar harus kurang dari 20 megabyte (MB)
  • Dimensi gambar harus lebih besar dari 10 x 10 piksel dan kurang dari 16.000 x 16.000 piksel

Input teks

  • String teks harus antara (inklusif) satu kata dan 70 kata.

Langkah berikutnya

Aktifkan penyematan Multimodal untuk layanan pencarian Anda dan ikuti langkah-langkah untuk menghasilkan penyematan vektor untuk teks dan gambar.