Çok modüllü eklemeler (sürüm 4.0)

Makale
02/23/2024

Çok modüllü ekleme, bir görüntünün özelliklerini ve özelliklerini vektör biçiminde yakalayan sayısal bir gösterimini oluşturma işlemidir. Bu vektörler, bir görüntünün içeriğini ve bağlamını aynı vektör alanı üzerinde metin araması ile uyumlu bir şekilde kodlar.

Görüntü alma sistemleri, görüntüleri karşılaştırmak ve benzerliklere göre sıralamak için geleneksel olarak görüntülerden ayıklanan içerik etiketleri, etiketler ve görüntü tanımlayıcıları gibi özellikleri kullanır. Ancak vektör benzerlik araması, geleneksel anahtar sözcük tabanlı aramaya göre bir dizi avantajdan dolayı daha popüler hale geliyor ve popüler içerik arama hizmetlerinde önemli bir bileşen haline geliyor.

Vektör araması ile anahtar sözcük tabanlı arama arasındaki fark nedir?

Anahtar sözcük arama, en temel ve geleneksel bilgi alma yöntemidir. Bu yaklaşımda arama altyapısı, arama sorgusunda kullanıcı tarafından girilen anahtar sözcüklerin veya tümceciklerin tam eşleşmesini arar ve görüntüler için sağlanan etiketler ve etiketlerle karşılaştırır. Arama altyapısı daha sonra bu anahtar sözcükleri içeren görüntüleri içerik etiketleri ve görüntü etiketleri olarak döndürür. Anahtar sözcük araması, kullanıcının ilgili ve belirli arama terimlerini kullanabilmesine bağlıdır.

Vektör araması, belirli bir sorguya benzer vektörleri bulmak için yüksek boyutlu alanda büyük vektör koleksiyonlarını arar. Vektör araması, arama sorgusunun bağlamını ve anlamını yakalayarak anlamsal benzerlikleri arar. Bu yaklaşım genellikle arama alanını azaltabileceği ve sonuçların doğruluğunu geliştirebileceği için geleneksel görüntü alma tekniklerinden daha verimlidir.

İş uygulamaları

Çok modüllü ekleme, farklı alanlarda çeşitli uygulamalara sahiptir, örneğin:

Dijital varlık yönetimi: Çok modüllü ekleme, müzeler, arşivler veya çevrimiçi galeriler gibi büyük dijital görüntü koleksiyonlarını yönetmek için kullanılabilir. Kullanıcılar görsel özelliklerine göre görüntü arayabilir ve ölçütlerine uyan görüntüleri alabilir.
Güvenlik ve gözetim: Vektörleştirme, güvenlik ve gözetim sistemlerinde, içindeki kişiler ve nesne izleme veya tehdit algılama gibi belirli özelliklere veya desenlere göre görüntü aramak için kullanılabilir.
Adli görüntü alma: Vektörleştirme, siber suç vakaları gibi görsel içeriklerine veya meta verilerine göre görüntüleri aramak için adli araştırmalarda kullanılabilir.
E-ticaret: Vektörleştirme, özelliklerine veya açıklamalarına göre benzer ürünleri aramak veya önceki satın alma işlemlerine göre öneriler sağlamak için çevrimiçi alışveriş uygulamalarında kullanılabilir.
Moda ve tasarım: Vektörleştirme, renk, desen veya doku gibi görsel özelliklerine göre görüntüleri aramak için moda ve tasarımda kullanılabilir. Bu, tasarımcıların veya perakendecilerin benzer ürünleri veya eğilimleri belirlemesine yardımcı olabilir.

Dikkat

Multimodal ekleme, tıbbi görüntüleri tanılama özellikleri veya hastalık desenleri için analiz etmek üzere tasarlanmamıştır. Lütfen multimodal katıştırma özelliğini tıbbi amaçlarla kullanmayın.

Vektör ekleme nedir?

Vektör eklemeler, içeriği (metin veya görüntüler) yüksek boyutlu bir alanda gerçek sayıların vektörleri olarak göstermenin bir yoludur. Vektör ekleme işlemleri genellikle sinir ağları gibi makine öğrenmesi algoritmaları kullanılarak büyük miktarda metinsel ve görsel veriden öğrenilir.

Vektördeki her boyut, içeriğin anlamsal anlamı, söz dizimsel rolü veya yaygın olarak göründüğü bağlam gibi farklı bir özelliğine veya özniteliğine karşılık gelir. Azure AI Vision'da görüntü ve metin vektör eklemeleri 1024 boyuta sahiptir.

Önemli

Vektör ekleme işlemleri yalnızca aynı model türündeyse karşılaştırılabilir ve eşleştirilebilir. Bir model tarafından vektörleştirilen görüntüler farklı bir modelde aranamaz. En son Görüntü Analizi API'sinde, birçok dilde metin aramayı destekleyen iki 2023-04-15 model ve yalnızca İngilizceyi destekleyen eski 2022-04-11 model sunulmaktadır.

Nasıl çalışır?

Aşağıda, Multimodal eklemeleri kullanarak görüntü alma işleminin ana adımları yer alır.

Diagram of image retrieval process.

Görüntüleri ve Metni Vektörleştir: Çok modüllü ekleme API'leri VectorizeImage ve VectorizeText, sırasıyla bir görüntüden veya metinden özellik vektörlerini ayıklamak için kullanılabilir. API'ler girişin tamamını temsil eden tek bir özellik vektörünü döndürür.

Not

Çok modüllü katıştırma, insan yüzlerinin biyometrik olarak işlenmesini sağlamaz. Yüz algılama ve tanımlama için bkz . Azure AI Yüz Tanıma hizmeti.
Ölçüm benzerliği: Vektör arama sistemleri genellikle vektörleri karşılaştırmak ve benzerliklere göre sıralamak için kosinüs uzaklığı veya Öklid uzaklığı gibi uzaklık ölçümlerini kullanır. Vision Studio tanıtımında benzerliği ölçmek için kosinüs uzaklığı kullanılır.
Görüntüleri Al: Arama sorgusuna benzer en üst N vektörlerini kullanın ve nihai sonucu sağlamak için fotoğraf kitaplığınızdan bu vektörlere karşılık gelen görüntüleri alın.

İlgi puanı

Görüntü ve video alma hizmetleri "ilgi" adlı bir alan döndürür. "İlgi" terimi, sorgu ile görüntü veya video çerçevesi eklemeleri arasındaki benzerlik puanının ölçüsünü belirtir. İlgi puanı iki bölümden oluşur:

Sorgu ile görüntü veya video çerçevesi eklemeleri arasındaki kosinüs benzerliği ([0,1] aralığındadır).
Sorgu ile görüntü veya video çerçevesiyle ilişkili meta veriler arasındaki benzerliği yansıtan bir meta veri puanı.

Önemli

İlgi puanı, görüntüler veya video kareleri gibi sonuçları tek bir sorguya göre sıralamak için iyi bir ölçüdür. Ancak, ilgi puanı sorgular arasında doğru karşılaştırılamaz. Bu nedenle, ilgi puanını kolayca bir güvenilirlik düzeyine eşlemek mümkün değildir. Yalnızca ilgi puanına göre ilgisiz sonuçları ortadan kaldırmak için önemsiz bir eşik algoritması oluşturmak da mümkün değildir.

Giriş gereksinimleri

Görüntü girişi

Görüntünün dosya boyutu 20 megabayttan (MB) küçük olmalıdır
Resmin boyutları 10 x 10 pikselden büyük ve 16.000 x 16.000 pikselden küçük olmalıdır

Metin girişi

Metin dizesi bir sözcük (dahil) ile 70 sözcük arasında olmalıdır.

Sonraki adımlar

Arama hizmetiniz için Çok modüllü eklemeleri etkinleştirin ve metin ve görüntüler için vektör eklemeleri oluşturmak için adımları izleyin.

Multimodal embeddings API'lerini çağırma