Çok modüllü eklemeler (sürüm 4.0)

Çok modlu gömme, özelliklerini ve karakteristiklerini yakalayan bir görüntünün vektör gösterimini oluşturma işlemidir. Bu vektörler, bir görüntünün içeriğini ve bağlamını aynı vektör alanı üzerinde metin araması ile uyumlu bir şekilde kodlar.

Görüntü alma sistemleri, görüntüleri karşılaştırmak ve benzerliklere göre sıralamak için geleneksel olarak görüntülerden ayıklanan içerik etiketleri, etiketler ve görüntü tanımlayıcıları gibi özellikleri kullanır. Ancak vektör benzerliği araması, geleneksel anahtar sözcük tabanlı aramaya göre bir dizi avantaj sunar ve popüler içerik arama hizmetlerinde önemli bir bileşen haline gelmektedir.

Anahtar sözcük arama, en temel ve geleneksel bilgi alma yöntemidir. Bu yaklaşımda arama altyapısı, arama sorgusunda kullanıcı tarafından girilen anahtar sözcüklerin veya tümceciklerin tam eşleşmesini arar ve görüntüler için sağlanan etiketler ve etiketlerle karşılaştırır. Arama altyapısı daha sonra bu anahtar sözcükleri içeren görüntüleri içerik etiketleri ve görüntü etiketleri olarak döndürür. Anahtar sözcük araması, kullanıcının ilgili ve belirli arama terimlerini kullanabilmesine bağlıdır.

Vektör araması, belirli bir sorguya benzer vektörleri bulmak için yüksek boyutlu alanda büyük vektör koleksiyonlarını arar. Vektör araması, arama sorgusunun bağlamını ve anlamını yakalayarak anlamsal benzerlikleri arar. Bu yaklaşım genellikle arama alanını azaltabileceği ve sonuçların doğruluğunu geliştirebileceği için geleneksel görüntü alma tekniklerinden daha verimlidir.

İş uygulamaları

Çok modüllü ekleme, farklı alanlarda çeşitli uygulamalara sahiptir, örneğin:

  • Dijital varlık yönetimi: Çok modüllü ekleme, müzeler, arşivler veya çevrimiçi galeriler gibi büyük dijital görüntü koleksiyonlarını yönetmek için kullanılabilir. Kullanıcılar görsel özelliklerine göre görüntü arayabilir ve ölçütlerine uyan görüntüleri alabilir.
  • Güvenlik ve gözetim: Vektörleştirme, güvenlik ve gözetim sistemlerinde, içindeki kişiler ve nesne izleme veya tehdit algılama gibi belirli özelliklere veya desenlere göre görüntü aramak için kullanılabilir.
  • Adli görüntü alma: Vektörleştirme, siber suç vakaları gibi görsel içeriklerine veya meta verilerine göre görüntüleri aramak için adli araştırmalarda kullanılabilir.
  • E-ticaret: Vektörleştirme, özelliklerine veya açıklamalarına göre benzer ürünleri aramak veya önceki satın alma işlemlerine göre öneriler sağlamak için çevrimiçi alışveriş uygulamalarında kullanılabilir.
  • Moda ve tasarım: Vektörleştirme, renk, desen veya doku gibi görsel özelliklerine göre görüntüleri aramak için moda ve tasarımda kullanılabilir. Bu, tasarımcıların veya perakendecilerin benzer ürünleri veya eğilimleri belirlemesine yardımcı olabilir.

Dikkat

Multimodal ekleme, tıbbi görüntüleri tanılama özellikleri veya hastalık desenleri için analiz etmek üzere tasarlanmamıştır. Lütfen tıbbi amaçlar için Multimodal ekleme kullanmayın.

Vektör ekleme nedir?

Vektör eklemeler, içeriği (metin veya görüntüler) yüksek boyutlu bir alanda gerçek sayıların vektörleri olarak göstermenin bir yoludur. Vektör ekleme işlemleri genellikle sinir ağları gibi makine öğrenmesi algoritmaları kullanılarak büyük miktarda metinsel ve görsel veriden öğrenilir.

Vektördeki her boyut, içeriğin anlamsal anlamı, söz dizimsel rolü veya yaygın olarak göründüğü bağlam gibi farklı bir özelliğine veya özniteliğine karşılık gelir. Döküm Araçları'ndaki Azure Vision'da görüntü ve metin vektör eklemelerinin 1024 boyutu vardır.

Önemli

Vektör ekleme işlemleri yalnızca aynı model türündeyse karşılaştırılabilir ve eşleştirilebilir. Bir model tarafından vektörleştirilen görüntüler farklı bir modelde aranamaz. En son Görüntü Analizi API'sinde, birçok dilde metin aramayı destekleyen iki 2023-04-15 model ve yalnızca İngilizceyi destekleyen eski 2022-04-11 model sunulmaktadır.

Görüntü alma işlemi

Aşağıda, Multimodal eklemeleri kullanarak görüntü alma işleminin ana adımları yer alır.

Çok modüllü ekleme / görüntü alma işleminin diyagramı.

  1. Görüntüleri ve Metni Vektörleştir: Çok modüllü ekleme API'leri VectorizeImage ve VectorizeText, sırasıyla bir görüntüden veya metinden özellik vektörlerini ayıklamak için kullanılabilir. API'ler girişin tamamını temsil eden tek bir özellik vektörünü döndürür.

    Not alın

    Çok modüllü ekleme, insan yüzlerinin biyometrik olarak işlenmesini sağlamaz. Yüz algılama ve tanımlama için bkz. Azure Yüz Tanıma hizmeti.

  2. Ölçüm benzerliği: Vektör arama sistemleri genellikle vektörleri karşılaştırmak ve benzerliklere göre sıralamak için kosinüs uzaklığı veya Öklid uzaklığı gibi uzaklık ölçümlerini kullanır.
  3. Görüntüleri Al: Arama sorgusuna benzer en üst N vektörlerini kullanın ve nihai sonucu sağlamak için fotoğraf kitaplığınızdan bu vektörlere karşılık gelen görüntüleri alın.

İlgi puanı

Görüntü alma hizmeti "ilgi" adlı bir alan döndürür. "İlgi" terimi, sorgu ve görüntü ekleme işlemleri arasındaki benzerlik ölçüsünü belirtir. İlgi puanı iki bölümden oluşur:

  1. Sorgu ile görüntü eklemeleri arasındaki kosinüs benzerliği ([0,1] aralığındadır).
  2. Sorgu ile görüntüyle ilişkilendirilmiş meta veriler arasındaki benzerliği yansıtan meta veri puanı.

Önemli

İlgi puanı, görüntüler gibi sonuçları tek bir sorguya göre sıralamak için iyi bir ölçüdür. Ancak, ilgi puanı sorgular arasında doğru karşılaştırılamaz. Bu nedenle, ilgi puanını kolayca bir güvenilirlik düzeyine eşlemek mümkün değildir. Yalnızca ilgi puanına göre ilgisiz sonuçları ortadan kaldırmak için önemsiz bir eşik algoritması oluşturmak da mümkün değildir.

Giriş gereksinimleri

Görüntü girişi

  • Görüntünün dosya boyutunun 20 megabayt (MB) değerini aşmaması gerekir
  • Resmin boyutları 10 x 10 pikselden büyük ve 16.000 x 16.000 pikselden küçük olmalıdır

Metin girişi

  • Metin dizesi bir sözcük (dahil) ile 70 sözcük arasında olmalıdır.

Sonraki adım

Arama hizmetiniz için Çok modüllü eklemeleri etkinleştirin ve metin ve görüntüler için vektör eklemeleri oluşturmak için adımları izleyin.