Aracılığıyla paylaş


Azure AI Search'te çok modüllü arama

Çok modüllü arama, metin, resim, video ve ses gibi birden çok içerik türündeki bilgileri alma, anlama ve alma özelliğini ifade eder. Azure AI Search'te çok modlu arama, metin ve görüntü içeren belgelerin yerel olarak alınmasını ve bunların içeriğinin alınmasını destekleyerek her iki yöntemi de birleştiren aramalar gerçekleştirmenizi sağlar.

Güçlü bir çok modüllü işlem hattı oluşturmak genellikle şunları içerir:

  1. Belgelerden satır içi görüntüleri ve sayfa metnini ayıklama.

  2. Görüntüleri doğal dilde açıklama.

  3. Paylaşılan vektör alanına hem metin hem de görüntü ekleme.

  4. Görüntüleri daha sonra ek açıklama olarak kullanmak üzere depolama.

Çok modüllü arama, belgelerde göründüğü gibi bilgilerin sırasının korunmasını ve tam metin arama ile vektör arama ve anlam sıralamasını birleştiren karma sorguların yürütülmesini de gerektirir.

Uygulamada, çok modlu arama kullanan bir uygulama, işlemin tek yetkili açıklaması bir PDF dosyasındaki eklenmiş diyagramda bulunsa bile "İK formunun onaylanması için süreç nedir?" gibi soruları yanıtlayabilir.

Geleneksel olarak, çok modüllü arama, metin ve görüntü işleme için ayrı sistemler gerektirir ve genellikle geliştiricilerden özel kod ve alt düzey yapılandırmalar gerektirir. Bu sistemlerin korunması daha yüksek maliyetlere, karmaşıklıklara ve çabaya neden olur.

Azure AI Search, görüntüleri metinle aynı alma işlem hattına tümleştirerek bu zorlukları giderir. Tek bir çok modüllü işlem hattıyla, grafiklerde, ekran görüntülerinde, bilgi grafiklerinde, taranmış formlarda ve diğer karmaşık görsellerde bulunan bilgilerin kurulumunu basitleştirebilir ve kilidini açabilirsiniz.

Çok modüllü arama, alma artırılmış üretim (RAG) senaryoları için idealdir. Çok modüllü arama, görüntülerin yapısal mantığını yorumlayarak RAG uygulamanızın veya yapay zeka aracınızın önemli görsel ayrıntıları gözden kaçırma olasılığını düşürür. Ayrıca, kaynağın modalitesine bakılmaksızın kullanıcılarınıza özgün kaynaklarına kadar izleyebileceğiniz ayrıntılı yanıtlar sağlar.

Çok modüllü arama nasıl çalışır?

Azure AI Search, çok modüllü işlem hattı oluşturmayı basitleştirmek için Azure portalında Verileri içeri aktarma (yeni) sihirbazını sunar. Sihirbaz bir veri kaynağını yapılandırmanıza, ayıklama ve zenginleştirme ayarlarını tanımlamanıza ve metin, ekli görüntü başvuruları ve vektör eklemeleri içeren çok modüllü bir dizin oluşturmanıza yardımcı olur. Daha fazla bilgi için bkz . Hızlı Başlangıç: Azure portalında çok modüllü arama.

Sihirbaz, çok modüllü işlem hattı oluşturmak için şu adımları izler:

  1. İçeriği ayıkla: Sayfa metni, satır içi görüntüler ve yapısal meta veriler elde etmek için Belge Ayıklama becerisi, Belge Düzeni becerisi veya Azure Content Understanding becerisi arasından seçim yapın. Her beceri meta veri ayıklama, tablo işleme ve dosya biçimi desteği için farklı özellikler sunar. Ayrıntılı karşılaştırmalar için bkz. Çok modüllü içerik ayıklama seçenekleri.

  2. Öbek metni:Metin Bölme becerisi , ayıklanan metni ekleme becerisi gibi kalan işlem hattında kullanılmak üzere yönetilebilir öbeklere ayırır.

  3. Görüntü açıklamaları oluşturma:GenAI prompt becerisi , büyük bir dil modeli (LLM) kullanarak metin araması ve ekleme için kısa doğal dil açıklamaları oluşturarak görüntüleri sözlüleştirir.

  4. Eklemeler oluşturma: Ekleme becerisi, metin ve görüntülerin vektör gösterimlerini oluşturarak benzerlik ve karma alma olanağı sağlar. Azure OpenAI, Microsoft Foundry veya Azure Vision ekleme modellerini yerel olarak çağırabilirsiniz.

    Alternatif olarak, görüntü sözelleştirmeyi atlayabilir ve ayıklanan metin ve görüntüleri doğrudan bir çok modlu gömme modeline AML becerisi veya Azure Vision çok modlu gömme becerisi aracılığıyla aktarabilirsiniz. Daha fazla bilgi için bkz. Çok modüllü içerik ekleme seçenekleri.

  5. Ayıklanan görüntüleri depolama:Bilgi deposu , doğrudan istemci uygulamalarına döndürülebilen ayıklanmış görüntüler içerir. Sihirbazı kullandığınızda, görüntünün konumu doğrudan çok modüllü dizinde depolanır ve sorgu zamanında kullanışlı bir şekilde alınabilir.

Tip

Çok modüllü aramayı çalışır durumda görmek için sihirbaz tarafından oluşturulan dizininizi çok modüllü RAG örnek uygulamasına takın. Örnek, bir RAG uygulamasının çok modüllü dizini nasıl tükettiğini ve yanıtta hem metin alıntılarını hem de ilişkili görüntü parçacıklarını nasıl işleyip işlemeyişini gösterir. Örnekte ayrıca veri alımı ve dizin oluşturma için kod tabanlı işlem gösterilir.

Çok modüllü içerik ayıklama seçenekleri

Çok modüllü işlem hattı, her kaynak belgeyi metin öbekleri, satır içi görüntüler ve ilişkili meta veriler halinde kırarak başlar. Bu adım için Azure AI Search üç yerleşik beceri sağlar:

Characteristic Belge Ayıklama becerisi Belge Düzeni becerisi Azure Content Understanding becerisi
Metin konumu meta veri ayıklama (sayfalar ve sınırlayıcı çokgenler) No Yes Yes
Görüntü konumu meta veri ayıklama (sayfalar ve sınırlayıcı çokgenler) Yes Yes Yes
Tablo çıkarma ve koruma No No Evet (çapraz sayfa tabloları dahil)
Çapraz sayfa anlam birimleri Uygulanamaz Yalnızca tek sayfa Evet (sayfa sınırlarını aşar)
Dosya türüne göre konum meta veri ayıklaması Yalnızca PDF'ler. Foundry Tools'ta Azure Belge Zekası düzen modeline göre desteklenen birden çok dosya türü. PDF, DOCX, XLSX ve PPTX gibi desteklenen birden çok dosya türü.
Veri ayıklama için faturalama Görüntü ayıklama, Azure AI Search fiyatlandırmasına göre faturalandırılır. Belge Düzeni fiyatlandırmasına göre faturalandırılır. Azure Content Understanding fiyatlandırmasına göre faturalandırılır.
Yerleşik öbekleme Hayır (Metin Bölme becerisini kullan) Evet (paragraf sınırlarına göre) Evet (semantik öbekleme)
Önerilen senaryolar Tam konum veya ayrıntılı düzen bilgilerinin gerekli olmadığı hızlı prototip oluşturma veya üretim işlem hatları. İstemci uygulamalarında hassas sayfa numaralarına, sayfa içi vurgulara veya diyagram katmanlarına ihtiyaç duyan RAG işlem hatları ve aracı iş akışları. Çapraz sayfa tablo ayıklama, anlamsal öbekleme veya belge biçimleri arasında tutarlı işleme gerektiren gelişmiş belge analizi (PDF, DOCX, XLSX, PPTX).

Çok modüllü içerik ekleme seçenekleri

Azure AI Search'te görüntülerden bilgi almak iki tamamlayıcı yolu izleyebilir: görüntü sözelleştirme veya doğrudan ekleme. Farkları anlamak, maliyeti, gecikme süresini ve yanıt kalitesini uygulamanızın gereksinimleriyle uyumlu hale getirmenize yardımcı olur.

Resim sözelleştirmesi ve ardından metin eklemeler

Bu yöntemle GenAI İstemi becerisi, "Yönetici onayıyla başlayan beş aşamalı İK erişim iş akışı" gibi ayıklanan her görüntünün kısa bir doğal dil açıklaması oluşturmak için çıkartma sırasında bir LLM çağırır. Açıklama metin olarak depolanır ve çevresindeki belge metniyle birlikte eklenir. Böylece Azure OpenAI, Microsoft Foundry veya Azure Vision ekleme modellerini çağırarak vektör haline getirebilirsiniz.

Görüntü artık dilde ifade edildiğinden Azure AI Search şunları yapabilir:

  • Diyagramda gösterilen ilişkileri ve varlıkları yorumlama.

  • LLM'nin yanıtta ayrıntılı olarak belirtebileceği hazır açıklamalı alt yazılar sağlayın.

  • RAG uygulamaları veya yapay zeka aracısı senaryoları için temellendirilmiş verilerle ilgili kesitler döndür.

Eklenen anlam derinliği, her görüntü için bir LLM çağrısı ve dizin oluşturma süresinde marjinal bir artış gerektirir.

Doğrudan çok modüllü eklemeler

İkinci seçenek, belge ayıklanan görüntüleri ve metni aynı vektör alanında vektör gösterimleri üreten çok modüllü bir ekleme modeline geçirmektir. Yapılandırma basittir ve dizin oluşturma sırasında LLM gerekmez. Doğrudan eklemeler görsel benzerlik ve "find-me-something-that-like-this" senaryolarına çok uygundur.

Gösterim tamamen matematiksel olduğundan, iki görüntünün neden ilişkili olduğunu iletmez ve alıntılar veya ayrıntılı açıklamalar için LLM'ye hazır bağlamı sunmaz.

Her iki yaklaşımı da birleştirme

Birçok çözümün her iki kodlama yoluna da ihtiyacı vardır. Diyagramlar, akış grafikleri ve diğer açıklama açısından zengin görseller, RAG ve AI aracı topraklama için anlamsal bilgilerin kullanılabilir olması için sözelleştirilir. Etkili benzerlik araması için ekran görüntüleri, ürün fotoğrafları veya resimler doğrudan eklenir. Azure AI Search dizininizi ve dizin oluşturucu beceri kümesi işlem hattınızı özelleştirerek iki vektör kümesini depolayabilir ve bunları yan yana alabilirsiniz.

Çok modüllü içeriği sorgulama seçenekleri

Çok modüllü işlem hattınız GenAI İstemi becerisiyle destekleniyorsa, arama dizininizdeki hem düz metin hem de sözlü resimler üzerinde karma sorgular çalıştırabilirsiniz. Arama sonuçlarını yalnızca metin veya yalnızca resimler gibi belirli içerik türlerine daraltmak için filtreleri de kullanabilirsiniz.

GenAI İstemi becerisi karma arama aracılığıyla metinden vektöre sorguları desteklese de, görüntüden vektöre sorguları desteklemez. Yalnızca çok modüllü ekleme modelleri, sorgu zamanında görüntüleri vektörlere dönüştüren vektörleştiriciler sağlar.

Görüntüleri çok modüllü dizininizde sorgu girişi olarak kullanmak için AML becerisini veya eşdeğer bir vektörleştirici ile Azure Vision çok modüllü ekleme becerisini kullanmanız gerekir. Daha fazla bilgi için bkz. Arama dizininde vektörleştirici yapılandırma.

Öğreticiler ve örnekler

Azure AI Search'te çok modüllü aramayı kullanmaya başlamanıza yardımcı olmak için burada Azure işlevselliğini kullanarak çok modüllü dizin oluşturma ve iyileştirme adımlarını gösteren bir içerik koleksiyonu bulabilirsiniz.

Content Description
Hızlı Başlangıç: Azure portalında çok modüllü arama Sihirbazı ve Arama Gezgini'ni kullanarak Azure portalında çok modüllü bir dizin oluşturun ve test edin.
Öğretici: Üretken yapay zeka kullanarak görüntüleri sözelleştirme Metin ve resimleri ayıklayın, diyagramları sözelleştirin ve sonuçta elde edilen açıklamaları ve metni aranabilir bir dizine ekleyin.
Öğretici: Resimleri ve metni vektörleştirme Hem metni hem de resimleri doğrudan eklemek için görüntü işleme metin modeli kullanarak taranan PDF'ler üzerinde görsel benzerlik araması sağlayabilirsiniz.
Eğitim: Yapılandırılmış belge düzeninden görüntüleri anlatma Düzen algılamalı öbekleme ve diyagram sözelleştirmesi uygulayın, konum meta verilerini yakalayın ve kesin alıntılar ve sayfa vurguları için kırpılan görüntüleri depolayın.
Öğretici: Yapılandırılmış belge düzeninden vektörleştirme Düzen farkındalığına sahip öbeklemeyi birleşik gömülemelerle birleştirerek, hibrit anlamsal ve anahtar kelime araması yapın ve tam isabet konumlarını döndürün.
Örnek uygulama: Multimodal RAG GitHub deposu Hem metin parçacıklarını hem de görüntü ek açıklamalarını ortaya çıkarabilen çok modüllü özelliklere sahip uçtan uca, koda hazır bir RAG uygulaması. Kurumsal yardımcı pilotlara hızlı başlangıç sağlamak için idealdir.