Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Pencarian multimodal mengacu pada kemampuan untuk menyerap, memahami, dan mengambil informasi di beberapa jenis konten, termasuk teks, gambar, video, dan audio. Dalam Pencarian Azure AI, pencarian multimodal secara asli mendukung penyerapan dokumen yang berisi teks dan gambar dan pengambilan kontennya, memungkinkan Anda melakukan pencarian yang menggabungkan kedua modalitas.
Membangun alur multimodal yang kuat biasanya melibatkan:
Mengekstrak gambar sebaris dan teks halaman dari dokumen.
Menjelaskan gambar dalam bahasa alami.
Menyematkan teks dan gambar ke dalam ruang vektor bersama.
Menyimpan gambar untuk digunakan nanti sebagai anotasi.
Pencarian multimodal juga mengharuskan mempertahankan urutan informasi seperti yang muncul di dokumen dan menjalankan kueri hibrid yang menggabungkan pencarian teks lengkap dengan pencarian vektor dan peringkat semantik.
Dalam praktiknya, aplikasi yang menggunakan pencarian multimodal dapat menjawab pertanyaan seperti "Apa proses untuk memiliki formulir SDM yang disetujui?" bahkan ketika satu-satunya deskripsi otoritatif dari proses berada di dalam diagram yang disematkan dalam file PDF.
Mengapa menggunakan pencarian multimodal?
Secara tradisional, pencarian multimodal memerlukan sistem terpisah untuk pemrosesan teks dan gambar, sering kali memerlukan kode kustom dan konfigurasi tingkat rendah dari pengembang. Mempertahankan sistem ini menimbulkan biaya, kompleksitas, dan upaya yang lebih tinggi.
Azure AI Search mengatasi tantangan ini dengan mengintegrasikan gambar ke dalam alur pengambilan yang sama dengan teks. Dengan satu alur multimodal, Anda dapat menyederhanakan penyiapan dan membuka kunci informasi yang berada di bagan, cuplikan layar, infografis, formulir yang dipindai, dan visual kompleks lainnya.
Pencarian multimodal sangat ideal untuk skenario retrieval-augmented generation (RAG). Dengan menafsirkan logika struktural gambar, pencarian multimodal membuat aplikasi RAG atau agen AI Anda cenderung tidak mengabaikan detail visual penting. Ini juga memberi pengguna Anda jawaban terperinci yang dapat dilacak kembali ke sumber asli mereka, terlepas dari modalitas sumbernya.
Cara kerja pencarian multimodal di Azure AI Search
Untuk menyederhanakan pembuatan alur multimodal, Azure AI Search menawarkan wizard Impor data (baru) di portal Microsoft Azure. Wizard ini membantu Anda mengonfigurasi sumber data, menentukan pengaturan ekstraksi dan pengayaan, dan menghasilkan indeks multimodal yang berisi teks, referensi gambar yang disematkan, dan penyematan vektor. Untuk informasi selengkapnya, lihat Mulai Cepat: Pencarian multimodal di portal Microsoft Azure.
Wizard mengikuti langkah-langkah ini untuk membuat alur multimodal:
Ekstrak konten:Keterampilan Ekstraksi Dokumen atau keterampilan Tata Letak Dokumen mendapatkan teks halaman, gambar sebaris, dan metadata struktural. Keterampilan Ekstraksi Dokumen tidak mengekstrak poligon atau nomor halaman, dan jenis file yang didukung bervariasi. Untuk informasi selengkapnya, lihat Opsi untuk ekstraksi konten multimodal.
Keterampilan bawaan ini tidak mendukung ekstraksi tabel atau pelestarian struktur tabel. Untuk menggunakan kemampuan ini, Anda harus membangun keterampilan API Web kustom yang memanggil Pemahaman Konten Azure AI.
Teks potongan:Keterampilan Pemisahan Teks memecah teks yang diekstrak menjadi bagian yang lebih mudah diatur untuk digunakan dalam proses yang tersisa, seperti kemampuan untuk menyematkan.
Hasilkan deskripsi gambar:Keterampilan GenAI Prompt memverifikasi gambar, menghasilkan deskripsi bahasa alami yang ringkas untuk pencarian teks dan penyematan menggunakan model bahasa besar (LLM).
Hasilkan penyematan: Keterampilan penyematan membuat representasi vektor teks dan gambar, memungkinkan kesamaan dan pengambilan hibrid. Anda dapat memanggil model embedding Azure OpenAI, Azure AI Foundry, atau Azure AI Vision secara langsung.
Atau, Anda dapat melewati verbalisasi gambar dan meneruskan teks dan gambar yang diekstrak langsung ke model penyematan multimodal melalui keterampilan AML atau keterampilan penyematan multimodal Azure AI Vision. Untuk informasi selengkapnya, lihat Opsi untuk penyematan konten multimodal.
Simpan gambar yang diekstrak: Penyimpanan pengetahuan berisi gambar yang diekstrak yang dapat dikembalikan langsung ke aplikasi klien. Ketika Anda menggunakan panduan, lokasi gambar disimpan langsung di indeks multimodal, memudahkan pengambilan saat kueri.
Tip
Untuk melihat pencarian multimodal beraksi, sambungkan indeks yang dibuat oleh wizard ke aplikasi sampel RAG multimodal. Sampel menunjukkan bagaimana aplikasi RAG menggunakan indeks multimodal dan merender kutipan tekstual dan cuplikan gambar terkait dalam respons. Sampel juga menampilkan proses penyerapan dan pengindeksan data berbasis kode.
Opsi untuk ekstraksi konten multimodal
Alur multimodal dimulai dengan memecahkan setiap dokumen sumber menjadi potongan teks, gambar sebaris, dan metadata terkait. Untuk langkah ini, Azure AI Search menyediakan dua keterampilan bawaan: keterampilan Ekstraksi Dokumen dan keterampilan Tata Letak Dokumen. Kedua keterampilan mengaktifkan ekstraksi teks dan gambar, tetapi berbeda dalam detail tata letak, metadata yang dikembalikan, dan penagihan.
| Characteristic | Keterampilan Ekstraksi Dokumen | Keterampilan Tata Letak Dokumen |
|---|---|---|
| Ekstraksi metadata lokasi teks (halaman dan poligon pembatas) | No | Yes |
| Ekstraksi metadata lokasi gambar (halaman dan poligon pembatas) | Yes | Yes |
| Ekstraksi metadata lokasi berdasarkan jenis file | Hanya PDF. | Beberapa jenis file yang didukung sesuai dengan model tata letak Kecerdasan Dokumen Azure AI. |
| Penagihan atas ekstraksi data | Ekstraksi gambar ditagih sesuai dengan harga Azure AI Search. | Ditagih sesuai dengan harga Tata Letak Dokumen. |
| Skenario yang direkomendasikan | Prototipe cepat atau alur produksi di mana posisi yang tepat atau informasi tata letak terperinci tidak diperlukan. | Alur RAG dan alur kerja agen yang memerlukan nomor halaman yang tepat, sorotan di halaman, atau overlay diagram di aplikasi klien. |
Anda juga dapat menggunakan keterampilan kustom untuk langsung memanggil Azure AI Content Understanding, yang tidak didukung oleh Azure AI Search secara asli, untuk ekstraksi konten multimodal.
Opsi untuk penyematan konten multimodal
Di Azure AI Search, mengambil pengetahuan dari gambar dapat mengikuti dua jalur pelengkap: verbalisasi gambar atau penyematan langsung. Memahami perbedaan membantu Anda menyelaraskan biaya, latensi, dan menjawab kualitas dengan kebutuhan aplikasi Anda.
Verbalisasi gambar diikuti dengan penyematan teks
Dengan metode ini, fitur GenAI Prompt menggunakan LLM saat proses penyerapan untuk membuat deskripsi singkat dalam bahasa alami untuk setiap gambar yang diekstrak, seperti "Alur kerja akses SDM lima langkah yang dimulai dengan persetujuan manajer." Deskripsi disimpan sebagai teks dan disematkan dengan teks dokumen yang mengelilinginya, yang kemudian dapat Anda vektorisasi dengan memanggil model penyematan Azure OpenAI, Azure AI Foundry, atau Azure AI Vision.
Karena gambar sekarang dinyatakan dalam bahasa, Azure AI Search dapat:
Menginterpretasikan hubungan dan entitas yang diperlihatkan dalam diagram.
Siapkan keterangan siap pakai yang dapat dikutip LLM secara verbatim sebagai respons.
Mengembalikan cuplikan yang relevan untuk aplikasi RAG atau skenario agen kecerdasan buatan dengan data yang mendasar.
Kedalaman semantik yang ditambahkan memerlukan panggilan LLM untuk setiap gambar dan peningkatan marginal dalam waktu pengindeksan.
Penyematan multimodal langsung
Opsi kedua adalah meneruskan gambar dan teks yang diekstrak dokumen ke model penyematan multimodal yang menghasilkan representasi vektor di ruang vektor yang sama. Konfigurasi mudah, dan tidak ada LLM yang diperlukan pada waktu pengindeksan. Penyematan langsung sangat cocok untuk kemiripan visual dan skenario "cari-aku-sesuatu-yang-terlihat-seperti-ini".
Karena representasinya murni matematika, itu tidak menyampaikan mengapa dua gambar terkait, dan tidak menawarkan konteks siap LLM untuk kutipan atau penjelasan terperinci.
Menggabungkan kedua pendekatan
Banyak solusi membutuhkan kedua jalur proses pengodean. Diagram, bagan alir, dan visual lain yang kaya akan penjelasan disampaikan dalam bentuk kata-kata sehingga informasi semantik tersedia untuk pemahaman agen RAG dan AI. Cuplikan layar, foto produk, atau karya seni disematkan langsung untuk pencarian kesamaan yang efisien. Anda dapat menyesuaikan indeks Azure AI Search dan alur set keterampilan pengindeks sehingga dapat menyimpan dua set vektor dan mengambilnya secara berdampingan.
Opsi untuk mengkueri konten multimodal
Jika alur multimodal Anda didukung oleh keterampilan GenAI Prompt, Anda dapat menjalankan kueri hibrid melalui teks biasa dan gambar verbal dalam indeks pencarian Anda. Anda juga dapat menggunakan filter untuk mempersempit hasil pencarian ke jenis konten tertentu, seperti hanya teks atau hanya gambar.
Meskipun keterampilan GenAI Prompt mendukung kueri teks ke vektor melalui pencarian hibrid, keterampilan ini tidak mendukung kueri gambar-ke-vektor. Hanya model embedding multimodal yang menyediakan vektorizer yang mengonversi gambar menjadi vektor saat pencarian dilakukan.
Untuk menggunakan gambar sebagai input kueri untuk indeks multimodal, Anda harus menggunakan keterampilan AML atau keterampilan penyematan multimodal Azure AI Vision dengan vektorizer yang setara. Untuk informasi selengkapnya, lihat Mengonfigurasi vektorizer dalam indeks pencarian.
Tutorial dan sampel
Untuk membantu Anda memulai pencarian multimodal di Azure AI Search, berikut adalah kumpulan konten yang menunjukkan cara membuat dan mengoptimalkan indeks multimodal menggunakan fungsionalitas Azure.
| Content | Description |
|---|---|
| Mulai cepat: Pencarian multimodal di portal Microsoft Azure | Buat dan uji indeks multimodal di portal Microsoft Azure menggunakan wizard dan Search Explorer. |
| Tutorial: Memverifikasi gambar menggunakan AI generatif | Ekstrak teks dan gambar, verbalisasi diagram, dan sematkan deskripsi dan teks yang dihasilkan ke dalam indeks yang dapat dicari. |
| Tutorial: Mem-vektorisasi gambar dan teks | Gunakan model teks visi untuk menyematkan teks dan gambar secara langsung, memungkinkan pencarian kesamaan visual melalui PDF yang dipindai. |
| Tutorial: Memverbalisasi gambar dari tata letak dokumen terstruktur | Terapkan pemotongan yang peka terhadap tata letak dan verbalisasi diagram, tangkap metadata lokasi, dan simpan gambar yang dipotong untuk kutipan dan penyorotan halaman yang tepat. |
| Tutorial: Vektorisasi dari tata letak dokumen terstruktur | Gabungkan pengelompokan yang sadar tata letak dengan penyematan terpadu untuk pencarian semantik dan kata kunci hibrid yang mengembalikan lokasi hit yang tepat. |
| Aplikasi sampel: Repositori GitHub RAG Multimodal | Aplikasi RAG yang siap digunakan untuk pengkodean secara menyeluruh dengan kemampuan multimodal, menampilkan cuplikan teks dan anotasi gambar. Ideal untuk mengawali pendamping perusahaan. |