Mulai cepat: Mencari gambar dengan menggunakan Search Explorer di portal Azure

Artikel
10/20/2024

Mulai cepat ini memperlihatkan kepada Anda cara memulai pencarian gambar dengan menggunakan wizard Impor dan vektorisasi data di portal Azure. Ini juga menunjukkan cara menggunakan Search Explorer untuk menjalankan kueri berbasis gambar.

Data sampel terdiri dari file gambar di repositori azure-search-sample-data , tetapi Anda dapat menggunakan gambar yang berbeda dan masih mengikuti panduan.

Prasyarat

Langganan Azure. Buat akun gratis.
Akun multiservice layanan Azure AI untuk digunakan untuk vektorisasi gambar dan pengenalan karakter optik (OCR). Vektorisasi gambar memerlukan penyematan multimodal Azure AI Vision. Periksa dokumentasi untuk daftar wilayah yang diperbarui.
Azure AI Cari pengindeksan dan kueri. Ini bisa berada di tingkat apa pun, tetapi harus berada di wilayah yang sama dengan multiservice Azure AI.

Tingkat layanan menentukan berapa banyak blob yang dapat Anda indeks. Kami menggunakan tingkat Gratis untuk membuat panduan ini dan membatasi konten hingga 10 file JPG.
Keakraban dengan wizard. Lihat Wizard impor data di portal Azure untuk detailnya.
Azure Storage untuk menyimpan file gambar sebagai blob. Gunakan Azure Blob Storage atau Azure Data Lake Storage Gen2 (akun penyimpanan dengan namespace hierarkis), akun performa standar (tujuan umum v2). Tingkat akses bisa panas, dingin, dan dingin.

Semua sumber daya sebelumnya harus mengaktifkan akses publik sehingga simpul portal Azure dapat mengaksesnya. Jika tidak, wizard gagal. Setelah wizard berjalan, Anda dapat mengaktifkan firewall dan titik akhir privat pada komponen integrasi untuk keamanan. Untuk informasi selengkapnya, lihat Mengamankan koneksi di wizard impor.

Jika titik akhir privat sudah ada dan Anda tidak dapat menonaktifkannya, opsi alternatifnya adalah menjalankan alur end-to-end masing-masing dari skrip atau program di komputer virtual. Komputer virtual harus berada di jaringan virtual yang sama dengan titik akhir privat. Berikut adalah sampel kode Python untuk vektorisasi terintegrasi. Repositori GitHub yang sama memiliki sampel dalam bahasa pemrograman lainnya.

Layanan pencarian gratis mendukung kontrol akses berbasis peran pada koneksi ke Azure AI Search, tetapi tidak mendukung identitas terkelola pada koneksi keluar ke Azure Storage atau Azure AI Vision. Tingkat dukungan ini berarti Anda harus menggunakan autentikasi berbasis kunci pada koneksi antara layanan pencarian gratis dan layanan Azure lainnya. Untuk koneksi yang lebih aman:

Gunakan tingkat Dasar atau yang lebih tinggi.
Konfigurasikan identitas terkelola dan penetapan peran untuk menerima permintaan dari Azure AI Search di layanan Azure lainnya.

Periksa ruang

Jika Anda memulai dengan layanan gratis, Anda dibatasi hingga tiga indeks, tiga sumber data, tiga set keterampilan, dan tiga pengindeks. Pastikan Anda memiliki ruang untuk item tambahan sebelum memulai. Mulai cepat ini membuat salah satu dari setiap objek.

Menyiapkan data sampel

Unduh folder gambar unsplash-signs ke folder lokal, atau temukan beberapa gambar Anda sendiri. Pada layanan pencarian gratis, simpan file gambar di bawah 20 untuk tetap dalam kuota gratis untuk pemrosesan pengayaan.
Masuk ke portal Azure dengan akun Azure Anda, dan buka akun Azure Storage Anda.
Di panel kiri, di bawah Penyimpanan Data, pilih Kontainer.
Buat kontainer baru lalu unggah gambar.

Memulai wizard

Jika layanan pencarian dan layanan Azure AI Anda berada di wilayah dan penyewa yang didukung yang sama, dan jika kontainer blob Azure Storage Anda menggunakan konfigurasi default, Anda siap untuk memulai wizard.

Masuk ke portal Azure dengan akun Azure Anda, dan buka layanan Pencarian Azure AI Anda.
Pada halaman Gambaran Umum, pilih Impor dan vektorisasi data.

Hubungkan ke data Anda

Langkah selanjutnya adalah menyambungkan ke sumber data yang menyediakan gambar.

Pada halaman Siapkan koneksi data Anda, pilih Azure Blob Storage.
Tentukan langganan Azure.
Untuk Azure Storage, pilih akun dan kontainer yang menyediakan data. Gunakan nilai default untuk kotak yang tersisa.
Pilih Selanjutnya.

Vektorisasi teks Anda

Jika konten mentah menyertakan teks, atau jika set keterampilan menghasilkan teks, wizard memanggil model penyematan teks untuk menghasilkan vektor untuk konten tersebut. Dalam latihan ini, teks akan dihasilkan dari keterampilan OCR yang Anda tambahkan di langkah berikutnya.

Azure AI Vision menyediakan penyematan teks, jadi gunakan sumber daya tersebut untuk vektorisasi teks.

Pada halaman Vektorisasi teks Anda, pilih Vektorisasi Visi AI. Jika tidak tersedia, pastikan Azure AI Search dan akun multiservice Azure AI Anda bersama-sama di wilayah yang mendukung API multimodal AI Vision.
Pilih Selanjutnya.

Vektorisasi dan perkaya gambar Anda

Gunakan Azure AI Vision untuk menghasilkan representasi vektor dari file gambar.

Dalam langkah ini, Anda juga dapat menerapkan AI untuk mengekstrak teks dari gambar. Wizard menggunakan OCR dari layanan Azure AI untuk mengenali teks dalam file gambar.

Dua output lagi muncul dalam indeks saat OCR ditambahkan ke alur kerja:

Bidang chunk diisi dengan string yang dihasilkan OCR dari teks apa pun yang ditemukan dalam gambar.
Bidang text_vector diisi dengan penyematan yang mewakili chunk string.

Penyertaan teks biasa di chunk bidang berguna jika Anda ingin menggunakan fitur relevansi yang beroperasi pada string, seperti peringkat semantik dan profil penilaian.

Pada halaman Vektorisasi gambar Anda, pilih kotak centang Vektorisasi gambar, lalu pilih vektorisasi Visi AI.
Pilih Gunakan layanan AI yang sama yang dipilih untuk vektorisasi teks.
Di bagian pengayaan, pilih Ekstrak teks dari gambar dan Gunakan layanan AI yang sama yang dipilih untuk vektorisasi gambar.
Pilih Selanjutnya.

Memetakan bidang baru

Pada halaman Pengaturan tingkat lanjut, Anda dapat menambahkan bidang baru secara opsional. Secara default, wizard menghasilkan bidang berikut dengan atribut ini:

Bidang	Berlaku untuk	Deskripsi
chunk_id	Vektor teks dan gambar	Bidang string yang dihasilkan. Dapat dicari, dapat diambil, diurutkan. Ini adalah kunci dokumen untuk indeks.
text_parent_id	Vektor gambar	Bidang string yang dihasilkan. Dapat diambil, dapat difilter. Mengidentifikasi dokumen induk tempat potongan berasal.
image_parent_id	Vektor gambar	Bidang string yang dihasilkan. Dapat diambil, dapat difilter. Mengidentifikasi dokumen induk tempat gambar berasal.
potongan	Vektor teks dan gambar	Bidang string. Versi potongan data yang dapat dibaca manusia. Dapat dicari dan diambil, tetapi tidak dapat difilter, dapat difaset, atau dapat diurutkan.
title	Vektor teks dan gambar	Bidang string. Judul dokumen yang dapat dibaca manusia atau judul halaman atau nomor halaman. Dapat dicari dan diambil, tetapi tidak dapat difilter, dapat difaset, atau dapat diurutkan.
image_vector	Vektor gambar	Collection(Edm.single). Representasi vektor gambar. Dapat dicari dan diambil, tetapi tidak dapat difilter, dapat difaset, atau dapat diurutkan.

Anda tidak dapat mengubah bidang yang dihasilkan atau atributnya, tetapi Anda dapat menambahkan bidang baru jika sumber data Anda menyediakannya. Misalnya, Azure Blob Storage menyediakan kumpulan bidang metadata.

Pilih Tambahkan baru.
Pilih bidang sumber dari daftar bidang yang tersedia, berikan nama bidang untuk indeks, dan terima jenis data default atau ambil alih sesuai kebutuhan.

Bidang metadata dapat dicari, tetapi tidak dapat diambil, dapat difilter, dapat difaset, atau dapat diurutkan.
Pilih Reset jika Anda ingin memulihkan skema ke versi aslinya.

Menjadwalkan pengindeksan

Pada halaman Pengaturan tingkat lanjut, di bawah Pengindeksan jadwal, tentukan jadwal eksekusi untuk pengindeks. Kami merekomendasikan Sekali untuk latihan ini. Untuk sumber data di mana data yang mendasar volatil, Anda dapat menjadwalkan pengindeksan untuk mengambil perubahan.
Pilih Selanjutnya.

Menyelesaikan wizard

Pada halaman Tinjau konfigurasi Anda, tentukan awalan untuk objek yang akan dibuat wizard. Awalan umum membantu Anda tetap terorganisir.
Pilih Buat.

Saat wizard menyelesaikan konfigurasi, wizard akan membuat objek berikut:

Pengindeks yang mendorong alur pengindeksan.
Koneksi sumber data ke Azure Blob Storage.
Indeks dengan bidang vektor, bidang teks, vektorizer, profil vektor, dan algoritma vektor. Anda tidak dapat mengubah indeks default selama alur kerja wizard. Indeks sesuai dengan REST API pratinjau 2024-05-01 sehingga Anda dapat menggunakan fitur pratinjau.
Set keterampilan dengan lima keterampilan berikut:
- Keterampilan OCR mengenali teks dalam file gambar.
- Keterampilan Penggabungan Teks menyatukan berbagai output pemrosesan OCR.
- Keterampilan Pemisahan Teks menambahkan pemotongan data. Keterampilan ini dibangun ke dalam alur kerja wizard.
- Keterampilan penyematan multimodal Azure AI Vision digunakan untuk mem-vektorisasi teks yang dihasilkan dari OCR.
- Keterampilan penyematan multimodal Azure AI Vision dipanggil lagi untuk mem-vektorisasi gambar.

Memeriksa hasil

Search Explorer menerima teks, vektor, dan gambar sebagai input kueri. Anda dapat menyeret atau memilih gambar ke area pencarian. Search Explorer mem-vektorisasi gambar Anda dan mengirim vektor sebagai input kueri ke mesin pencari. Vektorisasi gambar mengasumsikan bahwa indeks Anda memiliki definisi vektorizer, yang membuat Impor dan vektorisasi data berdasarkan input model penyematan Anda.

Di portal Azure, buka Indeks Manajemen>Pencarian, lalu pilih indeks yang Anda buat. Penjelajah pencarian adalah tab pertama.
Pada menu Tampilan , pilih Tampilan gambar.
Seret gambar dari folder lokal yang berisi file gambar sampel. Atau, buka browser file untuk memilih file gambar lokal.
Pilih Cari untuk menjalankan kueri.

Kecocokan teratas harus berupa gambar yang Anda cari. Karena pencarian vektor cocok pada vektor serupa, mesin pencari mengembalikan dokumen apa pun yang cukup mirip dengan input kueri, hingga k jumlah hasil. Anda dapat beralih ke tampilan JSON untuk kueri tingkat lanjut yang menyertakan penyetelan relevansi.
Coba opsi kueri lain untuk membandingkan hasil pencarian:
- Sembunyikan vektor untuk hasil yang lebih mudah dibaca (disarankan).
- Pilih bidang vektor untuk dikueri. Defaultnya adalah vektor teks, tetapi Anda dapat menentukan vektor gambar untuk mengecualikan vektor teks dari eksekusi kueri.

Penghapusan

Demo ini menggunakan sumber daya Azure yang dapat ditagih. Jika Anda tidak lagi memerlukan sumber daya, hapus dari langganan Anda untuk menghindari biaya.

Langkah selanjutnya

Mulai cepat ini memperkenalkan Anda ke wizard Impor dan vektorisasi data yang membuat semua objek yang diperlukan untuk pencarian gambar. Jika Anda ingin menjelajahi setiap langkah secara rinci, coba sampel vektorisasi terintegrasi.

Bagikan melalui