Bagikan melalui


Mulai cepat: Mem-vektorisasi teks dan gambar dengan menggunakan portal Azure

Penting

Wizard Impor dan vektorisasi data berada dalam pratinjau publik di bawah Ketentuan Penggunaan Tambahan. Secara default, ini menargetkan REST API Pratinjau 2024-05-01.

Mulai cepat ini membantu Anda memulai vektorisasi terintegrasi (pratinjau) dengan menggunakan wizard Impor dan vektorisasi data di portal Azure. Wizard memotong konten Anda dan memanggil model penyematan untuk mem-vektorisasi konten selama pengindeksan dan untuk kueri.

Poin-poin penting tentang wizard:

  • Data sumber adalah azure Blob Storage atau file OneLake dan pintasan.

  • Mode penguraian dokumen adalah default (satu dokumen pencarian per blob atau file).

  • Skema indeks tidak dapat dikonfigurasi. Ini menyediakan bidang vektor dan nonvektor untuk data yang dipotong.

  • Penggugusan tidak dapat dikonfigurasi. Pengaturan yang efektif adalah:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Prasyarat

  • Langganan Azure. Buat akun gratis.

  • Azure AI layanan Pencarian di wilayah yang sama dengan Azure AI. Kami merekomendasikan tingkat Dasar atau yang lebih tinggi.

  • Azure Blob Storage atau oneLake lakehouse.

    Azure Storage harus merupakan akun performa standar (tujuan umum v2). Tingkat akses bisa panas, dingin, dan dingin. Jangan gunakan Azure Data Lake Storage Gen2 (akun penyimpanan dengan namespace hierarkis). Versi wizard ini tidak mendukung Data Lake Storage Gen2.

  • Model penyematan pada platform Azure AI. Instruksi penyebaran ada di artikel ini.

    Penyedia Model yang didukung
    Layanan Azure OpenAI text-embedding-ada-002, text-embedding-3-large, atau text-embedding-3-small.
    Katalog model Azure AI Studio Model penyematan Azure, Cohere, dan Facebook.
    Akun multiservice layanan Azure AI Multimodal Azure AI Vision untuk vektorisasi gambar dan teks. Multimodal Azure AI Vision tersedia di wilayah yang dipilih. Periksa dokumentasi untuk daftar yang diperbarui. Untuk menggunakan sumber daya ini, akun harus berada di wilayah yang tersedia dan di wilayah yang sama dengan Azure AI Search.

Persyaratan titik akhir publik

Semua sumber daya sebelumnya harus mengaktifkan akses publik sehingga simpul portal dapat mengaksesnya. Jika tidak, wizard gagal. Setelah wizard berjalan, Anda dapat mengaktifkan firewall dan titik akhir privat pada komponen integrasi untuk keamanan. Untuk informasi selengkapnya, lihat Mengamankan koneksi di wizard impor.

Jika titik akhir privat sudah ada dan Anda tidak dapat menonaktifkannya, opsi alternatifnya adalah menjalankan alur end-to-end masing-masing dari skrip atau program di komputer virtual. Komputer virtual harus berada di jaringan virtual yang sama dengan titik akhir privat. Berikut adalah sampel kode Python untuk vektorisasi terintegrasi. Repositori GitHub yang sama memiliki sampel dalam bahasa pemrograman lainnya.

Persyaratan kontrol akses berbasis peran

Kami merekomendasikan penetapan peran untuk koneksi layanan pencarian ke sumber daya lain.

  1. Di Azure AI Search, aktifkan peran.

  2. Konfigurasikan layanan pencarian Anda untuk menggunakan identitas terkelola.

  3. Pada platform sumber data dan penyedia model penyematan Anda, buat penetapan peran yang memungkinkan layanan pencarian mengakses data dan model. Siapkan data sampel menyediakan instruksi untuk menyiapkan peran.

Layanan pencarian gratis mendukung RBAC pada koneksi ke Azure AI Search, tetapi tidak mendukung identitas terkelola pada koneksi keluar ke Azure Storage atau Azure AI Vision. Tingkat dukungan ini berarti Anda harus menggunakan autentikasi berbasis kunci pada koneksi antara layanan pencarian gratis dan layanan Azure lainnya.

Untuk koneksi yang lebih aman:

Catatan

Jika Anda tidak dapat maju melalui wizard karena opsi tidak tersedia (misalnya, Anda tidak dapat memilih sumber data atau model penyematan), kunjungi kembali penetapan peran. Pesan kesalahan menunjukkan bahwa model atau penyebaran tidak ada, padahal sebenarnya penyebab sebenarnya adalah bahwa layanan pencarian tidak memiliki izin untuk mengaksesnya.

Periksa ruang

Jika Anda memulai dengan layanan gratis, Anda dibatasi hingga 3 indeks, sumber data, set keterampilan, dan pengindeks. Dasar membatasi Anda hingga 15. Pastikan Anda memiliki ruang untuk item tambahan sebelum memulai. Mulai cepat ini membuat salah satu dari setiap objek.

Periksa peringkat semantik

Wizard mendukung peringkat semantik, tetapi hanya pada tingkat Dasar dan yang lebih tinggi, dan hanya jika peringkat semantik sudah diaktifkan pada layanan pencarian Anda. Jika Anda menggunakan tingkat yang dapat ditagih, periksa apakah peringkat semantik diaktifkan.

Menyiapkan data sampel

Bagian ini mengarahkan Anda ke data yang berfungsi untuk mulai cepat ini.

  1. Masuk ke portal Azure dengan akun Azure Anda, dan buka akun Azure Storage Anda.

  2. Di panel kiri, di bawah Penyimpanan Data, pilih Kontainer.

  3. Buat kontainer baru lalu unggah dokumen PDF paket kesehatan yang digunakan untuk mulai cepat ini.

  4. Di panel kiri, di bawah Kontrol akses, tetapkan peran Pembaca Data Blob Penyimpanan ke identitas layanan pencarian. Atau, dapatkan string koneksi ke akun penyimpanan dari halaman Kunci akses.

Menyiapkan model penyematan

Wizard dapat menggunakan model penyematan yang disebarkan dari Azure OpenAI, Azure AI Vision, atau dari katalog model di Azure AI Studio.

Wizard mendukung text-embedding-ada-002, text-embedding-3-large, dan text-embedding-3-small. Secara internal, wizard memanggil keterampilan AzureOpenAIEmbedding untuk menyambungkan ke Azure OpenAI.

  1. Masuk ke portal Azure dengan akun Azure Anda, dan buka sumber daya Azure OpenAI Anda.

  2. Siapkan izin:

    1. Di menu sebelah kiri, pilih Kontrol akses.

    2. Pilih Tambahkan, lalu pilih Tambahkan penetapan peran.

    3. Di bawah Peran fungsi pekerjaan, pilih Pengguna OpenAI Cognitive Services, lalu pilih Berikutnya.

    4. Di bawah Anggota, pilih Identitas terkelola, lalu pilih Anggota.

    5. Filter menurut langganan dan jenis sumber daya (layanan pencarian), lalu pilih identitas terkelola layanan pencarian Anda.

    6. Pilih Tinjau + tetapkan.

  3. Pada halaman Gambaran Umum , pilih Klik di sini untuk melihat titik akhir atau Klik di sini untuk mengelola kunci jika Anda perlu menyalin titik akhir atau kunci API. Anda dapat menempelkan nilai-nilai ini ke dalam wizard jika Anda menggunakan sumber daya Azure OpenAI dengan autentikasi berbasis kunci.

  4. Di bawah Manajemen Sumber Daya dan penyebaran Model, pilih Kelola Penyebaran untuk membuka Azure AI Studio.

  5. Salin nama penyebaran text-embedding-ada-002 atau model penyematan lain yang didukung. Jika Anda tidak memiliki model penyematan, sebarkan sekarang.

Memulai wizard

  1. Masuk ke portal Azure dengan akun Azure Anda, dan buka layanan Pencarian Azure AI Anda.

  2. Pada halaman Gambaran Umum , pilih Impor dan vektorisasi data.

    Cuplikan layar perintah untuk membuka wizard untuk mengimpor dan mem-vektorisasi data.

Hubungkan ke data Anda

Langkah selanjutnya adalah menyambungkan ke sumber data yang akan digunakan untuk indeks pencarian.

  1. Pada halaman Siapkan koneksi data Anda, pilih Azure Blob Storage.

  2. Tentukan langganan Azure.

  3. Pilih akun penyimpanan dan kontainer yang menyediakan data.

  4. Tentukan apakah Anda ingin dukungan deteksi penghapusan. Pada eksekusi pengindeksan berikutnya, indeks pencarian diperbarui untuk menghapus dokumen pencarian apa pun berdasarkan blob yang dihapus sementara di Azure Storage.

    • Anda diminta untuk memilih Penghapusan sementara blob asli atau Penghapusan sementara menggunakan data kustom.
    • Kontainer blob Anda harus mengaktifkan deteksi penghapusan sebelum Anda menjalankan wizard.
    • Aktifkan penghapusan sementara di Azure Storage, atau tambahkan metadata kustom ke blob Anda yang dikenali pengindeksan sebagai bendera penghapusan.
    • Jika Anda memilih Penghapusan sementara menggunakan data kustom, Anda akan diminta untuk menyediakan pasangan nilai nama properti metadata.
  5. Tentukan apakah Anda ingin layanan pencarian Anda tersambung ke Azure Storage menggunakan identitas terkelolanya.

    • Anda diminta untuk memilih identitas yang dikelola sistem atau dikelola pengguna.
    • Identitas harus memiliki peran Pembaca Data Blob Penyimpanan di Azure Storage.
    • Jangan lewati opsi ini. Kesalahan koneksi terjadi selama pengindeksan jika wizard tidak dapat tersambung ke Azure Storage.
  6. Pilih Selanjutnya.

Vektorisasi teks Anda

Dalam langkah ini, tentukan model penyematan untuk vektorisasi data yang dipotong.

  1. Pada halaman Vektorisasi teks Anda, pilih sumber model penyematan:

    • Azure OpenAI
    • Katalog model Azure AI Studio
    • Sumber daya multimodal Azure AI Vision yang ada di wilayah yang sama dengan Azure AI Search. Jika tidak ada akun multi-layanan Azure AI Services di wilayah yang sama, opsi ini tidak tersedia.
  2. Pilih langganan Azure.

  3. Buat pilihan sesuai dengan sumber daya:

    • Untuk Azure OpenAI, pilih penyebaran text-embedding-ada-002, text-embedding-3-large, atau text-embedding-3-small yang ada.

    • Untuk katalog AI Studio, pilih penyebaran model penyematan Azure, Cohere, dan Facebook yang sudah ada.

    • Untuk penyematan multimodal AI Vision, pilih akun.

    Untuk informasi selengkapnya, lihat Menyiapkan model penyematan sebelumnya di artikel ini.

  4. Tentukan apakah Anda ingin layanan pencarian Anda mengautentikasi menggunakan kunci API atau identitas terkelola.

    • Identitas harus memiliki peran Pengguna OpenAI Cognitive Services di akun multi-layanan Azure AI.
  5. Pilih kotak centang yang mengakui dampak penagihan menggunakan sumber daya ini.

  6. Pilih Selanjutnya.

Vektorisasi dan perkaya gambar Anda

Jika konten Anda menyertakan gambar, Anda dapat menerapkan AI dengan dua cara:

  • Gunakan model penyematan gambar yang didukung dari katalog, atau pilih API penyematan multimodal Azure AI Vision untuk mem-vektorisasi gambar.

  • Gunakan pengenalan karakter optik (OCR) untuk mengenali teks dalam gambar. Opsi ini memanggil keterampilan OCR untuk membaca teks dari gambar.

Azure AI Search dan sumber daya Azure AI Anda harus berada di wilayah yang sama.

  1. Pada halaman Vektorisasi gambar Anda, tentukan jenis koneksi yang harus dibuat wizard. Untuk vektorisasi gambar, wizard dapat tersambung ke model penyematan di Azure AI Studio atau Azure AI Vision.

  2. Tentukan langganan.

  3. Untuk katalog model Azure AI Studio, tentukan proyek dan penyebaran. Untuk informasi selengkapnya, lihat Menyiapkan model penyematan sebelumnya di artikel ini.

  4. Secara opsional, Anda dapat memecahkan gambar biner (misalnya, file dokumen yang dipindai) dan menggunakan OCR untuk mengenali teks.

  5. Pilih kotak centang yang mengakui dampak penagihan menggunakan sumber daya ini.

  6. Pilih Selanjutnya.

Pilih pengaturan tingkat lanjut

  1. Pada halaman Pengaturan tingkat lanjut, Anda dapat secara opsional menambahkan peringkat semantik untuk mererank hasil di akhir eksekusi kueri. Reranking mempromosikan kecocokan yang paling relevan secara semantik ke bagian atas.

  2. Secara opsional, tentukan jadwal eksekusi untuk pengindeks.

  3. Pilih Selanjutnya.

Menyelesaikan wizard

  1. Pada halaman Tinjau konfigurasi Anda, tentukan awalan untuk objek yang akan dibuat wizard. Awalan umum membantu Anda tetap terorganisir.

  2. Pilih Buat.

Saat wizard menyelesaikan konfigurasi, wizard akan membuat objek berikut:

  • Koneksi sumber data.

  • Indeks dengan bidang vektor, vektorizer, profil vektor, dan algoritma vektor. Anda tidak dapat merancang atau mengubah indeks default selama alur kerja wizard. Indeks sesuai dengan REST API 2024-05-01-preview.

  • Skillset dengan keterampilan Pemisahan Teks untuk pemotongan dan keterampilan penyematan untuk vektorisasi. Keterampilan penyematan adalah keterampilan AzureOpenAIEmbeddingModel untuk Azure OpenAI atau keterampilan AML untuk katalog model Azure AI Studio.

  • Pengindeks dengan pemetaan bidang dan pemetaan bidang output (jika berlaku).

Memeriksa hasil

Search Explorer menerima string teks sebagai input lalu mem-vektorisasi teks untuk eksekusi kueri vektor.

  1. Di portal Azure, buka Indeks Manajemen>Pencarian, lalu pilih indeks yang Anda buat.

  2. Secara opsional, pilih Opsi kueri dan sembunyikan nilai vektor di hasil pencarian. Langkah ini membuat hasil pencarian Anda lebih mudah dibaca.

    Cuplikan layar tombol untuk opsi kueri.

  3. Pada menu Tampilan, pilih tampilan JSON sehingga Anda bisa memasukkan teks untuk kueri vektor Anda di text parameter kueri vektor.

    Cuplikan layar perintah menu untuk membuka tampilan JSON.

    Wizard menawarkan kueri default yang mengeluarkan kueri vektor pada vector bidang dan mengembalikan lima tetangga terdekat. Jika Anda memilih untuk menyembunyikan nilai vektor, kueri default Anda menyertakan select pernyataan yang mengecualikan vector bidang dari hasil pencarian.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. Untuk nilai , text ganti tanda bintang (*) dengan pertanyaan yang terkait dengan rencana kesehatan, seperti Which plan has the lowest deductible?.

  5. Pilih Cari untuk menjalankan kueri.

    Cuplikan layar hasil pencarian.

    Lima kecocokan akan muncul. Setiap dokumen adalah potongan PDF asli. Bidang menunjukkan title DARI PDF mana gugus berasal.

  6. Untuk melihat semua gugus dari dokumen tertentu, tambahkan filter untuk title bidang untuk PDF tertentu:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Penghapusan

Azure AI Search adalah sumber daya yang dapat ditagih. Jika Anda tidak lagi membutuhkannya, hapus dari langganan Anda untuk menghindari biaya.

Langkah selanjutnya

Mulai cepat ini memperkenalkan Anda ke wizard Impor dan vektorisasi data yang membuat semua objek yang diperlukan untuk vektorisasi terintegrasi. Jika Anda ingin menjelajahi setiap langkah secara rinci, coba sampel vektorisasi terintegrasi.