Mulai cepat: Vektorisasi terintegrasi (pratinjau)

Penting

Wizard impor dan vektorisasi data berada dalam pratinjau publik di bawah Ketentuan Penggunaan Tambahan. Ini menargetkan REST API Pratinjau 2023-10-01.

Mulai menggunakan vektorisasi terintegrasi (pratinjau) menggunakan wizard Impor dan vektorisasi data di portal Azure. Wizard ini memanggil model penyematan teks Azure OpenAI untuk mem-vektorisasi konten selama pengindeksan dan untuk kueri.

Dalam versi pratinjau wizard ini:

  • Data sumber hanya blob, menggunakan mode penguraian default (satu dokumen pencarian per blob).

  • Skema indeks tidak dapat dikonfigurasi. Bidang sumber termasuk content (dipotong dan di-vektorisasi), metadata_storage_name untuk judul, dan metadata_storage_path untuk kunci dokumen, yang diwakili sebagai parent_id dalam Indeks.

  • Vektorisasi hanya Azure OpenAI (text-embedding-ada-002), menggunakan algoritma Hierarkis Navigable Small Worlds (HNSW) dengan default.

  • Penggugusan tidak dapat dikonfigurasi. Pengaturan yang efektif adalah:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Untuk opsi konfigurasi dan sumber data lainnya, coba Python atau REST API. Lihat sampel vektorisasi terintegrasi untuk detailnya.

  • Langganan Azure. Buat akun gratis.

  • Pencarian Azure AI, di wilayah mana pun dan di tingkat mana pun. Sebagian besar layanan yang ada mendukung pencarian vektor. Untuk subset kecil layanan yang dibuat sebelum Januari 2019, indeks yang berisi bidang vektor gagal pada pembuatan. Dalam situasi ini, layanan baru harus dibuat.

  • Titik akhir Azure OpenAI dengan penyebaran text-embedding-ada-002 dan kunci API atau izin Pengguna OpenAI Cognitive Services untuk mengunggah data. Anda hanya dapat memilih satu vektorizer dalam pratinjau ini, dan vektorizer harus Azure OpenAI.

  • Akun Azure Storage, performa standar (tujuan umum v2), tingkat akses panas, dingin, dan dingin.

  • Blob yang menyediakan konten teks, dokumen yang tidak terstruktur saja, dan metadata. Dalam pratinjau ini, sumber data Anda harus blob Azure.

  • Izin baca di Azure Storage. String koneksi penyimpanan yang menyertakan kunci akses memberi Anda akses baca ke konten penyimpanan. Jika Anda menggunakan login dan peran Microsoft Entra, pastikan identitas terkelola layanan pencarian memiliki izin Pembaca Data Blob Penyimpanan.

  • Semua komponen (sumber data dan titik akhir penyematan) harus mengaktifkan akses publik agar simpul portal dapat mengaksesnya. Jika tidak, wizard gagal. Setelah wizard berjalan, firewall dan titik akhir privat dapat diaktifkan di komponen integrasi yang berbeda untuk keamanan. Jika titik akhir privat sudah ada dan tidak dapat dinonaktifkan, opsi alternatifnya adalah menjalankan alur end-to-end masing-masing dari skrip atau program dari komputer virtual dalam jaringan virtual yang sama dengan titik akhir privat. Berikut adalah sampel kode Python untuk vektorisasi terintegrasi. Dalam repositori GitHub yang sama adalah sampel dalam bahasa pemrograman lainnya.

Periksa ruang

Banyak pelanggan mulai dengan layanan gratis. Tingkat gratis terbatas pada tiga indeks, tiga sumber data, tiga set keterampilan, dan tiga pengindeks. Pastikan Anda memiliki ruang untuk item tambahan sebelum memulai. Mulai cepat ini membuat salah satu dari setiap objek.

Periksa peringkat semantik

Panduan ini mendukung peringkat semantik, tetapi hanya pada tingkat Dasar ke atas, dan hanya jika peringkat semantik sudah diaktifkan pada layanan pencarian Anda. Jika Anda menggunakan tingkat yang dapat ditagih, periksa untuk melihat apakah peringkat semantik diaktifkan.

Cuplikan layar halaman konfigurasi ranker semantik.

Menyiapkan data sampel

Bagian ini mengarahkan Anda ke data yang berfungsi untuk mulai cepat ini.

  1. Masuk ke portal Azure dengan akun Azure Anda, dan buka akun Azure Storage Anda.

  2. Di panel navigasi, di bawah Penyimpanan Data, pilih Kontainer.

  3. Buat kontainer baru lalu unggah dokumen PDF paket kesehatan yang digunakan untuk mulai cepat ini.

  4. Sebelum meninggalkan akun Azure Storage di portal Azure, berikan izin Storage Blob Data Reader pada kontainer, dengan asumsi Anda menginginkan akses berbasis peran. Atau, dapatkan string koneksi ke akun penyimpanan dari halaman Kunci akses.

Mendapatkan detail koneksi untuk Azure OpenAI

Wizard memerlukan titik akhir, penyebaran text-embedding-ada-002, dan kunci API atau identitas terkelola layanan pencarian dengan izin Pengguna OpenAI Cognitive Services.

  1. Masuk ke portal Azure dengan akun Azure Anda, dan buka sumber daya Azure OpenAI Anda.

  2. Di bawah Kunci dan manajemen, salin titik akhir.

  3. Pada halaman yang sama, salin kunci atau centang Kontrol akses untuk menetapkan anggota peran ke identitas layanan pencarian Anda.

  4. Di bawah Penyebaran model, pilih Kelola penyebaran untuk membuka Azure AI Studio. Salin nama penyebaran text-embedding-ada-002.

Memulai wizard

Untuk memulai, telusuri layanan Pencarian Azure AI Anda di portal Azure dan buka wizard Impor dan vektorisasi data.

  1. Masuk ke portal Azure dengan akun Azure Anda, dan buka layanan Pencarian Azure AI Anda.

  2. Pada halaman Gambaran Umum , pilih Impor dan vektorisasi data.

    Cuplikan layar perintah wizard.

Hubungkan ke data Anda

Langkah selanjutnya adalah menyambungkan ke sumber data yang akan digunakan untuk indeks pencarian.

  1. Di wizard Impor dan vektorisasi data pada Koneksi ke tab data Anda, perluas daftar dropdown Sumber Data dan pilih Azure Blob Storage.

  2. Tentukan langganan Azure, akun penyimpanan, dan kontainer yang menyediakan data.

  3. Untuk koneksi, berikan akses penuh string koneksi yang menyertakan kunci, atau tentukan identitas terkelola yang memiliki izin Pembaca Data Blob Penyimpanan pada kontainer.

  4. Tentukan apakah Anda ingin deteksi penghapusan:

    Cuplikan layar halaman sumber data.

  5. Pilih Berikutnya: Vektorisasi dan Perkaya untuk melanjutkan.

Memperkaya dan mem-vektorisasi data Anda

Dalam langkah ini, tentukan model penyematan yang digunakan untuk mem-vektorisasi data yang dipotong.

  1. Berikan langganan, titik akhir, kunci API, dan nama penyebaran model.

  2. Secara opsional, Anda dapat memecahkan gambar biner (misalnya, file dokumen yang dipindai) dan menggunakan OCR untuk mengenali teks.

  3. Secara opsional, Anda dapat menambahkan peringkat semantik untuk mererank hasil di akhir eksekusi kueri, mempromosikan kecocokan yang paling relevan secara semantik ke bagian atas.

  4. Tentukan jadwal run time untuk pengindeks.

    Cuplikan layar halaman pengayaan.

  5. Pilih Berikutnya: Buat dan Tinjau untuk melanjutkan.

Menjalankan wizard

Langkah ini membuat objek berikut:

  • Koneksi sumber data ke kontainer blob Anda.

  • Indeks dengan bidang vektor, vektorizer, profil vektor, algoritma vektor. Anda tidak diminta untuk merancang atau mengubah indeks default selama alur kerja wizard. Indeks sesuai dengan versi Pratinjau 2023-10-01.

  • Keterampilan dengan keterampilan Pemisahan Teks untuk pemotongan dan AzureOpenAIEmbeddingModel untuk vektorisasi.

  • Pengindeks dengan pemetaan bidang dan pemetaan bidang output (jika berlaku).

Jika Anda mendapatkan kesalahan, tinjau izin terlebih dahulu. Anda memerlukan Pengguna OpenAI Cognitive Services di Azure OpenAI dan Pembaca Data Blob Penyimpanan di Azure Storage. Blob Anda harus tidak terstruktur (data yang dipotong ditarik dari properti "konten" blob).

Memeriksa hasil

Penjelajah pencarian menerima string teks sebagai input lalu mem-vektorisasi teks untuk eksekusi kueri vektor.

  1. Pilih indeks Anda.

  2. Secara opsional, pilih Opsi kueri dan sembunyikan nilai vektor di hasil pencarian. Langkah ini membuat hasil pencarian Anda lebih mudah dibaca.

    Cuplikan layar tombol opsi kueri.

  3. Pilih tampilan JSON sehingga Anda bisa memasukkan teks untuk kueri vektor Anda di parameter kueri vektor teks .

    Cuplikan layar pemilih JSON.

    Wizard ini menawarkan kueri default yang mengeluarkan kueri vektor pada bidang "vektor", mengembalikan 5 tetangga terdekat. Jika Anda memilih untuk menyembunyikan nilai vektor, kueri default Anda menyertakan pernyataan "pilih" yang mengecualikan bidang vektor dari hasil pencarian.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. Ganti teks "*" dengan pertanyaan yang terkait dengan rencana kesehatan, seperti "paket mana yang memiliki pengurangan terendah".

  5. Pilih Cari untuk menjalankan kueri.

    Cuplikan layar hasil pencarian.

    Anda akan melihat 5 kecocokan, di mana setiap dokumen adalah potongan PDF asli. Bidang judul menunjukkan DARI PDF mana gugus berasal.

  6. Untuk melihat semua gugus dari dokumen tertentu, tambahkan filter untuk bidang judul untuk PDF tertentu:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Penghapusan

Azure AI Search adalah sumber daya yang dapat ditagih. Jika tidak lagi diperlukan, hapus dari langganan Anda untuk menghindari biaya.

Langkah berikutnya

Mulai cepat ini memperkenalkan Anda ke wizard Impor dan vektorisasi data yang membuat semua objek yang diperlukan untuk vektorisasi terintegrasi. Jika Anda ingin menjelajahi setiap langkah secara rinci, coba sampel vektorisasi terintegrasi.