Bagikan melalui


Mulai cepat: Mem-vektorisasi teks di portal Microsoft Azure

Dalam mulai cepat ini, Anda menggunakan wizard Impor dan vektorisasi data di portal Microsoft Azure untuk mulai menggunakan vektorisasi terintegrasi. Asisten memotong konten Anda dan memanggil model penyematan untuk menvektorisasi potongan pada saat pengindeksan dan kueri.

Panduan memulai cepat ini menggunakan PDF berbasis teks dari repo Azure Search Sample Data. Namun, Anda dapat menggunakan gambar dan tetap menyelesaikan panduan cepat ini.

Prasyarat

Sumber data yang didukung

Wizard Impor dan Vektorisasi Datamendukung sumber data Azure yang beragam. Panduan cepat ini hanya mencakup sumber data yang berfungsi dengan seluruh file, yang dijelaskan dalam tabel berikut.

Sumber data yang didukung Deskripsi
Penyimpanan Blob Azure Sumber data ini berfungsi dengan blob dan tabel. Anda harus menggunakan akun performa standar (tujuan umum v2). Tingkat akses bisa panas, sejuk, atau dingin.
Azure Data Lake Storage (ADLS) Gen2 Ini adalah akun Azure Storage dengan namespace hierarki diaktifkan. Untuk mengonfirmasi bahwa Anda memiliki Data Lake Storage, periksa tab Properti di halaman Gambaran Umum .

Cuplikan layar akun Azure Data Lake Storage di portal Microsoft Azure.
OneLake Sumber data ini saat ini dalam versi pratinjau. Untuk informasi tentang batasan dan pintasan yang didukung, lihat Pengindeksan OneLake.

Model penyematan yang didukung

Untuk vektorisasi terintegrasi, Anda harus menggunakan salah satu model penyematan berikut pada platform Azure AI. Instruksi penyebaran disediakan di bagian selanjutnya.

Penyedia Model yang didukung
Azure OpenAI di Azure AI Foundry Models1, 2 text-embedding-ada-002
teks-penanaman-3-kecil
penyisipan-teks-3-besar
Sumber daya multi-layanan layanan Azure AI3 Untuk teks dan gambar: Azure AI Vision Multimodal4
Katalog model Azure AI Foundry Untuk teks:
Cohere-embed-v3-bahasa-inggris
Cohere-embed-v3-multilingual

Untuk gambar:
Facebook-DinoV2-Image-Embeddings-ViT-Base
Facebook-DinoV2-Penyisipan-Gambar-ViT-Giant

1 Titik akhir sumber daya Azure OpenAI Anda harus memiliki subdomain kustom, seperti https://my-unique-name.openai.azure.com. Jika Anda membuat sumber daya di portal Microsoft Azure, subdomain ini dibuat secara otomatis selama penyiapan sumber daya.

2 sumber daya Azure OpenAI (dengan akses ke model penyematan) yang dibuat di portal Azure AI Foundry tidak didukung. Hanya sumber daya Azure OpenAI yang dibuat di portal Microsoft Azure yang kompatibel dengan keterampilan Penyematan Azure OpenAI.

3 Untuk tujuan penagihan, Anda harus menghubungkan sumber daya multi-layanan Azure AI Anda ke perangkat keterampilan di layanan Azure AI Search Anda. Kecuali Anda memakai koneksi tanpa kunci (pratinjau) untuk menciptakan set keahlian, kedua sumber daya harus berada di wilayah yang sama.

4 Model penyematan multimodal Azure AI Vision tersedia di wilayah tertentu.

Persyaratan titik akhir publik

Untuk tujuan mulai cepat ini, semua sumber daya sebelumnya harus mengaktifkan akses publik sehingga simpul portal Azure dapat mengaksesnya. Jika tidak, wizard gagal. Setelah wizard berjalan, Anda dapat mengaktifkan firewall dan titik akhir privat pada komponen integrasi untuk keamanan. Untuk informasi selengkapnya, lihat Mengamankan koneksi di wizard impor.

Jika titik akhir privat sudah ada dan Anda tidak dapat menonaktifkannya, opsi alternatifnya adalah menjalankan alur end-to-end yang sesuai dari skrip atau program di mesin virtual. Komputer virtual harus berada di jaringan virtual yang sama dengan titik akhir privat. Berikut adalah sampel kode Python untuk vektorisasi terintegrasi. Repositori GitHub yang sama memiliki sampel dalam bahasa pemrograman lainnya.

Akses berbasis peran

Anda dapat menggunakan ID Microsoft Entra dengan penetapan peran atau autentikasi berbasis kunci dengan string koneksi akses penuh. Untuk koneksi Azure AI Search ke sumber daya lain, kami merekomendasikan penetapan peran. Mulai cepat ini mengasumsikan peran.

Layanan pencarian gratis mendukung koneksi berbasis peran ke Azure AI Search. Namun, mereka tidak mendukung identitas terkelola pada koneksi keluar ke Azure Storage atau Azure AI Vision. Kurangnya dukungan ini memerlukan autentikasi berbasis kunci pada koneksi antara layanan pencarian gratis dan sumber daya Azure lainnya. Untuk koneksi yang lebih aman, gunakan tingkat Dasar atau yang lebih tinggi, lalu aktifkan peran dan konfigurasikan identitas terkelola.

Untuk mengonfigurasi akses berbasis peran yang direkomendasikan:

  1. Pada layanan pencarian Anda, aktifkan peran dan konfigurasikan identitas terkelola yang ditetapkan sistem.

  2. Tetapkan peran berikut untuk diri Anda sendiri:

    • Kontributor Layanan Pencarian

    • Kontributor Data Indeks Pencarian

    • Pembaca Data Indeks Pencarian

  3. Pada platform sumber data dan penyedia model penyematan Anda, buat penetapan peran yang memungkinkan layanan pencarian Anda mengakses data dan model. Lihat Menyiapkan data sampel dan Menyiapkan model penyematan.

Catatan

Jika Anda tidak dapat maju melalui wizard karena opsi tidak tersedia (misalnya, Anda tidak dapat memilih sumber data atau model penyematan), periksa kembali penetapan peran. Pesan kesalahan menunjukkan bahwa model atau penyebaran tidak ada, ketika penyebab sebenarnya adalah bahwa layanan pencarian tidak memiliki izin untuk mengaksesnya.

Periksa ketersediaan ruang

Jika Anda memulai dengan layanan gratis, Anda dibatasi hingga tiga indeks, sumber data, set keterampilan, dan pengindeks. Paket Dasar membatasi Anda hingga 15. Mulai cepat ini membuat salah satu dari setiap objek, jadi pastikan Anda memiliki ruang untuk item tambahan sebelum memulai.

Menyiapkan data sampel

Bagian ini mengarahkan Anda ke konten yang berfungsi untuk panduan mulai cepat ini. Sebelum melanjutkan, pastikan Anda menyelesaikan prasyarat untuk akses berbasis peran.

  1. Masuk ke portal Microsoft Azure dan pilih akun Azure Storage Anda.

  2. Dari panel kiri, pilih penyimpanan data>Kontainer.

  3. Buat kontainer, lalu unggah dokumen PDF paket kesehatan yang digunakan untuk mulai cepat ini.

  4. Untuk menetapkan peran:

    1. Dari panel kiri, pilih Access Control (IAM).

    2. Pilih Tambah>Tambahkan penugasan peran.

    3. Di bawah Peran fungsi pekerjaan, pilih Pembaca Data Blob Penyimpanan, lalu pilih Berikutnya.

    4. Di bawah Anggota, pilih Identitas terkelola, lalu pilih Pilih anggota.

    5. Pilih langganan Anda dan identitas terkelola layanan pencarian Anda.

  5. (Opsional) Sinkronkan penghapusan dalam kontainer Anda dengan penghapusan dalam indeks pencarian. Untuk mengonfigurasi pengindeks Anda untuk deteksi penghapusan:

    1. Aktifkan penghapusan sementara di akun penyimpanan Anda. Jika Anda menggunakan penghapusan sementara asli, langkah berikutnya tidak diperlukan.

    2. Tambahkan metadata kustom yang dapat dipindai pengindeks untuk menentukan blob mana yang ditandai untuk dihapus. Beri nama deskriptif properti kustom Anda. Misalnya, Anda dapat memberi nama properti "IsDeleted" dan mengaturnya ke false. Ulangi langkah ini untuk setiap blob dalam kontainer. Saat Anda ingin menghapus blob, ubah properti menjadi true. Untuk informasi selengkapnya, lihat Mengubah dan menghapus deteksi saat mengindeks dari Azure Storage.

Menyiapkan model pembenaman

Wizard dapat menggunakan model penyematan yang disebarkan dari Azure OpenAI, Azure AI Vision, atau dari katalog model di portal Azure AI Foundry. Sebelum melanjutkan, pastikan Anda menyelesaikan prasyarat untuk akses berbasis peran.

Wizard mendukung text-embedding-ada-002, text-embedding-3-large, dan text-embedding-3-small. Secara internal, wizard memanggil AzureOpenAIEmbedding skill untuk terhubung ke Azure OpenAI.

  1. Masuk ke portal Microsoft Azure dan pilih sumber daya Azure OpenAI Anda.

  2. Untuk menetapkan peran:

    1. Dari panel kiri, pilih Kontrol akses (IAM).

    2. Pilih Tambah>Tambahkan penugasan peran.

    3. Di bawah Peran fungsi pekerjaan, pilih Pengguna OpenAI Cognitive Services, lalu pilih Berikutnya.

    4. Di bawah Anggota, pilih Identitas terkelola, lalu pilih Pilih anggota.

    5. Pilih langganan Anda dan identitas terkelola layanan pencarian Anda.

  3. Untuk menerapkan model embedding:

    1. Masuk ke portal Azure AI Foundry dan pilih sumber daya Azure OpenAI Anda.

    2. Dari panel kiri, pilih Katalog model.

    3. Gunakan model penyematan yang didukung.

Memulai wizard

Untuk memulai wizard untuk pencarian vektor:

  1. Masuk ke portal Microsoft Azure dan pilih layanan Pencarian Azure AI Anda.

  2. Pada halaman Gambaran Umum, pilih Impor dan vektorisasi data.

    Cuplikan layar perintah untuk membuka wizard untuk mengimpor dan mem-vektorisasi data.

  3. Pilih sumber data Anda: Azure Blob Storage, ADLS Gen2, atau OneLake.

  4. Pilih RAG.

    Cuplikan layar petak RAG di dalam wizard.

Hubungkan ke data Anda

Langkah selanjutnya adalah menyambungkan ke sumber data yang akan digunakan untuk indeks pencarian.

  1. Pada halaman Sambungkan ke data Anda , tentukan langganan Azure.

  2. Pilih akun penyimpanan dan kontainer yang menyediakan data sampel.

  3. Jika Anda mengaktifkan penghapusan sementara dan menambahkan metadata kustom secara opsional di Menyiapkan data sampel, pilih kotak centang Aktifkan pelacakan penghapusan .

    • Pada eksekusi pengindeksan berikutnya, indeks pencarian diperbarui untuk menghapus dokumen pencarian apa pun berdasarkan blob yang dihapus sementara di Azure Storage.

    • Blob mendukung penghapusan sementara blob asli atau Penghapusan sementara menggunakan metadata kustom.

    • Jika Anda mengonfigurasi blob untuk penghapusan sementara, berikan pasangan nama-nilai properti metadata. Kami merekomendasikan IsDeleted. Jika IsDeleted diatur ke true pada blob, pengindeks menghilangkan dokumen pencarian yang sesuai pada pengindeks berikutnya yang dijalankan.

    Wizard tidak memeriksa Azure Storage untuk pengaturan yang valid atau melemparkan kesalahan jika persyaratan tidak terpenuhi. Sayangnya, pendeteksian penghapusan tidak berfungsi, dan indeks pencarian Anda kemungkinan akan mengumpulkan dokumen yatim piatu seiring waktu.

    Cuplikan layar halaman sumber data dengan opsi deteksi penghapusan.

  4. Pilih kotak centang Autentikasi menggunakan identitas terkelola .

    • Untuk jenis identitas terkelola, pilih Ditetapkan sistem.

    • Identitas harus memiliki peran Pembaca Data Blob Penyimpanan di Azure Storage.

    • Jangan lewati langkah ini. Kesalahan koneksi terjadi selama pengindeksan jika wizard tidak dapat tersambung ke Azure Storage.

  5. Pilih Selanjutnya.

Vektorisasi teks Anda

Dalam langkah ini, Anda menentukan model penyematan untuk mem-vektorisasi data yang dipotong. Penggugusan terintegrasi dan tidak dapat dikonfigurasi. Pengaturan yang efektif adalah:

"textSplitMode": "pages",
"maximumPageLength": 2000,
"pageOverlapLength": 500,
"maximumPagesToTake": 0, #unlimited
"unit": "characters"
  1. Pada halaman Vektorisasi teks Anda , pilih sumber model penyematan Anda:

  2. Tentukan langganan Azure.

  3. Bergantung pada sumber daya Anda, buat pilihan berikut:

  4. Untuk jenis autentikasi, pilih Identitas yang ditetapkan sistem.

    • Identitas harus memiliki peran Pengguna Cognitive Services pada sumber daya multi-layanan layanan Azure AI.
  5. Pilih kotak centang yang mengakui efek penagihan menggunakan sumber daya ini.

    Cuplikan layar halaman Vektorisasi teks Anda di wizard.

  6. Pilih Selanjutnya.

Vektorisasi dan perkaya gambar Anda

PDF rencana kesehatan mencakup logo perusahaan, tetapi sebaliknya, tidak ada gambar. Anda dapat melewati langkah ini jika Anda menggunakan dokumen sampel.

Namun, jika Anda bekerja dengan konten yang menyertakan gambar yang berguna, Anda dapat menerapkan AI dengan dua cara:

  • Gunakan model penyematan gambar yang didukung dari katalog atau API penyematan multimodal Azure AI Vision untuk mem-vektorisasi gambar.

  • Gunakan pengenalan karakter optik (OCR) untuk mengenali teks dalam gambar. Opsi ini memanggil keterampilan OCR untuk membaca teks dari gambar.

Azure AI Search dan sumber daya Azure AI Anda harus berada di wilayah yang sama atau dikonfigurasi untuk koneksi penagihan tanpa kunci.

  1. Pada halaman Vektorisasi gambar Anda, tentukan jenis koneksi yang harus dibuat wizard. Untuk vektorisasi gambar, wizard dapat menghubungkan ke model penyematan di Azure AI Foundry Portal atau Azure AI Vision.

  2. Tentukan langganan.

  3. Untuk katalog model Azure AI Foundry, tentukan proyek dan penyebaran. Untuk informasi selengkapnya, lihat Menyiapkan model penyematan.

  4. (Opsional) Retak gambar biner, seperti file dokumen yang dipindai, dan gunakan OCR untuk mengenali teks.

  5. Pilih kotak centang yang mengakui efek penagihan menggunakan sumber daya ini.

    Cuplikan layar halaman Vektorisasi gambar Anda di wizard.

  6. Pilih Selanjutnya.

Menambahkan peringkat semantik

Pada halaman Pengaturan tingkat lanjut, Anda dapat secara opsional menambahkan peringkat semantik untuk mererank hasil di akhir eksekusi kueri. Reranking mempromosikan kecocokan yang paling relevan secara semantik ke bagian atas.

Memetakan bidang baru

Poin-poin penting tentang langkah ini:

  • Skema indeks menyediakan bidang vektor dan nonvektor untuk data yang dipotong.

  • Anda dapat menambahkan bidang, tetapi Anda tidak dapat menghapus atau mengubah bidang yang dihasilkan.

  • Mode penguraian dokumen membuat gugus (satu dokumen pencarian per gugus).

Pada halaman Pengaturan tingkat lanjut , Anda dapat secara opsional menambahkan bidang baru, dengan asumsi sumber data menyediakan metadata atau bidang yang tidak diambil pada pass pertama. Secara default, wizard menghasilkan bidang yang dijelaskan dalam tabel berikut ini.

Bidang Berlaku untuk Deskripsi
chunk_id Vektor teks dan gambar Bidang string yang dihasilkan. Dapat dicari, dapat diambil, dan dapat diurutkan. Ini adalah kunci dokumen untuk indeks.
parent_id Vektor teks Bidang string yang dihasilkan. Dapat diambil dan difilter. Mengidentifikasi dokumen induk tempat potongan berasal.
potongan Vektor teks dan gambar Bidang string. Versi potongan data yang dapat dibaca manusia. Dapat dicari dan diambil, tetapi tidak dapat difilter, difasetkan, atau diurutkan.
judul Vektor teks dan gambar Bidang string. Judul dokumen yang dapat dibaca manusia atau judul halaman atau nomor halaman. Dapat dicari dan diambil, tetapi tidak dapat difilter, difasetkan, atau diurutkan.
vektor_teks Vektor teks Koleksi(Edm.single). Representasi vektor dari gugus. Dapat dicari dan diambil, tetapi tidak dapat difilter, difasetkan, atau diurutkan.

Anda tidak dapat mengubah bidang yang dihasilkan atau atributnya, tetapi Anda dapat menambahkan bidang baru jika sumber data Anda menyediakannya. Misalnya, Azure Blob Storage menyediakan kumpulan bidang metadata.

  1. Pilih Tambahkan bidang.

  2. Pilih bidang sumber dari bidang yang tersedia, masukkan nama bidang untuk indeks, dan terima (atau ambil alih) tipe data default.

    Catatan

    Bidang metadata dapat dicari tetapi tidak dapat diambil, difilter, difaset, atau diurutkan.

  3. Jika Anda ingin memulihkan skema ke versi aslinya, pilih Reset.

Menjadwalkan pengindeksan

Pada halaman Pengaturan tingkat lanjut , Anda juga dapat menentukan jadwal eksekusi opsional untuk pengindeks. Setelah Anda memilih interval dari daftar dropdown, pilih Berikutnya.

Menyelesaikan wizard

  1. Pada halaman Tinjau konfigurasi Anda, tentukan awalan untuk objek yang dibuat oleh wizard. Awalan umum membantu Anda tetap terorganisir.

  2. Pilih Buat.

Saat wizard menyelesaikan konfigurasi, wizard akan membuat objek berikut:

  • Koneksi sumber data.

  • Indeks dengan bidang vektor, vektorizer, profil vektor, dan algoritma vektor. Anda tidak dapat merancang atau mengubah indeks default selama alur kerja wizard. Indeks sesuai dengan REST API 2024-05-01-preview.

  • Kumpulan keterampilan yang mencakup keterampilan Pemisahan Teks untuk pengelompokan dan kemampuan embedding untuk vektorisasi. Keterampilan penyematan adalah kemampuan AzureOpenAIEmbeddingModel untuk Azure OpenAI atau kemampuan AML untuk katalog model Azure AI Foundry. Rangkaian keterampilan juga memiliki konfigurasi proyeksi indeks, yang memetakan data dari satu dokumen di sumber data ke potongan yang sesuai dalam indeks "anak".

  • Pengindeks dengan pemetaan bidang dan pemetaan bidang output (jika berlaku).

Petunjuk / Saran

Objek yang dibuat wizard memiliki definisi JSON yang dapat dikonfigurasi. Untuk melihat atau mengubah definisi ini, pilih Manajemen pencarian dari panel kiri, tempat Anda bisa menampilkan indeks, pengindeks, sumber data, dan set keterampilan Anda.

Memeriksa hasil

Search Explorer menerima string teks sebagai input lalu mem-vektorisasi teks untuk eksekusi kueri vektor.

  1. Di portal Microsoft Azure, bukaIndeks> Pencarian, lalu pilih indeks Anda.

  2. Pilih Opsi kueri, lalu pilih Sembunyikan nilai vektor di hasil pencarian. Langkah ini membuat hasilnya lebih mudah dibaca.

    Cuplikan layar tombol untuk opsi kueri.

  3. Dari menu Tampilan , pilih tampilan JSON sehingga Anda bisa memasukkan teks untuk kueri vektor Anda di text parameter kueri vektor.

    Cuplikan layar perintah menu untuk membuka tampilan JSON.

    Kueri default adalah pencarian kosong ("*") tetapi menyertakan parameter untuk mengembalikan kecocokan angka. Ini adalah kueri hibrid yang menjalankan kueri teks dan vektor secara paralel. Ini juga termasuk peringkat semantik dan menentukan bidang mana yang akan dikembalikan dalam hasil melalui select pernyataan .

     {
       "search": "*",
       "count": true,
       "vectorQueries": [
         {
           "kind": "text",
           "text": "*",
           "fields": "text_vector,image_vector"
         }
       ],
       "queryType": "semantic",
       "semanticConfiguration": "my-demo-semantic-configuration",
       "captions": "extractive",
       "answers": "extractive|count-3",
       "queryLanguage": "en-us",
       "select": "chunk_id,text_parent_id,chunk,title,image_parent_id"
     }
    
  4. Ganti kedua tempat penampung tanda bintang (*) dengan pertanyaan yang terkait dengan rencana kesehatan, seperti Which plan has the lowest deductible?.

     {
       "search": "Which plan has the lowest deductible?",
       "count": true,
       "vectorQueries": [
         {
           "kind": "text",
           "text": "Which plan has the lowest deductible?",
           "fields": "text_vector,image_vector"
         }
       ],
       "queryType": "semantic",
       "semanticConfiguration": "my-demo-semantic-configuration",
       "captions": "extractive",
       "answers": "extractive|count-3",
       "queryLanguage": "en-us",
       "select": "chunk_id,text_parent_id,chunk,title"
     }
    
  5. Untuk menjalankan kueri, pilih Cari.

    Cuplikan layar hasil pencarian.

    Setiap dokumen adalah potongan PDF asli. Bidang title menunjukkan dari PDF mana potongan berasal. Masing-masing chunk itu panjang. Anda dapat menyalin dan menempelkannya ke editor teks untuk membaca seluruh nilai.

  6. Untuk melihat semua bagian dari dokumen tertentu, tambahkan penyaringan untuk bidang title_parent_id pada PDF tertentu. Anda dapat memeriksa tab Bidang indeks Anda untuk mengonfirmasi bidang dapat difilter.

    {
       "select": "chunk_id,text_parent_id,chunk,title",
       "filter": "text_parent_id eq 'aHR0cHM6Ly9oZWlkaXN0c3RvcmFnZWRlbW9lYXN0dXMuYmxvYi5jb3JlLndpbmRvd3MubmV0L2hlYWx0aC1wbGFuLXBkZnMvTm9ydGh3aW5kX1N0YW5kYXJkX0JlbmVmaXRzX0RldGFpbHMucGRm0'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "text_vector"
           }
        ]
    }
    

Penghapusan

Azure AI Search adalah sumber daya yang dapat ditagih. Jika Anda tidak lagi membutuhkannya, hapus dari langganan Anda untuk menghindari biaya.

Langkah selanjutnya

Panduan memulai cepat ini memperkenalkan Anda pada wizard Impor dan vektorisasi data, yang menciptakan semua objek yang diperlukan untuk vektorisasi terintegrasi. Untuk menjelajahi setiap langkah secara rinci, lihat Menyiapkan vektorisasi terintegrasi di Azure AI Search.