Bagikan melalui


Impor wizard di Azure AI Search

Azure AI Search memiliki dua wizard impor yang mengotomatiskan definisi pengindeksan dan objek sehingga Anda dapat segera mulai mengkueri. Jika Anda baru menggunakan Azure AI Search, wizard ini adalah salah satu fitur paling canggih yang dapat Anda gunakan. Dengan upaya minimal, Anda dapat membuat alur pengindeksan atau pengayaan yang menjalankan sebagian besar fungsionalitas Azure AI Search.

Wizard Impor data mendukung alur kerja nonvektor. Anda dapat mengekstrak teks alfanumerik dari dokumen mentah. Anda juga dapat mengonfigurasi AI yang diterapkan dan keterampilan bawaan yang menyimpulkan struktur dan menghasilkan konten yang dapat dicari teks dari file gambar dan data yang tidak terstruktur.

Wizard Impor dan vektorisasi data mendukung vektorisasi. Anda harus menentukan penyebaran model penyematan yang sudah ada, tetapi wizard membuat koneksi, merumuskan permintaan, dan menangani respons. Ini menghasilkan konten vektor dari konten teks atau gambar.

Jika Anda menggunakan wizard untuk pengujian bukti konsep, artikel ini menjelaskan cara kerja internal wizard sehingga Anda bisa menggunakannya secara lebih efektif.

Artikel ini bukan langkah demi langkah. Untuk bantuan menggunakan wizard dengan data sampel bawaan, lihat:

Memulai wizard

Di portal Azure, buka halaman layanan pencarian dari dasbor atau temukan layanan Anda di daftar layanan.

Di halaman Gambaran Umum layanan di bagian atas, pilih Impor data atau Impor dan vektorisasi data.

Cuplikan layar opsi wizard impor pada bilah tindakan.

Wizard terbuka sepenuhnya diperluas di jendela browser sehingga Anda memiliki lebih banyak ruang untuk bekerja.

Anda juga dapat meluncurkan Impor data dari layanan Azure lainnya, termasuk Azure Cosmos DB, Azure SQL Database, SQL Managed Instance, dan Azure Blob Storage. Cari Tambahkan Pencarian Azure AI di panel navigasi kiri pada halaman gambaran umum layanan.

Objek yang dibuat oleh wizard

Wizard mengeluarkan objek dalam tabel berikut. Setelah objek dibuat, Anda dapat meninjau definisi JSON di portal atau memanggilnya dari kode.

Objek Deskripsi
Pengindeks Objek konfigurasi yang menentukan sumber data, indeks target, skillset opsional, jadwal opsional, dan pengaturan konfigurasi opsional untuk menangani kesalahan dan pengkodean dasar-64.
Sumber data Mempertahankan informasi koneksi ke sumber data yang didukung di Azure. Objek sumber data digunakan secara eksklusif dengan pengindeks.
Index Struktur data fisik yang digunakan untuk pencarian teks lengkap dan kueri lainnya.
Skillset Opsional. Serangkaian instruksi lengkap untuk memanipulasi, mengubah, dan membentuk konten, termasuk menganalisis dan mengekstrak informasi dari file gambar. Skillset juga digunakan untuk vektorisasi terintegrasi. Kecuali volume pekerjaan berada di bawah batas 20 transaksi per pengindeks per hari, set keterampilan harus menyertakan referensi ke sumber daya multiservice Azure AI yang menyediakan pengayaan. Untuk vektorisasi terintegrasi, Anda dapat menggunakan Azure AI Vision atau model penyematan di katalog model Azure AI Studio.
Penyimpanan pengetahuan Opsional. Menyimpan output dari dalam tabel dan blob di Azure Storage untuk analisis independen atau pemrosesan hilir dalam skenario nonsearch.

Keuntungan

Sebelum menulis kode apa pun, Anda dapat menggunakan wizard untuk membuat prototipe dan pengujian bukti konsep. Wizard tersambung ke sumber data eksternal, mengambil sampel data untuk membuat indeks awal, lalu mengimpor dan secara opsional mem-vektorisasi data sebagai dokumen JSON ke dalam indeks di Azure AI Search.

Jika Anda mengevaluasi set keterampilan, wizard menangani pemetaan bidang output dan menambahkan fungsi pembantu untuk membuat objek yang dapat digunakan. Pemisahan teks ditambahkan jika Anda menentukan mode penguraian. Gabungan teks ditambahkan jika Anda memilih analisis gambar sehingga wizard dapat menyatukan kembali deskripsi teks dengan konten gambar. Keterampilan Shaper ditambahkan untuk mendukung proyeksi yang valid jika Anda memilih opsi penyimpanan pengetahuan. Semua tugas di atas disertai dengan kurva belajar. Jika Anda baru dalam pengayaan, kemampuan untuk menangani langkah-langkah ini untuk Anda memungkinkan Anda mengukur nilai keterampilan tanpa harus menginvestasikan banyak waktu dan upaya.

Pengambilan sampel adalah proses ketika skema indeks disimpulkan, dan memiliki beberapa keterbatasan. Saat sumber data dibuat, wizard memilih sampel dokumen acak untuk memutuskan kolom apa yang merupakan bagian dari sumber data. Tidak semua file dibaca, karena ini berpotensi memakan waktu berjam-jam untuk sumber data yang sangat besar. Mengingat pilihan dokumen, metadata sumber, seperti nama bidang atau tipe, digunakan untuk membuat kumpulan bidang dalam skema indeks. Bergantung pada kompleksitas data sumber, Anda mungkin perlu mengedit skema awal untuk akurasi, atau memperluasnya untuk kelengkapan. Anda dapat membuat perubahan sebaris pada halaman definisi indeks.

Secara keseluruhan, keuntungan menggunakan wizard jelas: selama persyaratan terpenuhi, Anda dapat membuat indeks yang dapat dikueri dalam hitungan menit. Beberapa kompleksitas pengindeksan, seperti membuat serial data sebagai dokumen JSON, ditangani oleh wizard.

Batasan

Panduan ini bukan tanpa batasan. Batasan dirangkum sebagai berikut:

  • Wizard tidak mendukung perulangan atau penggunaan kembali. Setiap pass melalui wizard membuat indeks baru, skillset, dan konfigurasi pengindeks. Hanya sumber data yang dapat dipertahankan dan digunakan kembali dalam panduan. Untuk mengedit atau memperbaiki objek lain, menghapus objek dan memulai dari awal, atau menggunakan REST API atau .NET SDK untuk memodifikasi struktur.

  • Konten sumber harus berada di sumber data yang didukung.

  • Pengambilan sampel melalui sekumpulan data sumber. Untuk sumber data yang besar, dimungkinkan bagi wizard untuk melewatkan bidang. Anda mungkin perlu memperluas skema, atau memperbaiki tipe data yang disimpulkan, jika pengambilan sampel tidak mencukupi.

  • Pengayaan AI, seperti yang diekspos di portal, terbatas pada subset keterampilan bawaan.

  • Penyimpanan pengetahuan, yang dapat dibuat oleh wizard, terbatas pada beberapa proyeksi default dan menggunakan konvensi penamaan default. Jika Anda ingin menyesuaikan nama atau proyeksi, Anda harus membuat penyimpanan pengetahuan melalui REST API atau SDK.

Sambungan yang aman

Wizard impor membuat koneksi keluar menggunakan pengontrol portal dan titik akhir publik. Anda tidak dapat menggunakan wizard jika sumber daya Azure diakses melalui koneksi privat atau melalui tautan privat bersama.

Anda bisa menggunakan panduan melalui koneksi publik terbatas, tetapi tidak semua fungsionalitas tersedia.

  • Pada layanan pencarian, mengimpor data sampel bawaan memerlukan titik akhir publik dan tidak ada aturan firewall.

    Data sampel dihosting oleh Microsoft pada sumber daya Azure tertentu. Pengontrol portal tersambung ke sumber daya tersebut melalui titik akhir publik. Jika Anda menempatkan layanan pencarian Anda di belakang firewall, Anda mendapatkan kesalahan ini saat mencoba mengambil data sampel bawaan: Import configuration failed, error creating Data Source, diikuti oleh "An error has occured.".

  • Pada sumber data Azure yang didukung yang dilindungi oleh firewall, Anda dapat mengambil data jika Anda memiliki aturan firewall yang tepat.

    Sumber daya Azure harus mengakui permintaan jaringan dari alamat IP perangkat yang digunakan pada koneksi. Anda juga harus mencantumkan Azure AI Search sebagai layanan tepercaya pada konfigurasi jaringan sumber daya. Misalnya, di Azure Storage, Anda dapat mencantumkan Microsoft.Search/searchServices sebagai layanan tepercaya.

  • Pada koneksi ke akun multiservice Azure AI yang Anda sediakan, atau pada koneksi ke model penyematan yang disebarkan di Azure AI Studio atau Azure OpenAI, akses internet publik harus diaktifkan. Sumber daya Azure ini dipanggil saat Anda menggunakan keterampilan bawaan dalam wizard Impor data atau vektorisasi terintegrasi dalam wizard Impor dan vektorisasi data .

    • Dalam wizard Impor dan vektorisasi data, kesalahannya adalah"Access denied due to Virtual Network/Firewall rules."

    • Dalam wizard Impor data, tidak ada kesalahan, tetapi set keterampilan tidak akan dibuat.

Jika pengaturan firewall mencegah alur kerja wizard Anda berhasil, pertimbangkan pendekatan skrip atau terprogram sebagai gantinya.

Alur kerja

Wizard diatur menjadi empat langkah utama:

  1. Sambungkan ke sumber data Azure yang didukung.

  2. Buat skema indeks, disimpulkan oleh data sumber pengambilan sampel.

  3. Secara opsional, tambahkan AI yang diterapkan untuk mengekstrak atau menghasilkan konten dan struktur. Input untuk membuat penyimpanan pengetahuan dikumpulkan dalam langkah ini.

  4. Jalankan wizard untuk membuat objek, secara opsional mem-vektorisasi data, memuat data ke dalam indeks, mengatur jadwal, dan opsi konfigurasi lainnya.

Alur kerja adalah alur, jadi salah satu caranya. Anda tidak dapat menggunakan wizard untuk mengedit objek apa pun yang dibuat, tetapi Anda bisa menggunakan alat portal lain, seperti indeks atau perancang pengindeks atau editor JSON, untuk pembaruan yang diizinkan.

Konfigurasi sumber data di wizard

Wizard tersambung ke sumber data eksternal yang didukung menggunakan logika internal yang disediakan oleh pengindeks Azure AI Search, yang dilengkapi untuk mengambil sampel sumber, membaca metadata, memecahkan dokumen untuk membaca konten dan struktur, dan menserialisasikan konten sebagai JSON untuk impor berikutnya ke Azure AI Search.

Anda bisa menempelkan koneksi ke sumber data yang didukung di langganan atau wilayah lain, tetapi Pemilih Pilih koneksi yang ada dilingkup ke langganan aktif.

Cuplikan layar tab Sambungkan ke data Anda.

Tidak semua sumber data pratinjau dijamin tersedia di wizard. Karena setiap sumber data memiliki potensi untuk memperkenalkan perubahan lain di hilir, sumber data pratinjau hanya akan ditambahkan ke daftar sumber data jika mendukung sepenuhnya semua pengalaman di wizard, seperti definisi skillset dan inferensi skema indeks.

Anda hanya bisa mengimpor dari satu tabel, tampilan database, atau struktur data yang setara, namun strukturnya bisa menyertakan substruktur hierarkis atau bertumpuk. Untuk informasi selengkapnya, lihat Cara memodelkan jenis kompleks.

Konfigurasi skillset di wizard

Konfigurasi skillset terjadi setelah definisi sumber data karena jenis sumber data menginformasikan ketersediaan keterampilan bawaan tertentu. Secara khusus, jika Anda mengindeks file dari penyimpanan Blob, pilihan mode penguraian file tersebut menentukan apakah analisis sentimen tersedia.

Wizard menambahkan keterampilan yang Anda pilih. Ini juga menambahkan keterampilan lain yang diperlukan untuk mencapai hasil yang sukses. Misalnya, jika Anda menentukan penyimpanan pengetahuan, wizard menambahkan keterampilan Shaper untuk mendukung proyeksi (atau struktur data fisik).

Skillset bersifat opsional dan ada tombol di bagian bawah halaman untuk melompat ke depan jika Anda tidak ingin pengayaan AI.

Konfigurasi skema indeks di wizard

Panduan ini mengambil sampel sumber data Anda untuk mendeteksi bidang dan jenis bidang. Bergantung pada sumber data, wizard mungkin juga menawarkan bidang untuk mengindeks metadata.

Karena pengambilan sampel adalah penggunaan yang tidak tepat, tinjau indeks untuk pertimbangan berikut:

  1. Apakah daftar bidang akurat? Jika sumber data Anda berisi bidang yang tidak diambil dalam pengambilan sampel, Anda dapat menambahkan bidang baru yang terlewatkan secara manual, dan menghapus bidang yang tidak menambah nilai ke pengalaman pencarian atau yang tidak akan digunakan dalam ekspresi filter atau profil penilaian.

  2. Apakah tipe data sesuai untuk data masuk? Azure AI Search mendukung jenis data model data entitas (EDM). Untuk data Azure SQL, ada bagan pemetaan yang menjabarkan nilai yang setara. Untuk latar belakang lainnya, lihat Pemetaan dan transformasi bidang.

  3. Apakah Anda memiliki satu bidang yang dapat berfungsi sebagai kunci? Bidang ini harus Edm.string dan harus mengidentifikasi dokumen secara unik. Untuk data relasional, data mungkin dipetakan ke kunci primer. Untuk blob, mungkin itu adalah metadata-storage-path. Jika nilai bidang menyertakan spasi atau tanda hubung, Anda harus mengatur opsi Kunci Encoding base-64 pada langkah Buat Pengindeks, di bawah Pilihan tingkat lanjut, untuk menekan pemeriksaan validasi untuk karakter ini.

  4. Atur atribut untuk menentukan bagaimana bidang tersebut digunakan dalam indeks.

    Luangkan waktu Anda dengan langkah ini karena atribut menentukan ekspresi fisik bidang dalam indeks. Jika Anda ingin mengubah atribut nanti, bahkan secara terprogram, Anda hampir selalu perlu menghilangkan dan membangun kembali indeks. Atribut inti seperti Dapat dicari dan Retrievable memiliki dampak yang dapat diabaikan pada penyimpanan. Mengaktifkan filter dan menggunakan saran meningkatkan persyaratan penyimpanan.

    • Dapat dicari memungkinkan pencarian teks-penuh. Setiap bidang yang digunakan dalam kueri formulir gratis atau dalam ekspresi kueri harus memiliki atribut ini. Indeks terbalik dibuat untuk setiap bidang yang Anda tandai sebagai Dapat Dicari.

    • Diambil mengembalikan bidang dalam hasil pencarian. Setiap bidang yang menyediakan konten untuk hasil pencarian harus memiliki atribut ini. Mengatur bidang ini tidak mempengaruhi ukuran indeks secara apresiasi.

    • Dapat difilter memungkinkan bidang direferensikan dalam ekspresi filter. Setiap bidang yang digunakan dalam ekspresi $filter harus memiliki atribut ini. Ekspresi filter adalah untuk pasangan yang baku. Karena untai (karakter) teks tetap utuh, diperlukan lebih banyak penyimpanan untuk mengakomodasi konten verbatim.

    • Dapat difaset memungkinkan bidang untuk navigasi bertatap muka. Hanya bidang yang juga ditandai sebagai Dapat Difilter yang dapat ditandai sebagai Facetable.

    • Dapat diurutkan memungkinkan bidang digunakan dalam urutan. Setiap bidang yang digunakan dalam ekspresi $Orderby harus memiliki atribut ini.

  5. Apakah Anda memerlukan analisis leksikal? Untuk bidang Edm.string yang Dapat Dicari, Anda bisa mengatur Penganalisis jika Anda ingin pengindeksan dan kueri yang disempurnakan bahasa.

    Defaultnya adalah Standard Lucene tetapi Anda dapat memilih Microsoft English jika Anda ingin menggunakan penganalisis Microsoft untuk pemrosesan leksikal tingkat lanjut, seperti menyelesaikan bentuk kata benda dan kata kerja yang tidak teratur. Hanya penganalisis bahasa yang dapat ditentukan di portal. Jika Anda menggunakan penganalisis kustom atau penganalisis non-bahasa seperti Kata Kunci, Pola, dan sebagainya, Anda harus membuatnya secara terprogram. Untuk informasi selengkapnya tentang penganalisis, lihat Menambahkan penganalisis bahasa.

  6. Apakah Anda memerlukan fungsionalitas typeahead dalam bentuk lengkapi otomatis atau hasil yang disarankan? Pilih kotak centang Penyaran untuk mengaktifkan saran kueri typeahead dan lengkapi otomatis pada bidang yang dipilih. Penyaran menambahkan jumlah istilah bertoken dalam indeks Anda, dan dengan demikian mengkonsumsi lebih banyak penyimpanan.

Konfigurasi pengindeks di wizard

Halaman terakhir dari wizard mengumpulkan input pengguna untuk konfigurasi pengindeks. Anda dapat menentukan jadwal dan mengatur opsi lain yang akan bervariasi menurut jenis sumber data.

Secara internal, wizard juga menyiapkan definisi berikut, yang tidak terlihat di pengindeks hingga setelah dibuat:

Langkah berikutnya

Cara terbaik untuk memahami manfaat dan batasan wizard adalah dengan melangkah melaluinya. Berikut adalah mulai cepat yang menjelaskan setiap langkah.