Wizard impor data di Azure AI Search

Wizard Impor data di portal Microsoft Azure membuat beberapa objek yang digunakan untuk pengindeksan dan pengayaan AI pada layanan pencarian. Jika Anda baru menggunakan Azure AI Search, ini adalah salah satu fitur paling canggih yang anda inginkan. Dengan upaya minimal, Anda dapat membuat alur pengindeksan atau pengayaan yang menjalankan sebagian besar fungsionalitas Azure AI Search.

Jika Anda menggunakan wizard untuk pengujian bukti konsep, artikel ini menjelaskan cara kerja internal dari wizard sehingga Anda dapat menggunakannya secara lebih efektif.

Artikel ini bukan langkah demi langkah. Untuk bantuan menggunakan wizard dengan data sampel bawaan, lihat Mulai Cepat: Membuat indeks pencarian atau Mulai Cepat: Membuat terjemahan teks dan set keterampilan entitas.

Memulai wizard

Di portal Azure, buka halaman layanan pencarian dari dasbor atau temukan layanan Anda di daftar layanan. Di halaman Gambaran Umum layanan di bagian atas, pilih Impor data.

Screenshot of the Import data command

Wizard terbuka sepenuhnya di jendela browser sehingga Anda memiliki lebih banyak ruang untuk bekerja.

Anda juga dapat meluncurkan Impor data dari layanan Azure lainnya, termasuk Azure Cosmos DB, Azure SQL Database, SQL Managed Instance, dan Azure Blob Storage. Cari Tambahkan Pencarian Azure AI di panel navigasi kiri pada halaman gambaran umum layanan.

Objek yang dibuat oleh wizard

Wizard akan menampilkan objek dalam tabel berikut. Setelah objek dibuat, Anda dapat meninjau definisi JSON di portal atau memanggilnya dari kode.

Objek Deskripsi
Pengindeks Objek konfigurasi yang menentukan sumber data, indeks target, skillset opsional, jadwal opsional, dan pengaturan konfigurasi opsional untuk menangani kesalahan dan pengkodean dasar-64.
Sumber data Mempertahankan informasi koneksi ke sumber data yang didukung di Azure. Objek sumber data digunakan secara eksklusif dengan pengindeks.
Index Struktur data fisik yang digunakan untuk pencarian teks lengkap dan kueri lainnya.
Skillset Opsional. Serangkaian instruksi lengkap untuk memanipulasi, mengubah, dan membentuk konten, termasuk menganalisis dan mengekstrak informasi dari file gambar. Kecuali volume pekerjaan berada di bawah batas 20 transaksi per pengindeks per hari, set keterampilan harus menyertakan referensi ke sumber daya multi-layanan Azure AI yang menyediakan pengayaan.
Penyimpanan pengetahuan Opsional. Menyimpan output dari alur pengayaan AI dalam tabel dan blob di Microsoft Azure Storage untuk analisis independen atau pemrosesan hilir.

Keuntungan dan batasan

Sebelum menulis kode apa pun, Anda dapat menggunakan wizard untuk membuat prototipe dan pengujian bukti konsep. Wizard tersambung ke sumber data eksternal, mengambil sampel data untuk membuat indeks awal, lalu mengimpor data sebagai dokumen JSON ke dalam indeks di Azure AI Search.

Jika Anda mengevaluasi set keterampilan, wizard akan menangani semua pemetaan bidang output dan menambahkan fungsi pembantu untuk membuat objek yang dapat digunakan. Pemisahan teks ditambahkan jika Anda menentukan mode penguraian. Gabungan teks ditambahkan jika Anda memilih analisis gambar sehingga wizard dapat menyatukan kembali deskripsi teks dengan konten gambar. Keterampilan Shaper ditambahkan untuk mendukung proyeksi yang valid jika Anda memilih opsi penyimpanan pengetahuan. Semua tugas di atas disertai dengan kurva belajar. Jika Anda baru dalam pengayaan, kemampuan untuk menangani langkah-langkah ini untuk Anda memungkinkan Anda mengukur nilai keterampilan tanpa harus menginvestasikan banyak waktu dan upaya.

Pengambilan sampel adalah proses ketika skema indeks disimpulkan, dan memiliki beberapa keterbatasan. Saat sumber data dibuat, wizard memilih sampel dokumen acak untuk memutuskan kolom apa yang merupakan bagian dari sumber data. Tidak semua file dibaca, karena ini berpotensi memakan waktu berjam-jam untuk sumber data yang sangat besar. Mengingat pilihan dokumen, metadata sumber, seperti nama bidang atau tipe, digunakan untuk membuat kumpulan bidang dalam skema indeks. Bergantung pada kompleksitas data sumber, Anda mungkin perlu mengedit skema awal untuk akurasi, atau memperluasnya untuk kelengkapan. Anda dapat membuat perubahan sebaris pada halaman definisi indeks.

Secara keseluruhan, keuntungan menggunakan wizard jelas: selama persyaratan terpenuhi, Anda dapat membuat prototipe indeks yang dapat dikueri dalam hitungan menit. Beberapa kompleksitas pengindeksan, seperti membuat serial data sebagai dokumen JSON, ditangani oleh wizard.

Panduan ini bukan tanpa batasan. Batasan dirangkum sebagai berikut:

  • Wizard tidak mendukung perulangan atau penggunaan kembali. Setiap pass melalui wizard membuat indeks baru, skillset, dan konfigurasi pengindeks. Hanya sumber data yang dapat dipertahankan dan digunakan kembali dalam panduan. Untuk mengedit atau memperbaiki objek lain, menghapus objek dan memulai dari awal, atau menggunakan REST API atau .NET SDK untuk memodifikasi struktur.

  • Konten sumber harus berada di sumber data yang didukung.

  • Pengambilan sampel melalui sekumpulan data sumber. Untuk sumber data yang besar, dimungkinkan bagi wizard untuk melewatkan bidang. Anda mungkin perlu memperluas skema, atau memperbaiki tipe data yang disimpulkan, jika pengambilan sampel tidak mencukupi.

  • Pengayaan AI, seperti yang diekspos di portal, terbatas pada subset keterampilan bawaan.

  • Penyimpanan pengetahuan, yang dapat dibuat oleh wizard, terbatas pada beberapa proyeksi default dan menggunakan konvensi penamaan default. Jika Anda ingin menyesuaikan nama atau proyeksi, Anda harus membuat penyimpanan pengetahuan melalui REST API atau SDK.

  • Akses publik ke semua jaringan harus diaktifkan pada sumber data yang didukung saat wizard digunakan, karena portal tidak akan dapat mengakses sumber data selama penyiapan jika akses publik dinonaktifkan. Ini berarti bahwa jika sumber data Anda mengaktifkan firewall atau Anda telah mengatur tautan privat bersama, Anda harus menonaktifkannya, jalankan wizard Impor Data lalu aktifkan setelah penyiapan wizard selesai. Jika ini bukan opsi, Anda dapat membuat sumber data, pengindeks, skillset, dan indeks Azure AI Search melalui REST API atau SDK.

Alur kerja

Wizard diatur menjadi empat langkah utama:

  1. Sambungkan ke sumber data Azure yang didukung.

  2. Buat skema indeks, disimpulkan oleh data sumber pengambilan sampel.

  3. Atau, tambahkan pengayaan AI untuk mengekstrak atau menghasilkan konten dan struktur. Input untuk membuat penyimpanan pengetahuan dikumpulkan dalam langkah ini.

  4. Jalankan wizard untuk membuat objek, memuat data, mengatur jadwal, dan opsi konfigurasi lainnya.

Alur kerja adalah alur, jadi salah satu caranya. Anda tidak dapat menggunakan wizard untuk mengedit objek apa pun yang dibuat, tetapi Anda bisa menggunakan alat portal lain, seperti indeks atau perancang pengindeks atau editor JSON, untuk pembaruan yang diizinkan.

Konfigurasi sumber data di wizard

Wizard Impor data tersambung ke sumber data eksternal yang didukung menggunakan logika internal yang disediakan oleh pengindeks Azure AI Search, yang dilengkapi untuk mengambil sampel sumber, membaca metadata, memecahkan dokumen untuk membaca konten dan struktur, dan menserialisasikan konten sebagai JSON untuk impor berikutnya ke Azure AI Search.

Anda bisa menempelkan koneksi ke sumber data yang didukung di langganan atau wilayah lain, tetapi Pemilih Pilih koneksi yang ada dilingkup ke langganan aktif.

Screenshot of the Connect to your data tab.

Tidak semua sumber data pratinjau dijamin tersedia di wizard. Karena setiap sumber data memiliki potensi untuk memperkenalkan perubahan lain di hilir, sumber data pratinjau hanya akan ditambahkan ke daftar sumber data jika mendukung sepenuhnya semua pengalaman di wizard, seperti definisi skillset dan inferensi skema indeks.

Anda hanya bisa mengimpor dari satu tabel, tampilan database, atau struktur data yang setara, namun strukturnya bisa menyertakan substruktur hierarkis atau bertumpuk. Untuk informasi selengkapnya, lihat Cara memodelkan jenis kompleks.

Konfigurasi skillset di wizard

Konfigurasi skillset terjadi setelah definisi sumber data karena jenis sumber data akan menginformasikan ketersediaan keterampilan bawaan tertentu. Secara khusus, jika Anda mengindeks file dari Blob Storage, pilihan mode penguraian file tersebut akan menentukan apakah analisis sentimen tersedia.

Wizard akan menambahkan keterampilan yang Anda pilih, tetapi juga akan menambahkan keterampilan lain yang diperlukan untuk mencapai hasil yang sukses. Misalnya, jika Anda menentukan penyimpanan pengetahuan, wizard menambahkan keterampilan Shaper untuk mendukung proyeksi (atau struktur data fisik).

Skillset bersifat opsional dan ada tombol di bagian bawah halaman untuk melompat ke depan jika Anda tidak ingin pengayaan AI.

Konfigurasi skema indeks di wizard

Wizard mengambil sampel sumber data Anda untuk mendeteksi bidang dan jenis bidang. Bergantung pada sumber data, wizard mungkin juga menawarkan bidang untuk mengindeks metadata.

Karena pengambilan sampel adalah penggunaan yang tidak tepat, tinjau indeks untuk pertimbangan berikut:

  1. Apakah daftar bidang akurat? Jika sumber data Anda berisi bidang yang tidak diambil dalam pengambilan sampel, Anda dapat menambahkan bidang baru yang terlewatkan secara manual, dan menghapus bidang yang tidak menambah nilai ke pengalaman pencarian atau yang tidak akan digunakan dalam ekspresi filter atau profil penilaian.

  2. Apakah tipe data sesuai untuk data masuk? Azure AI Search mendukung jenis data model data entitas (EDM). Untuk data Azure SQL, ada bagan pemetaan yang menjabarkan nilai yang setara. Untuk latar belakang lainnya, lihat Pemetaan dan transformasi bidang.

  3. Apakah Anda memiliki satu bidang yang dapat berfungsi sebagai kunci? Bidang ini harus Edm.string dan harus mengidentifikasi dokumen secara unik. Untuk data relasional, data mungkin dipetakan ke kunci primer. Untuk blob, mungkin itu adalah metadata-storage-path. Jika nilai bidang menyertakan spasi atau tanda hubung, Anda harus mengatur opsi Kunci Encoding base-64 pada langkah Buat Pengindeks, di bawah Pilihan tingkat lanjut, untuk menekan pemeriksaan validasi untuk karakter ini.

  4. Atur atribut untuk menentukan bagaimana bidang tersebut digunakan dalam indeks.

    Luangkan waktu Anda dengan langkah ini karena atribut menentukan ekspresi fisik bidang dalam indeks. Jika Anda ingin mengubah atribut nanti, bahkan secara terprogram, Anda hampir selalu perlu menghilangkan dan membangun kembali indeks. Atribut inti seperti Dapat dicari dan Retrievable memiliki dampak yang dapat diabaikan pada penyimpanan. Mengaktifkan filter dan menggunakan saran meningkatkan persyaratan penyimpanan.

    • Dapat dicari memungkinkan pencarian teks-penuh. Setiap bidang yang digunakan dalam kueri formulir gratis atau dalam ekspresi kueri harus memiliki atribut ini. Indeks terbalik dibuat untuk setiap bidang yang Anda tandai sebagai Dapat Dicari.

    • Diambil mengembalikan bidang dalam hasil pencarian. Setiap bidang yang menyediakan konten untuk hasil pencarian harus memiliki atribut ini. Mengatur bidang ini tidak mempengaruhi ukuran indeks secara apresiasi.

    • Dapat difilter memungkinkan bidang direferensikan dalam ekspresi filter. Setiap bidang yang digunakan dalam ekspresi $filter harus memiliki atribut ini. Ekspresi filter adalah untuk pasangan yang baku. Karena untai (karakter) teks tetap utuh, diperlukan lebih banyak penyimpanan untuk mengakomodasi konten verbatim.

    • Dapat difaset memungkinkan bidang untuk navigasi bertatap muka. Hanya bidang yang juga ditandai sebagai Dapat Difilter yang dapat ditandai sebagai Facetable.

    • Dapat diurutkan memungkinkan bidang digunakan dalam urutan. Setiap bidang yang digunakan dalam ekspresi $Orderby harus memiliki atribut ini.

  5. Apakah Anda memerlukan analisis leksikal? Untuk bidang Edm.string yang Dapat Dicari, Anda bisa mengatur Penganalisis jika Anda ingin pengindeksan dan kueri yang disempurnakan bahasa.

    Defaultnya adalah Standard Lucene tetapi Anda dapat memilih Microsoft English jika Anda ingin menggunakan penganalisis Microsoft untuk pemrosesan leksikal tingkat lanjut, seperti menyelesaikan bentuk kata benda dan kata kerja yang tidak teratur. Hanya penganalisis bahasa yang dapat ditentukan di portal. Menggunakan penganalisis kustom atau penganalisis non-bahasa seperti Kata Kunci, Pola, dan sebagainya, harus dilakukan secara terprogram. Untuk informasi selengkapnya tentang penganalisis, lihat Menambahkan penganalisis bahasa.

  6. Apakah Anda memerlukan fungsionalitas typeahead dalam bentuk lengkapi otomatis atau hasil yang disarankan? Pilih kotak centang Penyaran untuk mengaktifkan saran kueri typeahead dan lengkapi otomatis pada bidang yang dipilih. Penyaran menambahkan jumlah istilah bertoken dalam indeks Anda, dan dengan demikian mengkonsumsi lebih banyak penyimpanan.

Konfigurasi pengindeks di wizard

Halaman terakhir dari wizard mengumpulkan input pengguna untuk konfigurasi pengindeks. Anda dapat menentukan jadwal dan mengatur opsi lain yang akan bervariasi menurut jenis sumber data.

Secara internal, wizard juga menyiapkan definisi berikut, yang tidak terlihat di pengindeks hingga setelah dibuat:

Langkah berikutnya

Cara terbaik untuk memahami manfaat dan batasan wizard adalah dengan melangkah melaluinya. Mulai cepat berikut menjelaskan setiap langkah.