Mengimpor wizard data di portal Azure
Azure AI Search memiliki dua wizard impor yang mengotomatiskan pengindeksan dan pembuatan objek sehingga Anda dapat segera mulai mengkueri. Jika Anda baru menggunakan Azure AI Search, wizard ini adalah salah satu fitur paling canggih yang dapat Anda gunakan. Dengan upaya minimal, Anda dapat membuat alur pengindeksan atau pengayaan yang menjalankan sebagian besar fungsionalitas Azure AI Search.
Wizard impor data mendukung alur kerja nonvektor. Anda dapat mengekstrak teks dan angka dari dokumen mentah. Anda juga dapat mengonfigurasi AI yang diterapkan dan keterampilan bawaan yang menyimpulkan struktur dan menghasilkan konten yang dapat dicari teks dari file gambar dan data yang tidak terstruktur.
Wizard impor dan vektorisasi data menambahkan pemotongan dan vektorisasi. Anda harus menentukan penyebaran model penyematan yang sudah ada, tetapi wizard membuat koneksi, merumuskan permintaan, dan menangani respons. Ini menghasilkan konten vektor dari konten teks atau gambar.
Jika Anda menggunakan wizard untuk pengujian bukti konsep, artikel ini menjelaskan cara kerja internal wizard sehingga Anda bisa menggunakannya secara lebih efektif.
Artikel ini bukan langkah demi langkah. Untuk bantuan menggunakan wizard dengan data sampel, lihat:
- Mulai cepat: Membuat indeks pencarian
- Mulai cepat: Membuat terjemahan teks dan set keterampilan entitas
- Mulai cepat: Membuat indeks vektor
- Mulai cepat: pencarian gambar (vektor)
Sumber dan skenario data yang didukung
Wizard mendukung sebagian besar sumber data yang didukung oleh pengindeks.
Data | Wizard impor data | Mengimpor dan mem-vektorisasi wizard data |
---|---|---|
ADLS Gen2 | ✅ | ✅ |
Penyimpanan Blob Azure | ✅ | ✅ |
Azure File Storage | ❌ | ❌ |
Penyimpanan Tabel Azure | ✅ | ✅ |
Database Azure SQL dan instans terkelola | ✅ | ✅ |
Cosmos DB untuk NoSQL | ✅ | ✅ |
Cosmos DB untuk MongoDB | ✅ | ✅ |
Cosmos DB untuk Apache Gremlin | ✅ | ✅ |
MySQL | ❌ | ❌ |
OneLake | ✅ | ✅ |
SharePoint Online | ❌ | ❌ |
SQL Server di mesin virtual | ✅ | ✅ |
Data sampel
Microsoft menghosting data sampel sehingga Anda dapat menghilangkan langkah konfigurasi sumber data pada alur kerja wizard.
Data sampel | Wizard impor data | Mengimpor dan mem-vektorisasi wizard data |
---|---|---|
Hotel | ✅ | ❌ |
real estat | ✅ | ❌ |
Keahlian
Bagian ini mencantumkan keterampilan yang mungkin muncul dalam set keterampilan yang dihasilkan oleh wizard. Wizard menghasilkan pemetaan bidang keterampilan dan output berdasarkan opsi yang Anda pilih. Setelah set keterampilan dibuat, Anda dapat memodifikasi definisi JSON-nya untuk menambahkan lebih banyak keterampilan.
Berikut adalah beberapa poin yang perlu diingat tentang keterampilan dalam daftar berikut:
- Opsi analisis OCR dan gambar tersedia untuk blob di Azure Storage dan file di OneLake, dengan asumsi mode penguraian default. Gambar adalah jenis konten gambar (seperti PNG atau JPG) atau gambar yang disematkan dalam file aplikasi (seperti PDF).
- Shaper ditambahkan jika Anda mengonfigurasi penyimpanan pengetahuan.
- Pemisahan Teks dan Penggabungan Teks ditambahkan untuk pemotongan data jika Anda memilih model penyematan. Mereka ditambahkan untuk keterampilan non-penyematan lainnya jika granularitas bidang sumber diatur ke halaman atau kalimat.
Keahlian | Wizard impor data | Mengimpor dan mem-vektorisasi wizard data |
---|---|---|
Multimodal AI Vision | ❌ | ✅ |
Penyematan Azure OpenAI | ❌ | ✅ |
Azure Pembelajaran Mesin (katalog model Azure AI Foundry) | ❌ | ✅ |
Tata letak dokumen | ❌ | ✅ |
Pengenalan entitas | ✅ | ❌ |
Analisis gambar (berlaku untuk blob, penguraian default, pengindeksan seluruh file | ✅ | ❌ |
Ekstraksi kata kunci | ✅ | ❌ |
Deteksi bahasa | ✅ | ❌ |
Terjemahan teks | ✅ | ❌ |
OCR (berlaku untuk blob, penguraian default, pengindeksan seluruh file) | ✅ | ✅ |
Deteksi PII | ✅ | ❌ |
Analisis sentimen | ✅ | ❌ |
Shaper (berlaku untuk penyimpanan pengetahuan) | ✅ | ❌ |
Pemisahan Teks | ✅ | ✅ |
Penggabungan Teks | ✅ | ✅ |
Penyimpanan pengetahuan
Anda dapat menghasilkan penyimpanan pengetahuan untuk penyimpanan sekunder konten yang diperkaya (dihasilkan keterampilan). Anda mungkin menginginkan penyimpanan pengetahuan untuk alur kerja pengambilan informasi yang tidak memerlukan mesin pencari.
Penyimpanan pengetahuan | Wizard impor data | Mengimpor dan mem-vektorisasi wizard data |
---|---|---|
penyimpanan | ✅ | ❌ |
Apa yang dibuat wizard
Panduan impor membuat objek yang dijelaskan dalam tabel berikut ini. Setelah objek dibuat, Anda dapat meninjau definisi JSON mereka di portal Azure atau memanggilnya dari kode.
Untuk melihat objek ini setelah panduan berjalan:
Masuk ke portal Azure dan temukan layanan pencarian Anda.
Pilih Manajemen pencarian pada menu untuk menemukan halaman untuk indeks, pengindeks, sumber data, dan set keterampilan.
Objek | Deskripsi |
---|---|
Pengindeks | Objek konfigurasi yang menentukan sumber data, indeks target, skillset opsional, jadwal opsional, dan pengaturan konfigurasi opsional untuk menangani kesalahan dan pengkodean dasar-64. |
Sumber data | Mempertahankan informasi koneksi ke sumber data yang didukung di Azure. Objek sumber data digunakan secara eksklusif dengan pengindeks. |
Index | Struktur data fisik yang digunakan untuk pencarian teks lengkap dan kueri lainnya. |
Skillset | Opsional. Serangkaian instruksi lengkap untuk memanipulasi, mengubah, dan membentuk konten, termasuk menganalisis dan mengekstrak informasi dari file gambar. Skillset juga digunakan untuk vektorisasi terintegrasi. Kecuali volume pekerjaan berada di bawah batas 20 transaksi per pengindeks per hari, set keterampilan harus menyertakan referensi ke sumber daya multiservice Azure AI yang menyediakan pengayaan. Untuk vektorisasi terintegrasi, Anda dapat menggunakan Azure AI Vision atau model penyematan dalam katalog model Azure AI Foundry. |
Penyimpanan pengetahuan | Opsional. Hanya tersedia di wizard Impor data . Menyimpan output skillset yang diperkaya dari dalam tabel dan blob di Azure Storage untuk analisis independen atau pemrosesan hilir dalam skenario nonsearch. |
Keuntungan
Sebelum menulis kode apa pun, Anda dapat menggunakan wizard untuk membuat prototipe dan pengujian bukti konsep. Wizard tersambung ke sumber data eksternal, mengambil sampel data untuk membuat indeks awal, lalu mengimpor dan secara opsional mem-vektorisasi data sebagai dokumen JSON ke dalam indeks di Azure AI Search.
Jika Anda mengevaluasi set keterampilan, wizard menangani pemetaan bidang output dan menambahkan fungsi pembantu untuk membuat objek yang dapat digunakan. Pemisahan teks ditambahkan jika Anda menentukan mode penguraian. Gabungan teks ditambahkan jika Anda memilih analisis gambar sehingga wizard dapat menyatukan kembali deskripsi teks dengan konten gambar. Keterampilan pembentuk ditambahkan untuk mendukung proyeksi yang valid jika Anda memilih opsi penyimpanan pengetahuan. Semua tugas di atas disertai dengan kurva belajar. Jika Anda baru dalam pengayaan, kemampuan untuk menangani langkah-langkah ini untuk Anda memungkinkan Anda mengukur nilai keterampilan tanpa harus menginvestasikan banyak waktu dan upaya.
Pengambilan sampel adalah proses ketika skema indeks disimpulkan, dan memiliki beberapa keterbatasan. Saat sumber data dibuat, wizard memilih sampel dokumen acak untuk memutuskan kolom apa yang merupakan bagian dari sumber data. Tidak semua file dibaca, karena ini berpotensi memakan waktu berjam-jam untuk sumber data yang sangat besar. Mengingat pilihan dokumen, metadata sumber, seperti nama bidang atau tipe, digunakan untuk membuat kumpulan bidang dalam skema indeks. Bergantung pada kompleksitas data sumber, Anda mungkin perlu mengedit skema awal untuk akurasi, atau memperluasnya untuk kelengkapan. Anda dapat membuat perubahan sebaris pada halaman definisi indeks.
Secara keseluruhan, keuntungan menggunakan wizard jelas: selama persyaratan terpenuhi, Anda dapat membuat indeks yang dapat dikueri dalam hitungan menit. Beberapa kompleksitas pengindeksan, seperti menserialisasikan data sebagai dokumen JSON, ditangani oleh wizard.
Batasan
Wizard impor bukan tanpa batasan. Batasan dirangkum sebagai berikut:
Wizard tidak mendukung perulangan atau penggunaan kembali. Setiap pass melalui wizard membuat indeks baru, skillset, dan konfigurasi pengindeks. Hanya sumber data yang dapat dipertahankan dan digunakan kembali dalam panduan. Untuk mengedit atau memperbaiki objek lain, menghapus objek dan memulai dari awal, atau menggunakan REST API atau .NET SDK untuk memodifikasi struktur.
Konten sumber harus berada di sumber data yang didukung.
Pengambilan sampel melalui sekumpulan data sumber. Untuk sumber data yang besar, dimungkinkan bagi wizard untuk melewatkan bidang. Anda mungkin perlu memperluas skema, atau memperbaiki tipe data yang disimpulkan, jika pengambilan sampel tidak mencukupi.
Pengayaan AI, seperti yang diekspos dalam portal Azure, terbatas pada subset keterampilan bawaan.
Penyimpanan pengetahuan, yang dapat dibuat oleh wizard Impor data , terbatas pada beberapa proyeksi default dan menggunakan konvensi penamaan default. Jika Anda ingin menyesuaikan nama atau proyeksi, Anda harus membuat penyimpanan pengetahuan melalui REST API atau SDK.
Sambungan yang aman
Wizard impor membuat koneksi keluar menggunakan pengontrol portal Azure dan titik akhir publik. Anda tidak dapat menggunakan wizard jika sumber daya Azure diakses melalui koneksi privat atau melalui tautan privat bersama.
Anda bisa menggunakan panduan melalui koneksi publik terbatas, tetapi tidak semua fungsionalitas tersedia.
Pada layanan pencarian, mengimpor data sampel bawaan memerlukan titik akhir publik dan tidak ada aturan firewall.
Data sampel dihosting oleh Microsoft pada sumber daya Azure tertentu. pengontrol portal Azure tersambung ke sumber daya tersebut melalui titik akhir publik. Jika Anda menempatkan layanan pencarian Anda di belakang firewall, Anda mendapatkan kesalahan ini saat mencoba mengambil data sampel bawaan:
Import configuration failed, error creating Data Source
, diikuti oleh"An error has occured."
.Pada sumber data Azure yang didukung yang dilindungi oleh firewall, Anda dapat mengambil data jika Anda memiliki aturan firewall yang tepat.
Sumber daya Azure harus mengakui permintaan jaringan dari alamat IP perangkat yang digunakan pada koneksi. Anda juga harus mencantumkan Azure AI Search sebagai layanan tepercaya pada konfigurasi jaringan sumber daya. Misalnya, di Azure Storage, Anda dapat mencantumkan
Microsoft.Search/searchServices
sebagai layanan tepercaya.Pada koneksi ke akun multi-layanan Azure AI yang Anda berikan, atau pada koneksi ke model penyematan yang disebarkan di portal Azure AI Foundry atau Azure OpenAI, akses internet publik harus diaktifkan kecuali layanan pencarian Anda memenuhi tanggal pembuatan, tingkat, dan persyaratan wilayah untuk koneksi privat. Untuk informasi selengkapnya tentang persyaratan ini, lihat Membuat koneksi keluar melalui tautan privat bersama.
Koneksi ke multi-layanan Azure AI adalah untuk tujuan penagihan. Penagihan terjadi ketika panggilan API melebihi jumlah transaksi gratis (20 per pengindeks berjalan) untuk keterampilan bawaan yang disebut oleh wizard Impor data atau vektorisasi terintegrasi dalam wizard Impor dan vektorisasi data .
Jika Pencarian Azure AI tidak dapat tersambung:
Dalam wizard Impor dan vektorisasi data, kesalahannya adalah
"Access denied due to Virtual Network/Firewall rules."
Dalam wizard Impor data, tidak ada kesalahan, tetapi set keterampilan tidak akan dibuat.
Jika pengaturan firewall mencegah alur kerja wizard Anda berhasil, pertimbangkan pendekatan skrip atau terprogram sebagai gantinya.
Alur kerja
Wizard diatur menjadi empat langkah utama:
Sambungkan ke sumber data Azure yang didukung.
Buat skema indeks, disimpulkan oleh data sumber pengambilan sampel.
Secara opsional, ia menambahkan keterampilan untuk mengekstrak atau menghasilkan konten dan struktur. Input untuk membuat penyimpanan pengetahuan dikumpulkan dalam langkah ini.
Jalankan wizard untuk membuat objek, secara opsional mem-vektorisasi data, memuat data ke dalam indeks, mengatur jadwal, dan opsi konfigurasi lainnya.
Alur kerja adalah alur, jadi salah satu caranya. Anda tidak dapat menggunakan wizard untuk mengedit objek apa pun yang dibuat, tetapi Anda bisa menggunakan alat portal lain, seperti indeks atau perancang pengindeks atau editor JSON, untuk pembaruan yang diizinkan.
Memulai wizard
Berikut adalah cara Anda memulai wizard.
Di portal Azure, buka halaman layanan pencarian dari dasbor atau temukan layanan Anda di daftar layanan.
Di halaman Gambaran Umum layanan di bagian atas, pilih Impor data atau Impor dan vektorisasi data.
Wizard terbuka sepenuhnya diperluas di jendela browser sehingga Anda memiliki lebih banyak ruang untuk bekerja.
Jika Anda memilih Impor data, Anda dapat memilih opsi Sampel untuk mengindeks himpunan data yang dihosting Microsoft dari sumber data yang didukung.
Ikuti langkah-langkah yang tersisa dalam wizard untuk membuat indeks dan pengindeks.
Anda juga dapat meluncurkan Impor data dari layanan Azure lainnya, termasuk Azure Cosmos DB, Azure SQL Database, SQL Managed Instance, dan Azure Blob Storage. Cari Tambahkan Pencarian Azure AI di panel navigasi kiri pada halaman gambaran umum layanan.
Konfigurasi sumber data di wizard
Wizard tersambung ke sumber data eksternal yang didukung menggunakan logika internal yang disediakan oleh pengindeks Azure AI Search, yang dilengkapi untuk mengambil sampel sumber, membaca metadata, memecahkan dokumen untuk membaca konten dan struktur, dan menserialisasikan konten sebagai JSON untuk impor berikutnya ke Azure AI Search.
Anda bisa menempelkan koneksi ke sumber data yang didukung di langganan atau wilayah lain, tetapi Pemilih Pilih koneksi yang ada dilingkup ke langganan aktif.
Tidak semua sumber data pratinjau dijamin tersedia di wizard. Karena setiap sumber data memiliki potensi untuk memperkenalkan perubahan lain di hilir, sumber data pratinjau hanya akan ditambahkan ke daftar sumber data jika mendukung sepenuhnya semua pengalaman di wizard, seperti definisi skillset dan inferensi skema indeks.
Anda hanya bisa mengimpor dari satu tabel, tampilan database, atau struktur data yang setara, namun strukturnya bisa menyertakan substruktur hierarkis atau bertumpuk. Untuk informasi selengkapnya, lihat Cara memodelkan jenis kompleks.
Konfigurasi skillset di wizard
Konfigurasi skillset terjadi setelah definisi sumber data karena jenis sumber data menginformasikan ketersediaan keterampilan bawaan tertentu. Secara khusus, jika Anda mengindeks file dari penyimpanan Blob, pilihan mode penguraian file tersebut menentukan apakah analisis sentimen tersedia.
Wizard menambahkan keterampilan yang Anda pilih. Ini juga menambahkan keterampilan lain yang diperlukan untuk mencapai hasil yang sukses. Misalnya, jika Anda menentukan penyimpanan pengetahuan, wizard menambahkan keterampilan Shaper untuk mendukung proyeksi (atau struktur data fisik).
Skillset bersifat opsional dan ada tombol di bagian bawah halaman untuk melompat ke depan jika Anda tidak ingin pengayaan AI.
Konfigurasi skema indeks di wizard
Panduan ini mengambil sampel sumber data Anda untuk mendeteksi bidang dan jenis bidang. Bergantung pada sumber data, wizard mungkin juga menawarkan bidang untuk mengindeks metadata.
Karena pengambilan sampel adalah penggunaan yang tidak tepat, tinjau indeks untuk pertimbangan berikut:
Apakah daftar bidang akurat? Jika sumber data Anda berisi bidang yang tidak diambil dalam pengambilan sampel, Anda dapat menambahkan bidang baru yang terlewatkan secara manual, dan menghapus bidang yang tidak menambah nilai ke pengalaman pencarian atau yang tidak akan digunakan dalam ekspresi filter atau profil penilaian.
Apakah tipe data sesuai untuk data masuk? Azure AI Search mendukung jenis data model data entitas (EDM). Untuk data Azure SQL, ada bagan pemetaan yang menjabarkan nilai yang setara. Untuk latar belakang lainnya, lihat Pemetaan dan transformasi bidang.
Apakah Anda memiliki satu bidang yang dapat berfungsi sebagai kunci? Bidang ini harus Edm.string dan harus mengidentifikasi dokumen secara unik. Untuk data relasional, data mungkin dipetakan ke kunci primer. Untuk blob, mungkin itu adalah
metadata-storage-path
. Jika nilai bidang menyertakan spasi atau tanda hubung, Anda harus mengatur opsi Kunci Encoding base-64 pada langkah Buat Pengindeks, di bawah Pilihan tingkat lanjut, untuk menekan pemeriksaan validasi untuk karakter ini.Atur atribut untuk menentukan bagaimana bidang tersebut digunakan dalam indeks.
Luangkan waktu Anda dengan langkah ini karena atribut menentukan ekspresi fisik bidang dalam indeks. Jika Anda ingin mengubah atribut nanti, bahkan secara terprogram, Anda hampir selalu perlu menghilangkan dan membangun kembali indeks. Atribut inti seperti Dapat Dicari dan Dapat Diambil memiliki efek yang dapat diabaikan pada penyimpanan. Mengaktifkan filter dan menggunakan saran meningkatkan persyaratan penyimpanan.
Dapat dicari memungkinkan pencarian teks-penuh. Setiap bidang yang digunakan dalam kueri formulir gratis atau dalam ekspresi kueri harus memiliki atribut ini. Indeks terbalik dibuat untuk setiap bidang yang Anda tandai sebagai Dapat Dicari.
Diambil mengembalikan bidang dalam hasil pencarian. Setiap bidang yang menyediakan konten untuk hasil pencarian harus memiliki atribut ini. Mengatur bidang ini tidak mempengaruhi ukuran indeks secara apresiasi.
Dapat difilter memungkinkan bidang direferensikan dalam ekspresi filter. Setiap bidang yang digunakan dalam ekspresi $filter harus memiliki atribut ini. Ekspresi filter adalah untuk pasangan yang baku. Karena untai (karakter) teks tetap utuh, diperlukan lebih banyak penyimpanan untuk mengakomodasi konten verbatim.
Dapat difaset memungkinkan bidang untuk navigasi bertatap muka. Hanya bidang yang juga ditandai sebagai Dapat Difilter yang dapat ditandai sebagai Facetable.
Dapat diurutkan memungkinkan bidang digunakan dalam urutan. Setiap bidang yang digunakan dalam ekspresi $Orderby harus memiliki atribut ini.
Apakah Anda memerlukan analisis leksikal? Untuk bidang Edm.string yang Dapat Dicari, Anda bisa mengatur Penganalisis jika Anda ingin pengindeksan dan kueri yang disempurnakan bahasa.
Defaultnya adalah Standard Lucene tetapi Anda dapat memilih Microsoft English jika Anda ingin menggunakan penganalisis Microsoft untuk pemrosesan leksikal tingkat lanjut, seperti menyelesaikan bentuk kata benda dan kata kerja yang tidak teratur. Hanya penganalisis bahasa yang dapat ditentukan dalam portal Azure. Jika Anda menggunakan penganalisis kustom atau penganalisis non-bahasa seperti Kata Kunci, Pola, dan sebagainya, Anda harus membuatnya secara terprogram. Untuk informasi selengkapnya tentang penganalisis, lihat Menambahkan penganalisis bahasa.
Apakah Anda memerlukan fungsionalitas typeahead dalam bentuk lengkapi otomatis atau hasil yang disarankan? Pilih kotak centang Penyaran untuk mengaktifkan saran kueri typeahead dan lengkapi otomatis pada bidang yang dipilih. Penyaran menambahkan jumlah istilah bertoken dalam indeks Anda, dan dengan demikian mengkonsumsi lebih banyak penyimpanan.
Konfigurasi pengindeks di wizard
Halaman terakhir dari wizard mengumpulkan input pengguna untuk konfigurasi pengindeks. Anda dapat menentukan jadwal dan mengatur opsi lain yang akan bervariasi menurut jenis sumber data.
Secara internal, wizard juga menyiapkan definisi berikut, yang tidak terlihat di pengindeks hingga setelah dibuat:
- pemetaan bidang antara sumber data dan indeks
- pemetaan bidang output antara output keterampilan dan indeks
Coba wizard
Cara terbaik untuk memahami manfaat dan batasan wizard adalah dengan melangkah melaluinya. Berikut adalah beberapa mulai cepat yang didasarkan pada wizard.