Mulai Cepat: Membuat kumpulan keterampilan Azure Cognitive Search di portal Microsoft Azure

Dalam mulai cepat ini, Anda akan mempelajari bagaimana pengayaan AI di Azure Cognitive Search menambahkan Pengenalan Karakter Optik (OCR), analisis gambar, deteksi bahasa, terjemahan teks, dan pengenalan entitas untuk membuat konten yang dapat dicari teks dalam indeks pencarian.

Anda akan menjalankan wizard Impor data di portal Azure untuk menerapkan keterampilan yang mengubah dan memperkaya konten selama pengindeksan. Output adalah indeks yang dapat dicari yang berisi teks gambar, keterangan, dan entitas yang dihasilkan AI. Konten yang diperkaya dapat dikueri di portal menggunakan Penjelajah pencarian.

Untuk mempersiapkan, Anda akan membuat beberapa sumber daya dan mengunggah sampel file sebelum menjalankan wizard.

Prasyarat

Sebelum Anda mulai, siapkan prasyarat berikut:

Catatan

Mulai cepat ini menggunakan Cognitive Services untuk AI. Karena beban kerjanya sangat kecil, Layanan Kognitif diketuk di belakang layar untuk pemrosesan gratis hingga 20 transaksi. Anda dapat menyelesaikan latihan ini tanpa harus membuat sumber daya Cognitive Services.

Menyiapkan data Anda

Dalam langkah-langkah berikut, siapkan kontainer blob di Azure Storage untuk menyimpan file konten heterogen.

  1. Unduh data sampel yang terdiri dari kumpulan file kecil dari berbagai jenis. Unzip file.

  2. Masuk ke portal Microsoft Azure dengan akun Azure Anda.

  3. Buat akun Azure Storage atau cari akun yang sudah ada.

    • Pilih wilayah yang sama dengan Azure Cognitive Search untuk menghindari biaya bandwidth.

    • Pilih StorageV2 (tujuan umum V2).

  4. Di portal Azure, buka halaman Azure Storage Anda dan buat kontainer. Anda dapat menggunakan tingkat akses publik default.

  5. Di Kontainer, pilih Unggah untuk mengunggah file sampel yang Anda unduh di langkah pertama. Perhatikan bahwa Anda memiliki berbagai jenis konten, termasuk gambar dan file aplikasi yang tidak dapat dicari teks lengkap dalam format aslinya.

    Cuplikan layar file sumber di Azure Blob Storage.

Anda sekarang siap untuk beralih pada wizard Impor data.

Menjalankan wizard Impor data

  1. Masuk ke portal Microsoft Azure dengan akun Azure Anda.

  2. Temukan layanan pencarian Anda dan pada halaman Gambaran Umum, pilih Impor data pada bilah perintah untuk menyiapkan pengayaan kognitif dalam empat langkah.

    Cuplikan layar perintah Impor data.

Langkah 1 - Buat sumber data

  1. Di Sambungkan ke data Anda, pilih Azure Blob Storage.

  2. Pilih koneksi yang sudah ada ke akun penyimpanan dan pilih kontainer yang Anda buat. Beri nama sumber data, dan gunakan nilai default untuk sisanya.

    Cuplikan layar halaman definisi sumber data.

    Lanjutkan ke halaman berikutnya.

Langkah 2 - Tambahkan keterampilan kognitif

Selanjutnya, konfigurasikan pengayaan AI untuk memanggil OCR, analisis gambar, dan pemrosesan bahasa alami.

  1. Untuk mulai cepat ini, kami menggunakan sumber daya Cognitive Services Gratis . Data sampel terdiri dari 14 file, sehingga jatah gratis 20 transaksi pada Cognitive Services cukup untuk mulai cepat ini.

    Cuplikan layar tab Lampirkan Cognitive Services.

  2. Perluas Tambahkan pengayaan dan buat enam pilihan.

    Aktifkan OCR untuk menambahkan keterampilan analisis gambar ke halaman panduan.

    Pilih pengenalan entitas (orang, organisasi, lokasi) dan keterampilan analisis gambar (tag, keterangan).

    Cuplikan layar halaman definisi set keterampilan.

    Lanjutkan ke halaman berikutnya.

Langkah 3 - Konfigurasikan indeks

Indeks berisi konten yang dapat dicari dan wizard Impor data biasanya dapat membuat skema untuk Anda dengan mengambil sampel sumber data. Pada langkah ini, tinjau skema yang dihasilkan dan kemungkinan perbaiki pengaturan apa pun. Di bawah ini adalah skema default yang dibuat untuk himpunan data Blob demo.

Untuk mulai cepat ini, wizard melakukan pekerjaan dengan baik mengatur default yang wajar:

  • Bidang default didasarkan pada properti metadata untuk blob yang ada, ditambah bidang baru untuk output pengayaan (misalnya, people, organizations, locations). Jenis data disimpulkan dari metadata dan dengan pengambilan sampel data.

  • Kunci dokumen default adalah metadata_storage_path (dipilih karena bidang berisi nilai unik).

  • Atribut default adalah Dapat diambil dan Dapat dicari. Dapat dicari memungkinkan pencarian teks lengkap sebuah bidang. Dapat diambil berarti nilai bidang dapat dikembalikan hasilnya. Wizard mengasumsikan bahwa Anda ingin bidang ini dapat diambil dan dicari karena Anda membuatnya melalui kumpulan keterampilan. Pilih Dapat difilter jika Anda ingin menggunakan bidang dalam ekspresi filter.

    Cuplikan layar halaman definisi indeks.

Menandai bidang sebagai Dapat Diambil tidak berarti bahwa bidang harus ada dalam hasil pencarian. Anda dapat mengontrol komposisi hasil pencarian dengan menggunakan parameter kueri $select untuk menentukan bidang mana yang akan disertakan.

Lanjutkan ke halaman berikutnya.

Langkah 4 - Konfigurasikan pengindeks

Pengindeks mendorong proses pengindeksan. Pengindeks menentukan nama sumber data, indeks target, dan frekuensi eksekusi. Wizard Impor data membuat beberapa objek, termasuk pengindeks yang bisa Anda reset dan jalankan berulang kali.

  1. Di halaman Pengindeks , Anda dapat menerima nama default dan memilih Sekali untuk segera menjalankannya.

    Cuplikan layar halaman definisi pengindeks.

  2. Pilih Kirim untuk membuat dan menjalankan pengindeks secara bersamaan.

Status pemantau

Pengindeksan keterampilan kognitif membutuhkan waktu lebih lama untuk diselesaikan daripada pengindeksan berbasis teks biasa, terutama OCR dan analisis gambar. Untuk memantau kemajuan, buka halaman Gambaran Umum dan pilih Pengindeks di tengah halaman.

Cuplikan layar halaman status pengindeks.

Untuk memeriksa detail tentang status eksekusi, pilih pengindeks dari daftar, lalu pilih Berhasil (atau Gagal) untuk melihat detail eksekusi.

Dalam demo ini, ada satu peringatan: '"Tidak dapat menjalankan keterampilan karena satu atau beberapa input keterampilan tidak valid." Ini memberi tahu Anda bahwa file PNG di sumber data tidak memberikan input teks ke Pengenalan Entitas. Peringatan ini terjadi karena keterampilan OCR upstream tidak mengenali teks apa pun dalam gambar, dan dengan demikian tidak dapat memberikan input teks ke keterampilan Pengenalan Entitas hilir.

Peringatan umum dalam eksekusi set keterampilan. Saat Anda terbiasa dengan bagaimana keterampilan melakukan iterasi atas data Anda, Anda akan mulai melihat pola dan mempelajari peringatan mana yang aman untuk diabaikan.

Kueri di Penjelajah pencarian

Setelah indeks dibuat, jalankan kueri di Penjelajah pencarian untuk mengembalikan hasil.

  1. Pada halaman dasbor layanan pencarian, pilih Penjelajah pencarian pada bilah perintah.

  2. Pilih Ubah Indeks di bagian atas untuk memilih indeks yang Anda buat.

  3. Masukkan string pencarian untuk mengkueri indeks, seperti search=Satya Nadella&$select=people,organizations,locations&$count=true.

Hasil dikembalikan sebagai JSON verbose, yang mungkin sulit dibaca, terutama dalam dokumen besar. Beberapa tips untuk mencari di alat ini antara lain teknik berikut:

  • Tambahkan $select untuk membatasi bidang yang dikembalikan dalam hasil.
  • Gunakan CTRL-F untuk mencari di dalam JSON untuk properti atau istilah tertentu.

String kueri peka huruf besar/kecil jadi jika Anda mendapatkan pesan "bidang tidak dikenal", centang Bidang atau Definisi Indeks (JSON) untuk memverifikasi nama dan huruf besar/kecil.

Cuplikan layar halaman Penjelajah pencarian.

Kesimpulan

Kini Anda telah membuat kumpulan keterampilan pertama Anda dan mempelajari konsep-konsep penting yang berguna untuk membuat prototipe solusi pencarian yang diperkaya menggunakan data Anda sendiri.

Beberapa konsep utama yang kami harap Anda ambil mencakup dependensi pada sumber data Azure. Kumpulan keterampilan terikat ke pengindeks, dan pengindeks adalah Azure dan khusus sumber. Meskipun mulai cepat ini menggunakan Azure Blob Storage, sumber data Azure lainnya mungkin digunakan. Untuk informasi selengkapnya, lihat Pengindeks di Azure Cognitive Search.

Konsep penting lainnya adalah bahwa keterampilan beroperasi di atas jenis konten, dan ketika bekerja dengan konten heterogen, beberapa input akan dilewati. Selain itu, file atau bidang besar mungkin melebihi batas pengindeks tingkat layanan Anda. Melihat peringatan saat peristiwa ini terjadi adalah hal yang normal.

Output diarahkan ke indeks pencarian, dan ada pemetaan antara pasangan nilai nama yang dibuat selama pengindeksan dan bidang individual dalam indeks Anda. Secara internal, portal menyiapkan anotasi dan mendefinisikan kumpulan keterampilan, menetapkan urutan operasi dan alur umum. Langkah-langkah ini tersembunyi di portal, tetapi ketika Anda mulai menulis kode, konsep-konsep ini menjadi penting.

Akhirnya, Anda mempelajari bahwa verifikasi konten dapat dilakukan dengan mengkueri indeks. Pada akhirnya, apa yang disediakan Azure Cognitive Search adalah indeks yang dapat dicari, yang dapat Anda kueri menggunakan sederhana atau sintaks kueri yang diperluas sepenuhnya. Indeks yang berisi bidang yang diperkaya sama seperti indeks lainnya. Jika Anda ingin menggabungkan standar atau penganalisis kustom, profil penilaian, sinonim, navigasi tersaring, penelusuran geografis, atau fitur Azure Cognitive Search lainnya, Anda bisa melakukannya.

Membersihkan sumber daya

Saat bekerja dengan langganan Anda sendiri, sebaiknya identifikasi apakah Anda masih membutuhkan sumber daya yang Anda buat di akhir proyek. Sumber daya yang dibiarkan beroperasi dapat dikenakan biaya. Anda dapat menghapus sumber daya satu per satu atau menghapus grup sumber daya untuk menghapus seluruh set sumber daya.

Anda dapat menemukan dan mengelola sumber daya di portal, menggunakan tautan Semua sumber daya atau Grup sumber daya di panel navigasi kiri.

Jika Anda menggunakan layanan gratis, ingatlah bahwa Anda terbatas pada tiga indeks, pengindeks, dan sumber data. Anda dapat menghapus item individu di portal agar tetap berada dalam batasan.

Langkah berikutnya

Anda dapat membuat kumpulan keterampilan menggunakan portal, .NET SDK, atau REST API. Untuk menambah pengetahuan Anda, coba REST API menggunakan Postman dan lebih banyak data sampel.