Pengayaan AI di Pencarian Azure AI

Dalam Pencarian Azure AI, pengayaan AI mengacu pada integrasi dengan Foundry Tools untuk memproses konten yang tidak dapat dicari dalam bentuk mentahnya. Melalui pengayaan, analisis dan inferensi digunakan untuk membuat konten dan struktur yang dapat dicari di mana tidak ada sebelumnya.

Karena Pencarian Azure AI digunakan untuk kueri teks dan vektor, tujuan pengayaan AI adalah untuk meningkatkan utilitas konten Anda dalam skenario terkait pencarian. Konten mentah harus berupa teks atau gambar (Anda tidak dapat memperkaya vektor), tetapi output alur pengayaan dapat di-vektorisasi dan diindeks dalam indeks pencarian menggunakan keterampilan seperti keterampilan Pemisahan Teks untuk pemotongan dan keterampilan Penyematan Azure OpenAI untuk pengodean vektor. Untuk informasi selengkapnya tentang menggunakan keterampilan dalam skenario vektor, lihat Pemotongan dan penyematan data terintegrasi.

Pengayaan AI didasarkan pada keterampilan.

Keterampilan bawaan ketuk Foundry Tools. Mereka menerapkan transformasi dan pemrosesan berikut ke konten mentah:

  • Terjemahan dan deteksi bahasa untuk pencarian multibahasa.
  • Pengenalan entitas untuk mengekstrak nama orang, tempat, dan entitas lain dari potongan teks yang besar.
  • Ekstraksi frasa kunci untuk mengidentifikasi dan menghasilkan istilah penting.
  • Pengenalan karakter optik (OCR) untuk mengenali teks cetak dan tulisan tangan dalam file biner.
  • Analisis gambar untuk menjelaskan konten gambar dan menghasilkan deskripsi sebagai bidang teks yang dapat dicari.
  • Penyematan teks melalui Azure OpenAI untuk vektorisasi terintegrasi.
  • Penyematan multimodal melalui Azure Vision di Foundry Tools untuk vektorisasi teks dan gambar.

Keterampilan kustom memproses kode eksternal Anda. Anda dapat menggunakan keterampilan kustom untuk pemrosesan kustom apa pun yang ingin Anda sertakan dalam alur.

Pengayaan AI adalah ekstensi dari jalur pengindeks yang terhubung ke sumber data Azure. Alur pengayaan memiliki semua komponen alur pengindeks (pengindeks, sumber data, indeks) dan set keterampilan yang menentukan langkah-langkah pengayaan atomik.

Diagram berikut menunjukkan perkembangan pengayaan AI:

Diagram alur pengayaan.

Impor adalah langkah pertama. Di sini, pengindeks terhubung ke sumber data dan menarik konten (dokumen) ke layanan pencarian. Azure Blob Storage adalah sumber daya paling umum yang digunakan dalam skenario pengayaan AI, tetapi sumber data yang didukung dapat menyediakan konten.

Pengayaan & Indeks mencakup sebagian besar alur pengayaan AI:

  • Pengayaan dimulai ketika pengindeks memecahkan dokumen dan mengekstrak gambar dan teks. Jenis pemrosesan yang terjadi selanjutnya tergantung pada data Anda dan keterampilan yang telah Anda tambahkan ke set keterampilan. Gambar dapat diteruskan ke keterampilan yang melakukan pemrosesan gambar. Konten teks diantrekan untuk pemrosesan teks dan bahasa alami. Secara internal, keterampilan membuat dokumen yang diperkaya yang mengumpulkan transformasi saat terjadi.

  • Konten yang diperkaya dihasilkan selama pelaksanaan skillset dan akan bersifat sementara kecuali Anda menyimpannya. Anda dapat mengaktifkan cache pengayaan untuk mempertahankan output keterampilan untuk digunakan kembali dalam eksekusi skillset di masa mendatang.

  • Untuk memasukkan konten ke dalam indeks pencarian, pengindeks harus memiliki informasi pemetaan untuk mengirim konten yang diperkaya ke bidang target. Pemetaan bidang (eksplisit atau implisit ) mengatur jalur data dari data sumber ke indeks pencarian. Pemetaan kolom keluaran menetapkan jalur data dari dokumen yang diperkaya ke indeks.

  • Pengindeksan adalah proses di mana konten mentah dan diperkaya diserap ke dalam struktur data fisik indeks pencarian (file dan foldernya). Analisis leksikal dan tokenisasi terjadi pada langkah ini.

Eksplorasi adalah langkah terakhir. Output selalu merupakan indeks pencarian yang dapat dikueri dari aplikasi sisi klien. Output secara opsional dapat menjadi penyimpanan pengetahuan yang terdiri dari blob dan tabel di Azure Storage yang diakses melalui alat eksplorasi data atau proses hilir. Jika Anda membuat penyimpanan pengetahuan, proyeksi menentukan jalur data untuk konten yang diperkaya. Konten yang diperkaya yang sama dapat muncul di indeks dan penyimpanan pengetahuan.

Kapan menggunakan pemerkaya AI

Pengayaan berguna jika konten mentah adalah teks, konten gambar, atau konten yang tidak terstruktur yang memerlukan deteksi dan terjemahan bahasa. Menerapkan AI melalui keterampilan bawaan dapat membuka kunci konten ini untuk aplikasi pencarian teks lengkap dan ilmu data.

Anda juga dapat membuat keterampilan kustom untuk menyediakan pemrosesan eksternal. Kode sumber terbuka, pihak ketiga, atau pihak pertama dapat diintegrasikan ke dalam alur sebagai keterampilan kustom. Model klasifikasi yang mengidentifikasi karakteristik salient dari berbagai jenis dokumen termasuk dalam kategori ini, tetapi paket eksternal apa pun yang menambahkan nilai ke konten Anda dapat digunakan.

Kasus penggunaan untuk keterampilan bawaan

Keterampilan bawaan didasarkan pada FOUNDRY Tools API: Azure Vision dan Azure Language. Kecuali jika input konten Anda kecil, Anda diharapkan melampirkan sumber daya Microsoft Foundry yang dapat ditagih untuk menjalankan beban kerja yang lebih besar.

Set keterampilan yang dirakit menggunakan keterampilan bawaan sangat cocok untuk skenario aplikasi berikut:

  • Keterampilan pemrosesan gambar termasuk Optical Character Recognition (OCR) dan identifikasi fitur visual, seperti deteksi wajah, interpretasi gambar, pengenalan gambar (orang dan landmark terkenal), atau atribut seperti orientasi gambar. Keterampilan ini membuat representasi teks konten gambar untuk pencarian teks lengkap di Pencarian Azure AI.

  • Terjemahan mesin disediakan oleh kemampuan Terjemahan Teks, sering dipasangkan dengan deteksi bahasa untuk solusi multi-bahasa.

  • Pemrosesan bahasa alami menganalisis potongan teks. Keterampilan dalam kategori ini termasuk Pengenalan Entitas, Deteksi Sentimen (termasuk penambangan opini), dan Deteksi Informasi Pengidentifikasi Pribadi. Dengan keterampilan ini, teks yang tidak terstruktur dipetakan sebagai bidang yang dapat dicari dan dapat difilter dalam indeks.

Contoh penggunaan untuk kemampuan kustom

Keterampilan kustom menjalankan kode eksternal yang Anda berikan dan menyisipkan dalam antarmuka web keterampilan kustom. Beberapa contoh keterampilan kustom dapat ditemukan di repositori GitHub azure-search-power-skills .

Keterampilan khusus tidak selalu rumit. Misalnya, jika Anda memiliki paket yang ada yang menyediakan pencocokan pola atau model klasifikasi dokumen, Anda dapat membungkusnya dalam keterampilan kustom.

Menyimpan output

Di Pencarian Azure AI, pengindeks menyimpan output yang dibuatnya. Pengindeks tunggal dapat membuat hingga tiga struktur data yang berisi output yang diperkaya dan diindeks.

Pusat penyimpanan data Required Location Description
indeks yang dapat dicari Required layanan Pencarian Digunakan untuk pencarian teks lengkap dan formulir kueri lainnya. Menentukan indeks adalah persyaratan pengindeks. Konten indeks diisi dari output keterampilan, ditambah bidang sumber apa pun yang dipetakan langsung ke bidang dalam indeks.
penyimpanan pengetahuan Optional Azure Storage Digunakan untuk aplikasi hilir seperti penambangan pengetahuan, ilmu data, dan pencarian multimodal. Sebuah penyimpanan pengetahuan didefinisikan di dalam kumpulan keterampilan. Definisinya menentukan apakah dokumen Anda yang diperkaya diproyeksikan sebagai tabel atau objek (file atau blob) di Azure Storage. Untuk skenario pencarian multimodal, Anda dapat menyimpan gambar yang diekstrak ke penyimpanan pengetahuan dan mereferensikannya pada waktu kueri, memungkinkan gambar dikembalikan langsung ke aplikasi klien.
cache pengayaan Optional Azure Storage Digunakan untuk pengayaan cache agar dapat digunakan kembali dalam eksekusi kumpulan keterampilan berikutnya. Cache menyimpan konten yang diimpor dan tidak diproses (dokumen retak). Ini juga menyimpan dokumen yang diperkaya yang dibuat selama eksekusi rangkaian keterampilan. Penembolokan dapat sangat membantu jika Anda menggunakan analisis gambar atau OCR, dan ingin menghindari waktu dan biaya pemrosesan ulang file gambar.

Indeks dan penyimpanan pengetahuan sepenuhnya independen dari satu sama lain. Meskipun Anda harus melampirkan indeks untuk memenuhi persyaratan pengindeks, jika satu-satunya tujuan Anda adalah penyimpanan pengetahuan, Anda dapat mengabaikan indeks setelah diisi.

Menjelajahi konten

Setelah menentukan dan memuat indeks pencarian atau penyimpanan pengetahuan, Anda dapat menjelajahi datanya.

Mengkueri indeks pencarian

Jalankan kueri untuk mengakses konten yang diperkaya yang dihasilkan oleh alur. Indeks ini seperti yang mungkin Anda buat untuk Pencarian Azure AI: Anda dapat melengkapi analisis teks dengan penganalisis kustom, memanggil kueri pencarian fuzzy, menambahkan filter, atau bereksperimen dengan profil penilaian untuk menyetel relevansi pencarian.

Menggunakan alat eksplorasi data di penyimpanan pengetahuan

Di Azure Storage, penyimpanan pengetahuan dapat mengasumsikan formulir berikut: kontainer blob dokumen JSON, kontainer blob objek gambar, atau tabel di Table Storage. Anda bisa menggunakan Storage Explorer, Power BI, atau aplikasi apa pun yang tersambung ke Azure Storage untuk mengakses konten Anda.

  • Kontainer blob memuat dokumen yang telah diperkaya secara menyeluruh, yang berguna saat Anda membuat umpan untuk proses lain.

  • Tabel berguna jika Anda memerlukan irisan dokumen yang diperkaya, atau jika Anda ingin menyertakan atau mengecualikan bagian tertentu dari output. Untuk analisis di Power BI, tabel adalah sumber data yang direkomendasikan untuk eksplorasi dan visualisasi data di Power BI.

Availabilitas dan harga

Pengayaan AI tersedia di wilayah yang menawarkan Foundry Tools. Untuk memeriksa ketersediaan pengayaan AI, lihat daftar wilayah.

Penagihan mengikuti model harga Standar. Biaya yang terkait dengan keterampilan bawaan dikeluarkan ketika Anda menetapkan Azure OpenAI dalam sumber daya Foundry Models atau kunci sumber daya Foundry dalam set keterampilan. Ada juga biaya yang terkait dengan ekstraksi gambar, seperti yang diukur oleh Pencarian Azure AI. Namun, ekstraksi teks dan keterampilan penggunaan tidak bisa ditagihkan. Untuk informasi selengkapnya, lihat Bagaimana Anda dikenakan biaya untuk Pencarian Azure AI.

Daftar periksa: Alur kerja umum

Alur pengayaan terdiri dari pengindeks yang memiliki set keterampilan. Pasca-pengindeksan, Anda bisa mengkueri indeks untuk memvalidasi hasil Anda.

Mulailah dengan subkumpulan data di sumber data yang didukung. Perancangan pengindeks dan keterampilan merupakan proses berulang. Pekerjaan berjalan lebih cepat dengan himpunan data perwakilan kecil.

  1. Buat sumber data yang menentukan koneksi ke data Anda.

  2. Buat kumpulan keterampilan. Kecuali proyek Anda kecil, Anda harus melampirkan sumber daya Foundry. Jika Anda membangun penyimpanan pengetahuan, tentukan dalam set keterampilan.

  3. Buat skema indeks yang menentukan indeks pencarian.

  4. Buat dan jalankan pengindeks untuk menggabungkan semua komponen sebelumnya. Langkah ini mengambil data, menjalankan skillset, dan memuatkan indeks.

    Pengindeks juga merupakan tempat Anda menentukan pemetaan bidang dan pemetaan bidang output yang menyiapkan jalur data ke indeks pencarian.

    Secara opsional, aktifkan cache pengayaan dalam konfigurasi pengindeksan. Langkah ini memungkinkan Anda untuk menggunakan kembali pengayaan yang ada nanti.

  5. Jalankan kueri untuk mengevaluasi hasil atau memulai sesi debug untuk mengatasi masalah set keterampilan apa pun.

Untuk mengulangi salah satu langkah sebelumnya, reset pengindeks sebelum Anda menjalankannya. Atau, Anda dapat menghapus dan membuat ulang objek pada setiap eksekusi (disarankan jika Anda menggunakan tingkat gratis). Jika Anda mengaktifkan penyimpanan cache, pengindeks mengambil data dari cache jika data sumber tidak berubah dan jika pengeditan Anda pada pengolahan data tidak menyebabkan cache menjadi tidak valid.

Langkah selanjutnya