Bagikan melalui


Pengambilan agenik di Azure AI Search

Nota

Fitur ini saat ini dalam pratinjau publik. Pratinjau ini disediakan tanpa perjanjian tingkat layanan dan tidak direkomendasikan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan terbatas. Untuk informasi lebih lanjut, lihat Supplemental Terms of Use for Microsoft Azure Previews.

Apa itu pengambilan agenik? Di Azure AI Search, pengambilan agentik adalah alur multi-kueri baru yang dirancang untuk pertanyaan kompleks yang diajukan oleh pengguna atau agen di aplikasi obrolan dan copilot. Ini ditujukan untuk mengambil pola Augmented Generation (RAG) dan alur kerja agen-ke-agen.

Berikut adalah apa yang dilakukannya:

  • Menggunakan model bahasa besar (LLM) untuk memecah kueri kompleks menjadi subkueri yang lebih kecil dan terfokus untuk cakupan yang lebih baik atas konten terindeks Anda. Subkueri dapat menyertakan riwayat obrolan untuk konteks tambahan.

  • Menjalankan subkueri secara paralel. Setiap subkueri dirankam ulang secara semantik untuk mempromosikan kecocokan yang paling relevan.

  • Menggabungkan hasil terbaik ke dalam respons terpadu yang dapat digunakan LLM untuk menghasilkan jawaban dengan konten milik Anda.

  • Responsnya modular namun komprehensif dalam bagaimana ia juga menyertakan rencana kueri dan dokumen sumber. Anda dapat memilih untuk hanya menggunakan hasil pencarian sebagai data dasar, atau memanggil LLM untuk merumuskan jawaban.

Alur berkinerja tinggi ini membantu Anda menghasilkan data grounding berkualitas tinggi (atau jawaban) untuk aplikasi obrolan Anda, dengan kemampuan untuk menjawab pertanyaan kompleks dengan cepat.

Secara terprogram, pengambilan agenik didukung melalui objek Pangkalan Pengetahuan baru di pratinjau 2025-11-01 dan dalam paket pratinjau Azure SDK yang menyediakan fitur tersebut. Respon pengambilan dari basis pengetahuan dirancang untuk digunakan lebih lanjut oleh aplikasi obrolan dan agen lainnya.

Mengapa menggunakan pengambilan agenik

Anda harus menggunakan pencarian berbasis agen saat ingin menyediakan konten yang paling relevan kepada agen dan aplikasi untuk menjawab pertanyaan yang lebih sulit, dengan memanfaatkan konteks obrolan dan konten milik Anda.

Aspek agenik adalah langkah penalaran dalam pemrosesan perencanaan kueri yang dilakukan oleh model bahasa besar (LLM) yang didukung yang Anda sediakan. LLM menganalisis seluruh utas obrolan untuk mengidentifikasi kebutuhan informasi yang mendasar. Alih-alih satu kueri catch-all, LLM memecah pertanyaan majemuk menjadi subkueri yang difokuskan berdasarkan: pertanyaan pengguna, riwayat obrolan, dan parameter pada permintaan. Subkueri menargetkan dokumen terindeks Anda (teks biasa dan vektor) di Azure AI Search. Pendekatan hibrid ini memastikan Anda menampilkan kecocokan kata kunci dan kesamaan semantik sekaligus, secara dramatis meningkatkan pengenalan.

Komponen pengambilan adalah kemampuan untuk menjalankan subkueri secara bersamaan, menggabungkan hasil, memberi peringkat hasil secara semantik, dan mengembalikan respons tiga bagian yang mencakup data grounding untuk giliran percakapan berikutnya, mereferensikan data sehingga Anda dapat memeriksa konten sumber, dan rencana aktivitas yang menunjukkan langkah-langkah eksekusi kueri.

Ekspansi kueri dan eksekusi paralel, ditambah respons pengambilan, adalah kemampuan utama pengambilan agenik yang menjadikannya pilihan terbaik untuk aplikasi AI (RAG) generatif.

Diagram kueri kompleks dengan konteks tersirat dan kesalahan ketik yang disengaja.

Pengambilan secara agentik menambahkan latensi pada pemrosesan kueri, tetapi mengimbanginya dengan menambahkan kemampuan-kemampuan berikut:

  • Memproses riwayat obrolan sebagai input ke dalam rangkaian pengambilan.
  • Membongkar kueri kompleks yang berisi beberapa "pertanyaan" menjadi komponen-komponen. Misalnya: "temukan untuk saya hotel di dekat pantai, dengan layanan transportasi ke bandara, dan dalam jarak yang dapat ditempuh dengan berjalan kaki dari restoran vegetarian."
  • Menulis ulang kueri asli menjadi beberapa subkueri menggunakan peta sinonim (opsional) dan parafrasing yang dihasilkan LLM.
  • Mengoreksi kesalahan ejaan.
  • Menjalankan semua subkueri secara bersamaan.
  • Menghasilkan hasil terpadu sebagai string tunggal. Atau, Anda dapat mengekstrak bagian respons untuk solusi Anda. Metadata tentang eksekusi kueri dan data referensi disertakan dalam respons.

Pengambilan agenik memanggil seluruh alur pemrosesan kueri beberapa kali untuk setiap subkueri, tetapi melakukannya secara paralel, mempertahankan efisiensi dan performa yang diperlukan untuk pengalaman pengguna yang wajar.

Nota

Menyertakan LLM dalam perencanaan kueri menambahkan latensi ke alur kueri. Anda dapat mengurangi efek dengan menggunakan model yang lebih cepat, seperti gpt-4o-mini, dan meringkas utas pesan. Anda dapat meminimalkan latensi dan biaya dengan mengatur properti yang membatasi pemrosesan LLM. Anda juga dapat mengecualikan pemrosesan LLM sama sekali hanya untuk pencarian teks dan hibrid dan logika perencanaan kueri Anda sendiri.

Arsitektur dan alur kerja

Pengambilan berbasis agen dirancang untuk pengalaman pencarian percakapan yang menggunakan LLM untuk memecah kueri kompleks dengan cerdas. Sistem mengoordinasikan beberapa layanan Azure untuk memberikan hasil pencarian yang komprehensif.

Diagram alur kerja pengambilan agenik menggunakan contoh kueri.

Cara kerjanya

Proses pengambilan kembali yang dikendalikan berfungsi sebagai berikut:

  1. Inisiasi alur kerja: Aplikasi Anda memanggil pangkalan pengetahuan dengan aksi pengambilan yang menyediakan kueri dan riwayat percakapan.

  2. Perencanaan kueri: Pangkalan pengetahuan mengirimkan kueri dan riwayat percakapan Anda ke LLM, yang menganalisis konteks dan memecah pertanyaan kompleks menjadi subkueri yang berfokus. Langkah ini otomatis dan tidak dapat disesuaikan.

  3. Eksekusi kueri: Pangkalan pengetahuan mengirimkan subkueri ke sumber pengetahuan Anda. Semua subkueri berjalan secara bersamaan dan dapat berupa kata kunci, vektor, dan pencarian hibrid. Setiap subkueri menjalani reranking semantik untuk menemukan kecocokan yang paling relevan. Referensi diekstrak dan dipertahankan untuk tujuan kutipan.

  4. Sintesis hasil: Sistem menggabungkan semua hasil ke dalam respons terpadu dengan tiga bagian: konten gabungan, referensi sumber, dan detail eksekusi.

Indeks pencarian Anda menentukan eksekusi kueri dan pengoptimalan apa pun yang terjadi selama eksekusi kueri. Secara khusus, jika indeks Anda menyertakan bidang teks dan vektor yang dapat dicari, kueri hibrid akan dijalankan. Jika satu-satunya bidang yang dapat dicari adalah bidang vektor, maka hanya pencarian vektor murni yang digunakan. Konfigurasi semantik indeks, ditambah profil penilaian opsional, peta sinonim, penganalisis, dan normalizer (jika Anda menambahkan filter) semuanya digunakan selama eksekusi kueri. Anda harus menamai default untuk konfigurasi semantik dan profil penilaian.

Komponen yang Diperlukan

Komponen Pelayanan Role
LLM Azure OpenAI Membuat subkueri dari konteks percakapan dan kemudian menggunakan data dasar untuk pembuatan jawaban
Pangkalan pengetahuan Pencarian Azure AI Mengatur alur, menyambungkan ke LLM Anda dan mengelola parameter kueri
Sumber pengetahuan Pencarian Azure AI Membungkus indeks pencarian dengan properti yang berkaitan dengan penggunaan pangkalan pengetahuan
Indeks pencarian Pencarian Azure AI Menyimpan konten yang dapat dicari (teks dan vektor) dengan konfigurasi semantik
Pemeringkat semantik Pencarian Azure AI Komponen yang dibutuhkan untuk menyusun ulang hasil berdasarkan relevansi (penyusunan ulang L2)

Persyaratan integrasi

Aplikasi Anda mendorong alur dengan memanggil pangkalan pengetahuan dan menangani respons. Jalur pemrosesan menyediakan kembali data dasar yang Anda teruskan ke LLM untuk pembuatan jawaban di antarmuka percakapan Anda. Untuk detail implementasi, lihat Tutorial: Membangun solusi pengambilan agen end-to-end.

Nota

Hanya model seri gpt-4o, gpt-4.1, dan gpt-5 yang didukung untuk perencanaan kueri. Anda dapat menggunakan model apa pun untuk pembuatan jawaban akhir.

Cara memulai

Untuk membuat solusi pengambilan berbasis agen, Anda dapat menggunakan portal Azure, REST API pratinjau terbaru, atau paket SDK Azure pratinjau yang menyediakan fungsionalitas.

Saat ini, portal hanya mendukung pembuatan indeks pencarian dan sumber pengetahuan blob. Jenis sumber pengetahuan lainnya harus dibuat secara terprogram.

Ketersediaan dan harga

Pengambilan berbasis agen tersedia di wilayah yang dipilih. Sumber pengetahuan dan pangkalan pengetahuan juga memiliki batas maksimum yang bervariasi menurut tingkat layanan.

Ini memiliki dependensi pada fitur premium. Jika Anda menonaktifkan ranker semantik untuk layanan pencarian Anda, Anda secara efektif menonaktifkan proses pengambilan informasi berbasis agen.

Plan Description
Gratis Layanan pencarian tingkat gratis menyediakan 50 juta token penalaran agenik gratis per bulan. Pada tingkat yang lebih tinggi, Anda dapat memilih antara paket gratis (default) dan paket standar.
Standar Paket standar adalah harga bayar sesuai pemakaian setelah kuota gratis bulanan digunakan. Setelah kuota gratis habis, Anda dikenakan biaya tambahan untuk setiap tambahan satu juta token penalaran agenik. Anda tidak diberi tahu ketika transisi terjadi. Untuk informasi selengkapnya tentang biaya berdasarkan mata uang, lihat halaman harga Azure AI Search.

Penagihan berbasis token untuk perencanaan kueri berbasis LLM dan sintesis jawaban (bersifat opsional) menggunakan metode bayar sesuai penggunaan di Azure OpenAI. Sistem ini menggunakan token untuk kedua jenis token, yaitu input dan output. Model yang Anda tetapkan ke pangkalan pengetahuan adalah model yang dikenakan biaya untuk penggunaan token. Misalnya, jika Anda menggunakan gpt-4o, biaya token muncul di tagihan untuk gpt-4o.

Penagihan berbasis token untuk pengambilan data agen adalah jumlah token yang dikembalikan oleh setiap subkueri.

Aspek Alur kueri tunggal klasik Alur multi-kueri pengambilan agenik
Unit Berbasis kueri (1.000 kueri) per unit mata uang Berbasis token (1 juta token per unit mata uang)
Biaya per unit Biaya seragam per kueri Biaya seragam per token
Perkiraan biaya Memperkirakan jumlah kueri Memperkirakan penggunaan token
Tingkatan gratis 1.000 kueri gratis 50 juta token gratis

Contoh: Memperkirakan biaya

Pengambilan agenik memiliki dua model penagihan: penagihan dari Azure OpenAI (perencanaan kueri dan, jika diaktifkan, jawab sintesis) dan penagihan dari Azure AI Search untuk pengambilan agenik.

Contoh harga ini menghilangkan sintesis jawaban, tetapi membantu menggambarkan proses estimasi. Biaya Anda dapat lebih rendah. Untuk harga transaksi aktual, lihat Harga Azure OpenAI.

Estimasi biaya penagihan untuk perencanaan kueri

Untuk memperkirakan biaya paket kueri sebagai bayar sesuai penggunaan di Azure OpenAI, mari kita asumsikan gpt-4o-mini:

  • 15 sen untuk 1 juta token input.
  • 60 sen untuk 1 juta token output.
  • 2.000 token masukan untuk ukuran rata-rata percakapan obrolan.
  • 350 token untuk ukuran rencana output rata-rata.

Estimasi biaya yang akan ditagih untuk pelaksanaan kueri

Untuk memperkirakan jumlah token pengambilan kembali agential, mulailah dengan gambaran rata-rata dokumen dalam indeks Anda. Misalnya, Anda mungkin memperkirakan:

  • 10.000 potongan, di mana setiap gugus adalah satu hingga dua paragraf PDF.
  • 500 token per potongan.
  • Setiap subkueri melakukan peringkat ulang hingga 50 potongan.
  • Rata-rata, ada tiga subkueri per rencana kueri.

Menghitung harga eksekusi

  1. Misalkan kita melakukan 2.000 pengambilan agenik dengan tiga subkueri per rencana. Ini menunjukkan bahwa kita memiliki total sekitar 6.000 kueri.

  2. Rerank 50 potongan per subkueri, yaitu 300.000 total potongan.

  3. Potongan rata-rata adalah 500 token, sehingga total token untuk reranking adalah 150 juta.

  4. Mengingat harga hipotetis 0,022 per token, $3,30 adalah total biaya untuk reranking dalam mata uang dolar AS.

  5. Beralih ke biaya rencana kueri: 2.000 token input dikalikan dengan 2.000 pengambilan agenik sama dengan 4 juta token input dengan total 60 sen.

  6. Perkirakan biaya output berdasarkan rata-rata 350 token. Jika kita mengalikan 350 dengan 2.000 pengambilan agenik, kita mendapatkan total 700.000 token output dengan total 42 sen.

Menyatukan semuanya, Anda akan membayar sekitar $3,30 untuk pengambilan agen di Azure AI Search, 60 sen untuk token input di Azure OpenAI, dan 42 sen untuk token output di Azure OpenAI, sehingga total perencanaan kueri adalah $1,02. Biaya gabungan untuk eksekusi penuh adalah $4,32.

Tips untuk mengontrol biaya

  • Tinjau log aktivitas dalam respons untuk mengetahui kueri apa yang dikeluarkan untuk sumber dan parameter mana yang digunakan. Anda dapat membuat ulang kueri tersebut terhadap indeks Anda dan menggunakan tokenizer publik untuk memperkirakan token dan membandingkan dengan penggunaan yang dilaporkan API. Meskipun demikian, rekonstruksi kueri atau respons yang tepat tidak dapat dijamin. Faktor-faktor termasuk jenis sumber pengetahuan, seperti data web publik atau sumber pengetahuan SharePoint jarak jauh yang berpredikat pada identitas pengguna, yang dapat memengaruhi reproduksi kueri.

  • Mengurangi jumlah sumber pengetahuan (indeks); mengonsolidasikan konten dapat menurunkan volume fan-out dan token.

  • Kurangi upaya penalaran untuk mengurangi penggunaan LLM selama perencanaan dan perluasan kueri (pencarian berulang).

  • Atur konten sehingga informasi yang paling relevan dapat ditemukan dengan lebih sedikit sumber dan dokumen (Misalnya, ringkasan atau tabel yang dikumpulkan).