Pengambilan berbasis agen dalam Pencarian Azure AI

Catatan

Beberapa fitur pengambilan agenik umumnya tersedia di REST API 2026-04-01 melalui akses terprogram. Portal Azure dan portal Microsoft Foundry terus menyediakan akses khusus pratinjau ke semua fitur pengambilan agenik. Untuk panduan migrasi, termasuk perincian tentang apa yang tersedia secara umum dan apa yang tetap ada dalam pratinjau, lihat Memigrasikan kode pengambilan agenik ke versi terbaru.

Jika Anda memilih menggunakan REST API pratinjau, Anda dapat mengakses kapabilitas pengambilan agentik yang belum tersedia untuk umum. Fitur pratinjau disediakan tanpa perjanjian tingkat layanan dan tidak disarankan untuk beban kerja produksi. Untuk informasi lebih lanjut, lihat Supplemental Terms of Use for Microsoft Azure Previews.

Important

Fitur dan fungsionalitas ini adalah bagian dari REST API pratinjau 2026-05-01. Pratinjau 2026-05-01 dilisensikan kepada Anda sebagai bagian dari langganan Azure Anda dan tunduk pada persyaratan yang berlaku untuk "Pratinjau" dalam Ketentuan Produk Microsoft, Adendum Perlindungan Data Produk dan Layanan Microsoft ("DPA"), dan Ketentuan Penggunaan Supplemental untuk Pratinjau Microsoft Azure.

Versi pratinjau 2026-05-01 mendukung koneksi ke layanan Microsoft dan layanan pihak ketiga. Penggunaan layanan ini tunduk pada persyaratan masing-masing dan dapat mengakibatkan pemrosesan data atau penyimpanan di luar batas kepatuhan Azure, serta data yang mengalir ke batas kepatuhan Azure.

Anda bertanggung jawab untuk mengelola apakah data Anda akan mengalir di luar batas kepatuhan dan geografis organisasi Anda dan implikasi terkait, dan bahwa izin, batas, dan persetujuan yang sesuai disediakan.

Anda bertanggung jawab untuk meninjau dan menguji aplikasi yang Anda buat dengan cermat dalam konteks kasus penggunaan spesifik Anda dan membuat semua keputusan dan penyesuaian yang sesuai. Ini termasuk menerapkan mitigasi AI Anda sendiri yang bertanggung jawab, seperti metaprompts, filter konten, atau sistem keamanan lainnya, dan memastikan aplikasi Anda memenuhi standar kualitas, keandalan, keamanan, dan kepercayaan yang sesuai. Untuk informasi selengkapnya, lihat Catatan Transparansi Pencarian Azure AI.

Dalam Pencarian Azure AI, pengambilan agentic adalah rangkaian multi-kueri yang dirancang untuk pertanyaan kompleks yang diajukan oleh pengguna atau agen perangkat lunak dalam aplikasi obrolan dan aplikasi copilot. Ini ditujukan untuk pola retrieval-augmented generation (RAG) dan alur kerja agen-ke-agen.

Berikut adalah apa yang dilakukannya:

  • Dapat menggunakan model bahasa besar (LLM) untuk memecah kueri kompleks menjadi subkueri yang lebih kecil dan terfokus untuk cakupan yang lebih baik daripada konten eksklusif dan eksternal. Subkueri dapat menyertakan riwayat obrolan untuk konteks tambahan.

  • Menjalankan subkueri secara paralel. Setiap subkueri diurutkan ulang secara semantik untuk mengutamakan kecocokan yang paling relevan.

  • Menggabungkan hasil terbaik ke dalam respons terpadu yang dapat digunakan LLM untuk menghasilkan jawaban dasar.

  • Dapat mengembalikan referensi sumber dan log aktivitas beserta konten gabungan, sehingga Anda dapat menggunakan data grounding saja atau meneruskannya ke LLM untuk mendapatkan jawaban lengkap.

Alur berkinerja tinggi ini membantu Anda menghasilkan data grounding berkualitas tinggi atau jawaban untuk aplikasi obrolan Anda, dengan kemampuan untuk menjawab pertanyaan kompleks dengan cepat.

Mengapa menggunakan penelusuran berbasis agen?

Ada dua kasus penggunaan untuk pengambilan agentik. Pertama, ini mendukung Foundry IQ di portal Microsoft Foundry dengan menyediakan lapisan pengetahuan untuk solusi agen. Kedua, ini adalah dasar untuk solusi agenik kustom yang Anda buat menggunakan API Pencarian Azure AI.

Gunakan penelusuran agentik saat Anda ingin menyediakan konten yang paling relevan bagi agen dan aplikasi untuk menjawab pertanyaan yang lebih sulit, dengan memanfaatkan konteks chat, konten proprietari Anda, dan sumber eksternal.

Retrieval agentik menimbulkan latensi lebih tinggi dibandingkan dengan pipeline kueri tunggal, tetapi dapat menangani kompleksitas kueri yang tidak dapat ditangani oleh pipeline kueri tunggal. Misalnya, ia dapat menangani:

  • Pertanyaan dengan beberapa permintaan, seperti "carikan saya hotel di dekat pantai, dengan layanan antar-jemput bandara, dan yang dapat ditempuh dengan berjalan kaki dari restoran vegetarian."

  • Pertanyaan yang bergantung pada konteks sebelumnya dalam percakapan.

  • Kueri yang mendapat manfaat dari penulisan ulang, menggunakan peta sinonim dan parafrase yang dihasilkan LLM untuk memperluas cakupan di seluruh konten Anda.

  • Kesalahan ejaan.

Diagram kueri kompleks memperlihatkan bagaimana pengambilan agenik menangani konteks tersirat dan kesalahan ketik yang disengaja.

Arsitektur dan alur kerja

Proses pengambilan agenik berfungsi sebagai berikut:

  1. Inisiasi alur kerja: Aplikasi Anda memanggil pangkalan pengetahuan dengan tindakan ambil yang menyediakan riwayat kueri dan percakapan.

  2. Perencanaan kueri: Pada tingkat upaya penalaran pengambilan low dan medium, basis pengetahuan mengirimkan kueri dan riwayat percakapan Anda ke LLM, yang menghasilkan subkueri yang terfokus. Pada upaya minimal, langkah ini dilewati dan kueri dikirimkan langsung ke sumber pengetahuan. Upaya penalaran secara default adalah low dan dikonfigurasi di basis pengetahuan.

  3. Eksekusi kueri: Pangkalan pengetahuan mengirimkan subkueri ke sumber pengetahuan Anda. Semua subkueri berjalan secara bersamaan dan dapat berupa kata kunci, vektor, atau pencarian hibrid. Setiap subkueri menjalani reranking semantik untuk menemukan kecocokan yang paling relevan. Referensi diekstrak dan dipertahankan untuk tujuan kutipan.

  4. Sintesis hasil: Sistem menggabungkan semua hasil ke dalam respons terpadu. Konten yang digabungkan selalu dikembalikan. Referensi sumber dan log aktivitas eksekusi bersifat opsional.

Diagram alur kerja pengambilan data agenik menggunakan contoh pencarian.

Components

Untuk semua skenario pengambilan agenik, pangkalan pengetahuan dan setidaknya satu sumber pengetahuan diperlukan. Komponen lain bersifat opsional dan bergantung pada konfigurasi Anda.

Komponen Layanan Peran
Basis Pengetahuan Pencarian Azure AI Mengatur alur, mengelola sumber pengetahuan, dan parameter kueri.
Sumber pengetahuan Pencarian Azure AI Menentukan konten yang digunakan dalam alur. Dapat diindeks (didukung oleh indeks pencarian pada layanan Anda) atau jarak jauh (konten yang diambil pada waktu kueri dari platform eksternal).
Indeks pencarian Pencarian Azure AI Menyimpan konten yang dapat dicari (teks dan vektor) dengan konfigurasi semantik. Menentukan jenis kueri mana yang berjalan dan pengoptimalan mana yang berlaku. Diperlukan untuk sumber pengetahuan terindeks saja.
Peringkat Semantik Pencarian Azure AI Digunakan secara internal oleh pipeline penelusuran agentic untuk menyusun ulang peringkat hasil berdasarkan relevansi (reranking L2).
LLM Azure OpenAI Menyusun kueri dan memilih sumber pengetahuan. Digunakan hanya pada tingkat upaya penalaran pengambilan low dan medium. Dilewati dengan minimal usaha.

Persyaratan integrasi

Aplikasi Anda mendorong alur dengan memanggil pangkalan pengetahuan dan menangani respons. Alur mengembalikan data grounding yang dapat Anda teruskan ke LLM untuk pembuatan jawaban atau digunakan langsung di antarmuka percakapan Anda. Untuk detail implementasi, lihat Tutorial: Membangun solusi pengambilan berbasis agen end-to-end.

Ketersediaan dan harga

Pengambilan agenik tersedia di wilayah tertentu. Sumber pengetahuan dan pangkalan pengetahuan juga memiliki batas maksimum yang bervariasi menurut tingkat harga dan upaya penalaran pengambilan.

Penagihan

Pengambilan agenik dikenakan biaya dari dua layanan:

  • Pencarian Azure AI menagih untuk token pengambilan yang dikonsumsi selama pelaksanaan subkueri dan peringkat semantik. Paket gratis (default) menyediakan jatah token bulanan. Paket standar memungkinkan harga bayar sesuai pemakaian setelah tunjangan gratis digunakan. Untuk informasi selengkapnya, lihat Aktifkan atau nonaktifkan penagihan pengambilan agentik.

  • Azure OpenAI menagih untuk token input dan output yang digunakan dalam perencanaan kueri berbasis LLM dan sintesis jawaban. Harga selalu berbayar sesuai penggunaan dan berdasarkan model yang Anda tetapkan ke pangkalan pengetahuan. Biaya muncul pada tagihan OpenAI Azure Anda. Untuk tarif, lihat harga Azure OpenAI.

Tabel berikut membandingkan penagihan antara alur kueri tunggal klasik dan alur multi-kueri pengambilan agenik. Dalam alur klasik, komponen yang dapat ditagih adalah peringkat semantik.

Aspek Alur klasik Pengambilan Berbasis Agensi
Unit Berbasis permintaan Berbasis token
Biaya per unit Biaya seragam per kueri Biaya variabel per token (tergantung pada upaya penalaran)
Estimasi biaya Memperkirakan jumlah kueri Memperkirakan penggunaan token
Tunjangan gratis Jatah kueri gratis bulanan Tunjangan token gratis bulanan

Contoh: Memperkirakan biaya

Contoh ini membantu mengilustrasikan proses estimasi biaya untuk perencanaan kueri dan eksekusi kueri, tetapi tidak menjawab sintesis. Biaya Anda bisa lebih rendah. Untuk tarif saat ini, lihat harga Pencarian Azure AI dan harga Azure OpenAI.

Untuk memperkirakan biaya rencana kueri sebagai bayar sesuai penggunaan di Azure OpenAI, mari kita asumsikan gpt-4o-mini:

  • 15 sen untuk 1 juta token input.
  • 60 sen untuk 1 juta token output.
  • 2.000 token input untuk ukuran percakapan rata-rata.
  • 350 token untuk ukuran rata-rata rencana keluaran.

Estimasi biaya penagihan untuk pelaksanaan kueri

Untuk memperkirakan jumlah token pengambilan agenik, mulailah dengan gambaran seperti apa dokumen rata-rata dalam indeks Anda. Misalnya, Anda mungkin memperkirakan:

  • 10.000 potongan, di mana setiap gugus adalah satu hingga dua paragraf PDF.
  • 500 token per potongan.
  • Setiap subkueri melakukan pengurutan ulang hingga 50 potongan.
  • Rata-rata, ada tiga subkueri untuk setiap rencana kueri.

Menghitung harga eksekusi

  1. Asumsikan kami melakukan 2.000 pengambilan data agen dengan tiga subkueri per rencana. Ini menghasilkan sekitar 6.000 total kueri.

  2. Rerank 50 potongan per subkueri, yaitu total 300.000 potongan.

  3. Potongan rata-rata adalah 500 token, sehingga total token untuk reranking adalah 150 juta.

  4. Mengingat harga hipotetis 0,022 per token, $3,30 adalah total biaya untuk pengurutan ulang dalam mata uang dolar AS.

  5. Beralih ke biaya rencana kueri: 2.000 token input dikalikan dengan 2.000 pengambilan agenik sama dengan 4 juta token input dengan total 60 sen.

  6. Perkirakan biaya output berdasarkan rata-rata 350 token. Jika kita mengalikan 350 dengan 2.000 pengambilan data oleh agen, kita mendapatkan total 700.000 token output dengan biaya total 42 sen.

Menggabungkan semuanya, Anda akan membayar sekitar $3,30 untuk pengambilan agentik di Pencarian Azure AI, 60 sen untuk token input di Azure OpenAI, dan 42 sen untuk token output di Azure OpenAI, dengan total perencanaan kueri sebesar $1,02. Biaya gabungan untuk eksekusi penuh adalah $4,32.

Tips untuk mengontrol biaya

  • Tinjau log aktivitas dalam respons untuk mengetahui kueri apa yang dikeluarkan untuk sumber dan parameter mana yang digunakan. Anda dapat membuat ulang kueri tersebut terhadap indeks Anda dan menggunakan tokenizer publik untuk memperkirakan token dan membandingkan dengan penggunaan yang dilaporkan API. Namun, rekonstruksi kueri atau respons yang tepat tidak dijamin. Faktor-faktor termasuk jenis sumber pengetahuan, seperti data web publik atau sumber pengetahuan SharePoint jarak jauh yang berpredikat pada identitas pengguna, yang dapat memengaruhi reproduksi kueri.

  • Mengurangi jumlah sumber pengetahuan (indeks); mengonsolidasikan konten dapat menurunkan volume fan-out dan token.

  • Turunkan upaya penalaran untuk mengurangi penggunaan LLM selama perencanaan kueri dan perluasan kueri (pencarian iteratif).

  • Atur konten sehingga informasi yang paling relevan dapat ditemukan dengan lebih sedikit sumber dan dokumen (misalnya, ringkasan atau tabel yang dikumpulkan).

Cara memulai

Untuk membuat solusi pengambilan agenik, Anda dapat menggunakan portal Azure, portal Microsoft Foundry (baru), REST API, atau paket Azure SDK yang setara.

Langkah berikutnya