Konsep Agen Data Fabric

Agen Data dalam Microsoft Fabric adalah fitur yang tersedia secara umum yang memungkinkan Anda membangun sistem Tanya Jawab percakapan Anda sendiri dengan menggunakan AI Generatif. Agen Data Fabric membuat wawasan data lebih mudah diakses dan ditindaklanjuti oleh semua orang di organisasi Anda. Dengan menggunakan agen data Fabric, tim Anda dapat melakukan percakapan, dengan pertanyaan bahasa Inggris biasa, tentang data yang disimpan organisasi Anda di Fabric OneLake lalu menerima jawaban yang relevan. Dengan cara ini, bahkan orang tanpa keahlian teknis dalam AI atau pemahaman mendalam tentang struktur data dapat menerima jawaban yang tepat dan kaya konteks. Dalam arsitektur aplikasi berbasis agen yang lebih luas di Microsoft Fabric, agen data berfungsi sebagai komponen analitik percakapan data, menghubungkan data yang diatur di OneLake melalui lakehouse, gudang data, model semantik, dan database KQL dalam solusi multi-agen.

Anda juga dapat menambahkan instruksi, contoh, dan panduan khusus organisasi untuk menyempurnakan agen data Fabric. Pendekatan ini memastikan bahwa respons selaras dengan kebutuhan dan tujuan organisasi Anda, memungkinkan semua orang untuk terlibat dengan data secara lebih efektif. Fabric agen data menumbuhkan budaya pengambilan keputusan berbasis data karena menurunkan hambatan pada aksesibilitas wawasan, memfasilitasi kolaborasi, dan membantu organisasi Anda mengekstrak lebih banyak nilai dari datanya.

Prasyarat

Prasyarat tata kelola

Jika penyewa atau ruang kerja Anda diatur oleh kebijakan Microsoft Purview, agen harus beroperasi dalam kebijakan tersebut. Kebijakan Purview berikut dapat membatasi akses agen dan hasil yang dikembalikan agen, berdasarkan sensitivitas dan konfigurasi kebijakan:

  • Kebijakan DLP Purview dalam Fabric Data Warehouse (umumnya tersedia): Kebijakan DLP dapat mendeteksi dan membatasi akses ke data sensitif di aset data warehouse yang dikueri agen.
  • Kebijakan pembatasan akses (pratinjau) untuk Fabric KQL Database, Fabric SQL Database, dan Fabric Data Warehouse: Kebijakan ini dapat mencegah agen mengakses atau mengambil hasil dari aset yang diklasifikasikan sebagai sensitif.

Cara kerja agen data Fabric

Agen data Fabric menggunakan model bahasa besar (LLM) untuk membantu pengguna berinteraksi dengan data mereka secara alami. Agen data Fabric menerapkan Azure OpenAI Assistant API dan berulah seperti agen. Ini memproses pertanyaan pengguna, menentukan sumber data yang paling relevan (Lakehouse, Gudang, himpunan data Power BI, database KQL, ontologi, atau Microsoft Graph), dan memanggil alat yang sesuai untuk menghasilkan, memvalidasi, dan menjalankan kueri. Pengguna kemudian dapat mengajukan pertanyaan dalam bahasa biasa dan menerima jawaban yang terstruktur dan dapat dibaca manusia. Pendekatan ini menghilangkan kebutuhan untuk menulis kueri yang kompleks dan memastikan akses data yang akurat dan aman.

Berikut cara kerjanya secara rinci:

Penguraian dan validasi pertanyaan: Agen data Fabric menerapkan API Asisten Azure OpenAI sebagai agen yang mendasarinya untuk memproses pertanyaan pengguna. Pendekatan ini memastikan bahwa pertanyaan mematuhi protokol keamanan, kebijakan AI (RAI) yang bertanggung jawab, dan izin pengguna. Agen data Fabric juga menghormati kontrol tata kelola Microsoft Purview yang diterapkan pada sumber data Fabric yang mendasar, termasuk Pencegahan Kehilangan Data (DLP) dan kebijakan pembatasan akses. Penegakan kebijakan mungkin mencegah kueri tertentu berjalan atau data tertentu muncul sebagai respons. Agen data Fabric secara ketat memberlakukan akses baca-saja, mempertahankan koneksi data baca-saja ke semua sumber data.

Mekanisme Penegakan: Agen data Fabric menerapkan beberapa lapisan perlindungan selama proses. Ini menggunakan kredensial dan izin pengguna yang meminta untuk menerapkan akses hak minimal, memastikan bahwa setiap interaksi hanya mencapai data yang pengguna diizinkan untuk melihat. Agen mengevaluasi permintaan terhadap pengaturan kebijakan penyewa dan ruang kerja sebelum menjalankan tindakan apa pun. Pagar pembatas membatasi pemanggilan alat dan output ke sumber data terlingkup, mencegah kueri mencapai sumber daya di luar cakupan yang dikonfigurasi. Anda dapat secara opsional mengintegrasikan Keamanan Konten Azure AI untuk menerapkan kontrol risiko konten yang membantu mengurangi respons berbahaya atau di luar kebijakan.

Identifikasi sumber data: Agen data Fabric menggunakan kredensial pengguna untuk mengakses skema sumber data. Pendekatan ini memastikan bahwa sistem mengambil informasi struktur data yang memiliki izin untuk dilihat pengguna. Agen kemudian mengevaluasi pertanyaan pengguna terhadap semua sumber data yang tersedia, termasuk database relasional (Lakehouse dan Gudang), Power BI himpunan data (Model Semantik), database KQL (termasuk Eventhouse), ontologi, dan Microsoft Graph. Ini mungkin juga mereferensikan instruksi agen data yang disediakan pengguna untuk menentukan sumber data yang paling relevan. Untuk model semantik Power BI, agen menggunakan izin Baca pengguna pada model untuk mengambil skema dan metadata untuk pembuatan kueri; Izin build tidak diperlukan untuk kueri berbasis agen.

Tool pemanggilan dan pembuatan kueri: Setelah sumber atau sumber data yang benar diidentifikasi, agen data Fabric mengulangi pertanyaan untuk kejelasan dan struktur, lalu memanggil alat yang sesuai untuk menghasilkan kueri terstruktur:

  • Transformasi dari Bahasa Natural ke SQL (NL2SQL) untuk database relasional (Lakehouse/Warehouse).
  • Bahasa alami ke DAX (NL2DAX) untuk himpunan data Power BI (Model Semantik).
  • Konversi bahasa alami ke KQL (NL2KQL) untuk database KQL. NL2KQL dapat menggunakan fungsi yang ditentukan pengguna (UDF) KQL saat tersedia di database yang dipilih. NL2KQL dapat dijalankan pada database KQL Eventhouse untuk data peristiwa atau deret waktu, baik secara langsung maupun historis, dan filter waktu KQL standar serta pola deret waktu juga didukung.
  • Permintaan Microsoft Graph untuk data organisasi yang dapat diakses melalui Microsoft Graph.

Alat yang dipilih menghasilkan kueri berdasarkan skema, metadata, dan konteks yang disediakan, lalu diteruskan oleh agen data Fabric.

Validasi kueri: Alat ini melakukan validasi untuk memastikan kueri terbentuk dengan benar dan mematuhi protokol keamanan dan kebijakan RAI-nya sendiri.

Kueri eksekusi dan respons: Setelah divalidasi, agen data Fabric menjalankan kueri terhadap sumber data yang dipilih. Hasilnya diformat ke dalam respons yang dapat dibaca manusia, yang mungkin menyertakan data terstruktur seperti tabel, ringkasan, atau wawasan utama.

Dengan menggunakan pendekatan ini, pengguna dapat berinteraksi dengan data mereka dengan menggunakan bahasa alami. Agen data Fabric menangani kompleksitas pembuatan kueri, validasi, dan eksekusi. Pengguna tidak perlu menulis SQL, DAX, atau KQL itu sendiri.

Keamanan dan tata kelola dengan Microsoft Purview

Microsoft Purview menyediakan kontrol tata kelola dan risiko untuk agen data Fabric. Fitur-fitur ini saat ini dalam pratinjau dan membantu organisasi mempertahankan kepatuhan saat menggunakan agen untuk mengakses data Fabric. Kemampuan utama meliputi:

  • Penemuan dan audit risiko: Perintah dan respons dari agen data Fabric dapat dikenakan penemuan dan audit risiko oleh Purview, memberikan tim keamanan wawasan tentang bagaimana agen berinteraksi dengan data organisasi.
  • Penilaian Risiko Data DSPM: Penilaian Risiko Data Manajemen Postur Keamanan Data (DSPM) dapat memunculkan risiko data sensitif di sumber data yang digunakan agen, membantu Anda mengidentifikasi dan mengatasi potensi paparan.
  • Manajemen Risiko Insider: Manajemen Risiko Insider Purview dapat mendeteksi pola penggunaan AI berisiko yang melibatkan agen, seperti volume kueri yang tidak biasa atau akses ke data sensitif.
  • Audit, eDiscovery, dan retensi: Kebijakan Audit Purview, eDiscovery, dan retensi berlaku untuk interaksi dan output agen dalam beban kerja Fabric yang didukung. Deteksi penggunaan yang tidak sesuai juga dapat menandai aktivitas agen yang melanggar kebijakan organisasi.

Untuk informasi selengkapnya tentang bagaimana Microsoft Purview terintegrasi dengan Fabric, lihat Gunakan Microsoft Purview untuk mengatur Microsoft Fabric.

Konfigurasi agen data fabric

Mengonfigurasi agen data Fabric mirip dengan membuat laporan Power BI—Anda mulai dengan merancang dan menyempurnakannya untuk memastikannya memenuhi kebutuhan Anda, lalu menerbitkan dan membagikannya dengan kolega sehingga mereka dapat berinteraksi dengan data. Menyiapkan agen data Fabric melibatkan:

Pilih sumber data: Agen data Fabric mendukung hingga lima sumber data dalam kombinasi apa pun, termasuk lakehouse, gudang, database KQL, model semantik Power BI, ontologi, dan Microsoft Graph. Misalnya, agen data Fabric yang dikonfigurasi dapat menyertakan lima model semantik Power BI. Ini bisa mencakup campuran dua model semantik Power BI, satu lakehouse, dan satu database KQL. Anda memiliki banyak opsi yang tersedia. Database KQL Eventhouse didukung sebagai sumber data KQL untuk agen data; agen membuat kueri terhadap data Eventhouse secara langsung tanpa memindahkan data.

Memilih Tabel yang Relevan: Setelah Anda memilih sumber data, tambahkan satu per satu, dan tentukan tabel tertentu dari setiap sumber yang digunakan agen data Fabric. Langkah ini memastikan bahwa agen data Fabric mengambil hasil yang akurat dengan hanya berfokus pada data yang relevan. Untuk lakehouse, langkah ini berarti memilih tabel lakehouse (bukan file lakehouse individual). Jika data Anda dimulai sebagai file (misalnya, CSV atau JSON), buatlah tersedia untuk agen dengan menyerapnya ke dalam tabel atau mengeksposnya melalui tabel. Untuk database KQL yang didukung oleh Eventhouse, pilih hanya tabel yang paling relevan dengan pertanyaan umum, dan dorong pengguna untuk menyertakan filter waktu saat mengkueri rangkaian waktu volume tinggi atau data peristiwa untuk menjaga respons tetap cepat.

Tambahkan Konteks: Untuk meningkatkan akurasi agen data Fabric, berikan konteks lebih lanjut melalui instruksi agen data Fabric dan contoh kueri. Sebagai agen yang mendasari untuk agen data Fabric, konteks membantu Azure OpenAI Assistant API membuat keputusan yang lebih tepat tentang cara memproses pertanyaan pengguna, dan menentukan sumber data mana yang paling cocok untuk menjawabnya.

  • Instruksi agen data: Tambahkan instruksi untuk memandu agen yang mendasar agen data Fabric, dalam menentukan sumber data terbaik untuk menjawab jenis pertanyaan tertentu. Anda juga dapat memberikan aturan atau definisi kustom yang memperjelas terminologi organisasi atau persyaratan tertentu. Instruksi ini dapat memberikan lebih banyak konteks atau preferensi yang memengaruhi cara agen memilih dan mengkueri sumber data. Misalnya, untuk pertanyaan langsung mengenai metrik keuangan ke model semantik Power BI, tetapkan kueri yang melibatkan eksplorasi data mentah ke lakehouse, dan kemudian arahkan pertanyaan yang memerlukan analisis log ke database KQL.

  • Contoh kueri: Tambahkan pasangan pertanyaan-kueri contoh untuk menunjukkan bagaimana seharusnya agen data Fabric merespons kueri umum. Contoh-contoh ini berfungsi sebagai panduan untuk agen, yang membantunya memahami cara menginterpretasikan pertanyaan serupa dan menghasilkan respons yang akurat.

Nota

Menambahkan contoh pasangan kueri/pertanyaan saat ini tidak didukung untuk sumber data model semantik Power BI.

Dengan menggabungkan instruksi AI yang jelas dan contoh kueri yang relevan, Anda dapat menyelaraskan agen data Fabric dengan kebutuhan data organisasi Anda dengan lebih baik, memastikan respons yang lebih akurat dan sadar konteks.

Penting

Instruksi agen data yang disediakan pengembang dan contoh kueri harus beroperasi dalam batasan organisasi dan berbasis peran. Jika instruksi atau permintaan bertentangan dengan kebijakan (misalnya, mencoba melewati perilaku baca-saja atau mengakses sumber di luar cakupan), agen menolak atau mengalihkan permintaan sesuai dengan model prioritas yang dijelaskan di bagian berikut.

Tata kelola dan lapisan niat

Saat Anda mengonfigurasi agen data Fabric, beberapa lapisan niat dapat memengaruhi perilaku agen. Lapisan-lapisan ini, yang tercantum dari prioritas tertinggi hingga terendah, menentukan apa yang diizinkan untuk dilakukan agen:

  1. Tujuan organisasi: Kebijakan seluruh penyewa dan persyaratan kepatuhan yang ditetapkan oleh administrator organisasi Anda. Batasan ini lebih diutamakan dan tidak dapat ditimpa oleh lapisan lain.
  2. Niat berbasis peran: Pengaturan tata kelola ruang kerja dan batas izin yang berlaku untuk peran atau grup tertentu. Pengaturan ini memberlakukan kontrol akses dan pembatasan cakupan data.
  3. Niat pengembang: Instruksi kustom, contoh kueri, dan konfigurasi sumber data yang Anda berikan saat membuat agen data.
  4. Niat pengguna: Pertanyaan dan permintaan yang dikirimkan pengguna akhir selama percakapan dengan agen.

Ketika konflik muncul di antara lapisan, lapisan prioritas yang lebih tinggi menimpa lapisan yang lebih rendah. Misalnya, kebijakan organisasi dan pengaturan tata kelola ruang kerja selalu mengambil alih instruksi pengembang dan permintaan pengguna. Model hukum tertinggi ini memastikan bahwa agen menjalankan operasional dalam batas yang disetujui, terlepas dari cara dikonfigurasi atau diperintah.

Perbedaan antara agen data Fabric dan kopilot

Meskipun agen data Fabric dan kopilot Fabric menggunakan AI generatif untuk memproses dan menyusun penalaran atas data, terdapat perbedaan utama dalam fungsionalitas dan kasus penggunaan mereka.

Konfigurasi yang Fleksibel: Anda dapat mengonfigurasi agen data Fabric secara menyeluruh. Anda dapat memberikan instruksi dan contoh kustom untuk menyesuaikan perilakunya dengan skenario tertentu. Fabric copilot, di sisi lain, sudah dikonfigurasi sebelumnya dan tidak menawarkan tingkat penyesuaian ini.

Scope dan kasus penggunaan: Fabric kopilot membantu dengan tugas seperti dalam Microsoft Fabric, seperti membangkitkan kode buku catatan atau kueri gudang data. Agen data Fabric, sebaliknya, adalah artefak mandiri yang dapat dikonfigurasi yang dapat melakukan kueri data di seluruh OneLake dan model semantik. Fabric agen data juga dapat berintegrasi dengan Microsoft 365 Copilot untuk memunculkan wawasan bahasa alami langsung dalam aplikasi Microsoft 365. Ketika agen diakses melalui Microsoft 365 Copilot, kebijakan tata kelola Microsoft Purview masih berlaku untuk sumber data yang mendasar. Selain itu, agen data Fabric dapat terhubung dengan sistem eksternal seperti Microsoft Copilot Studio, Azure AI Foundry, Microsoft Teams, atau alat lain di luar Fabric. Orkestrator eksternal dan runtime multi-agen dapat memanggil agen data Fabric untuk mendukung alur kerja berbasis agen end-to-end, sementara agen data tetap berfokus pada akses data hanya-baca yang terkendali.

Evaluasi agen data Fabric

Tim produk secara ketat mengevaluasi kualitas dan keamanan respons agen data Fabric:

Benchmark Testing: Tim produk menguji Fabric agen data di berbagai himpunan data publik dan privat untuk memastikan respons berkualitas tinggi dan akurat.

Enhanced Harm Mitigations: Tim produk menerapkan perlindungan untuk memastikan bahwa output agen data Fabric tetap berfokus pada konteks sumber data yang dipilih, mengurangi risiko jawaban yang tidak relevan atau menyesatkan.

Tata kelola dan keamanan

integrasi Microsoft Purview menyediakan kontrol tata kelola untuk agen data Fabric. Saat Anda mengonfigurasi agen data, kebijakan tata kelola Purview berlaku untuk sumber data yang mendasar yang dapat diakses agen. Integrasi ini membantu memastikan bahwa akses data melalui agen mengikuti aturan kepatuhan dan klasifikasi yang sama dengan akses langsung.

Microsoft Purview kebijakan: Kebijakan Purview seperti kontrol akses data dan label sensitivitas berlaku untuk sumber data yang dikueri agen. Jika kebijakan Purview membatasi akses ke lakehouse atau gudang, agen menghormati pembatasan tersebut saat memproses kueri pengguna.

Perlindungan akses keluar: Agen data Fabric beroperasi dalam batas perlindungan akses keluar di ruang kerja. Administrator ruang kerja dapat mengelola koneksi keluar yang diizinkan melalui pengaturan ruang kerja untuk mengontrol titik akhir eksternal mana yang dapat dijangkau agen data.

integrasi Microsoft 365 Copilot: Saat agen data Fabric muncul melalui Microsoft 365 Copilot, kebijakan tata kelola Purview terus berlaku. Pengguna hanya dapat mengakses data yang diizinkan oleh kredensial dan kebijakan Purview mereka, terlepas dari titik masuknya.

ALM dan DevOps untuk agen data

Fabric agen data mendukung kemampuan manajemen siklus hidup aplikasi (ALM) yang membantu Anda mengelola konfigurasi agen di seluruh lingkungan pengembangan, pengujian, dan produksi.

Diagnostik: Gunakan diagnostik bawaan untuk memantau perilaku agen, mengidentifikasi masalah pembuatan kueri, dan memecahkan masalah kualitas respons. Diagnostik memberikan visibilitas tentang cara agen memproses pertanyaan dan memilih sumber data.

Integrasi Git: Anda dapat mengontrol konfigurasi agen anda dengan integrasi Git secara versi. Sambungkan ruang kerja Fabric Anda ke repositori Git untuk melacak perubahan pada instruksi agen, contoh kueri, dan pilihan sumber data dari waktu ke waktu.

Alur Deployment: Gunakan alur penerapan Fabric untuk mempromosikan agen data di seluruh ruang kerja (misalnya, dari pengembangan hingga produksi). Dukungan ini memungkinkan Anda menguji perubahan di lingkungan penahapan sebelum membuatnya tersedia untuk pengguna akhir.

Pengawasan operasional

Untuk menjaga kualitas dan keselarasan kebijakan yang sedang berlangsung, pertimbangkan praktik operasional ini untuk agen data Fabric Anda:

  • Pengelogan dan audit: Memantau interaksi agen melalui kemampuan pengelogan dan audit yang tersedia. Meninjau pola kueri dan kualitas respons membantu Anda mengidentifikasi perilaku tak terduga lebih awal.
  • Eskalasi dengan partisipasi manusia: Menetapkan jalur eskalasi untuk permintaan sensitif atau berdampak tinggi. Untuk skenario di mana respons otomatis tidak memadai, tentukan proses yang merutekan pertanyaan ke peninjau yang memenuhi syarat.
  • Tinjauan berkala: Tinjau instruksi agen data dan contoh kueri Anda secara teratur untuk memastikannya tetap selaras dengan kebijakan organisasi dan struktur data saat ini. Saat sumber data atau persyaratan bisnis Anda berubah, perbarui konfigurasi agen yang sesuai.

Keterbatasan

  • Agen data Fabric hanya menghasilkan kueri "baca" SQL, DAX, dan KQL. Ini tidak menghasilkan kueri SQL, DAX, atau KQL yang membuat, memperbarui, atau menghapus data.
  • Agen data Fabric tidak mendukung data yang tidak terstruktur, seperti file .pdf, .docx, atau .txt. Anda tidak dapat menggunakan agen data Fabric untuk mengakses sumber daya data yang tidak terstruktur.
  • Untuk sumber data lakehouse, agen data Fabric menjawab pertanyaan menggunakan tabel lakehouse yang Anda pilih. Ia tidak langsung membaca file lakehouse mandiri seperti file CSV atau JSON kecuali file tersebut dimasukkan atau diekspos sebagai tabel.
  • Agen data Fabric saat ini tidak mendukung bahasa non-bahasa Inggris. Untuk performa optimal, berikan pertanyaan, instruksi, dan contoh kueri dalam bahasa Inggris.
  • Anda tidak dapat mengubah LLM yang digunakan agen data Fabric.
  • Riwayat percakapan di agen data Fabric mungkin tidak selalu bertahan. Dalam kasus tertentu, seperti perubahan infrastruktur backend, pembaruan layanan, atau peningkatan model, riwayat percakapan sebelumnya mungkin diatur ulang atau hilang.
  • Agen data Fabric tidak dapat menjalankan kueri saat kapasitas ruang kerja sumber data berada di wilayah yang berbeda dari kapasitas ruang kerja agen data. Misalnya, sebuah lakehouse dengan kapasitas di Eropa Utara akan mengalami kegagalan jika kapasitas Agen Data berada di Prancis Tengah.
  • Pengguna dapat menyediakan hingga 100 contoh kueri per sumber data di Agen Data mereka.
  • Fabric Agen Data saat ini dirancang untuk wawasan percakapan daripada mengembalikan himpunan data lengkap. Untuk memastikan respons ringkas dan berkinerja, output obrolan secara otomatis membatasi dan/atau meringkas data yang dikembalikan. Saat ini, respons dibatasi maksimal 25 baris dan 25 kolom. Harap dicatat bahwa riwayat obrolan sebelumnya dapat memengaruhi respons berikutnya. Misalnya, jika Anda meminta untuk "menampilkan semua baris untuk tahun ini," agen masih akan mengembalikan maksimum 25 baris. Pertanyaan tindak lanjut kemudian dapat dijawab berdasarkan konteks yang sudah terbatas ini, yang dapat memengaruhi hasilnya. Dalam kasus seperti itu, disarankan untuk memulai sesi obrolan baru.
  • Respons agen mungkin dipotong atau diblokir jika Microsoft Purview DLP atau kebijakan pembatasan akses berlaku untuk sumber data yang mendasar. Perilaku spesifik tergantung pada konfigurasi kebijakan organisasi Anda.
  • Aset yang ditandai sebagai sensitif oleh kebijakan Purview mungkin tidak dapat diakses oleh agen, yang dapat mengakibatkan jawaban yang tidak lengkap atau ketidakmampuan untuk mengkueri sumber data tertentu.
  • Interaksi agen mungkin dicatat dan ditemukan melalui Microsoft Purview Audit dan eDiscovery. Organisasi harus mempertimbangkan kontrol tata kelola ini saat menyebarkan agen untuk beban kerja sensitif.
  • Akses ke model semantik Power BI melalui agen data diatur oleh izin baca pada model dan tidak memerlukan akses ke tingkat ruang kerja. Row-Level Security (RLS) dan Column-Level Security (CLS) masih berlaku.
  • Meskipun Eventhouse terintegrasi dengan deteksi anomali, titik akhir analitik SQL, dan notebook, agen data Fabric tetap hanya-baca dan tidak memicu job deteksi anomali, menjalankan notebook, atau alur kerja penulisan maupun tindakan lainnya di Eventhouse.