Apa itu Databricks Feature Store?
Halaman ini menjelaskan apa itu Databricks Feature Store dan manfaatnya, serta keuntungan spesifik Databricks Feature Store.
Databricks Feature Store adalah repositori terpusat yang memungkinkan ilmuwan data menemukan dan berbagi fitur dan juga memastikan bahwa kode yang sama yang digunakan untuk menghitung nilai fitur digunakan untuk pelatihan dan inferensi model.
Pembelajaran mesin menggunakan data yang ada untuk membangun model guna memprediksi hasil di masa mendatang. Dalam hampir semua kasus, data mentah memerlukan prapemrosesan dan transformasi sebelum dapat digunakan untuk membangun model. Proses ini disebut rekayasa fitur, dan output dari proses ini disebut fitur - blok penyusun model.
Mengembangkan fitur rumit dan memakan waktu. Komplikasi tambahan adalah bahwa untuk pembelajaran mesin, perhitungan fitur perlu dilakukan untuk pelatihan model, dan kemudian lagi ketika model digunakan untuk membuat prediksi. Implementasi ini mungkin tidak dilakukan oleh tim yang sama atau menggunakan lingkungan kode yang sama, yang dapat menyebabkan penundaan dan kesalahan. Selain itu, tim yang berbeda dalam organisasi sering kali memiliki kebutuhan fitur yang sama, tetapi mungkin tidak menyadari pekerjaan yang telah dilakukan tim lain. Databricks Feature Store dirancang untuk mengatasi masalah ini.
Mengapa menggunakan Databricks Feature Store?
Databricks Feature Store sepenuhnya terintegrasi dengan komponen Azure Databricks lainnya.
- Kemampuan Ditemukan. Antarmuka pengguna Feature Store dapat diakses dari ruang kerja Databricks, sehingga memungkinkan Anda menelusuri dan mencari fitur yang ada.
- Silsilah data. Saat Anda membuat tabel fitur di Azure Databricks, sumber data yang digunakan untuk membuat tabel fitur disimpan dan dapat diakses. Untuk setiap fitur dalam tabel fitur, Anda juga dapat mengakses model, buku catatan, pekerjaan, dan titik akhir yang menggunakan fitur tersebut.
- Integrasi dengan penilaian dan penyajian model. Saat Anda menggunakan fitur dari Feature Store untuk melatih model, model dikemas dengan metadata fitur. Saat Anda menggunakan model untuk penilaian batch atau inferensi online, model secara otomatis mengambil fitur dari Databricks Feature Store. Pemanggil tidak perlu mengetahuinya atau menyertakan logika untuk mencari atau menggabungkan fitur untuk mendapatkan data baru. Ini membuat penyebaran dan pembaruan model jauh lebih mudah.
- Pencarian point-in-time. Feature Store mendukung deret waktu dan kasus penggunaan berbasis peristiwa yang memerlukan kebenaran point-in-time.
Rekayasa Fitur dalam Katalog Unity
Dengan Databricks Runtime 13.3 LTS ke atas, jika ruang kerja Anda diaktifkan untuk Unity Catalog, Unity Catalog menjadi penyimpanan fitur Anda. Anda dapat menggunakan tabel Delta atau Tabel Langsung Delta apa pun di Unity Catalog dengan kunci utama sebagai tabel fitur untuk pelatihan atau inferensi model. Unity Catalog menyediakan penemuan fitur, tata kelola, silsilah data, dan akses lintas ruang kerja.
Bagaimana cara kerja Penyimpanan Fitur Databricks?
Alur kerja pembelajaran mesin yang khas menggunakan Feature Store mengikuti jalur ini:
- Tulis kode untuk mengubah data mentah menjadi fitur dan buat Spark DataFrame yang berisi fitur yang diinginkan.
- Untuk ruang kerja yang diaktifkan untuk Unity Catalog, tulis DataFrame sebagai tabel fitur di Unity Catalog. Jika ruang kerja Anda tidak diaktifkan untuk Unity Catalog, tulis DataFrame sebagai tabel fitur di Penyimpanan Fitur Ruang Kerja.
- Melatih model menggunakan fitur dari Feature Store. Ketika Anda melakukan hal ini, model akan menyimpan spesifikasi fitur yang digunakan untuk pelatihan. Ketika model digunakan untuk inferensi, model akan menggabungkan fitur dari tabel fitur yang sesuai secara otomatis.
- Mendaftarkan model pada Registri Model.
Kini Anda dapat menggunakan model untuk membuat prediksi pada data baru.
Model ini akan mengambil fitur yang dibutuhkan dari Feature Store secara otomatis.
Untuk kasus penggunaan penyajian real time, terbitkan fitur ke tabel online. Toko online pihak ketiga juga didukung. Lihat Toko online pihak ketiga.
Pada waktu inferensi, model membaca fitur pra-komputasi dari toko online dan menggabungkannya dengan data yang disediakan dalam permintaan klien ke titik akhir penyajian model.
Mulai menggunakan Feature Store
Lihat artikel berikut ini untuk mulai menggunakan Feature Store:
- Coba salah satu contoh buku catatan yang mengilustrasikan kemampuan penyimpanan fitur.
- Lihat materi referensi untuk API Python Feature Store.
- Pelajari tentang model pelatihan dengan Feature Store.
- Pelajari tentang Rekayasa Fitur di Katalog Unity.
- Pelajari tentang Penyimpanan Fitur Ruang Kerja.
- Gunakan tabel fitur deret waktu dan pencarian point-in-time untuk mengambil nilai fitur terbaru pada waktu tertentu untuk melatih atau menilai model.
- Pelajari tentang menerbitkan fitur ke toko online atau tabel online untuk penyajian real time dan pencarian fitur otomatis.
- Pelajari tentang Penyajian Fitur, yang membuat fitur di platform Databricks tersedia dengan latensi rendah untuk model atau aplikasi yang disebarkan di luar Databricks.
Saat Anda menggunakan Rekayasa Fitur di Katalog Unity, Unity Catalog mengurus berbagi tabel fitur di seluruh ruang kerja, dan Anda menggunakan hak istimewa Katalog Unity untuk mengontrol akses tabel fitur. Tautan berikut hanya untuk Penyimpanan Fitur Ruang Kerja:
Tipe data yang didukung
Rekayasa Fitur di Unity Catalog dan Penyimpanan Fitur Ruang Kerja mendukung jenis data PySpark berikut:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]
[1] BinaryType
, DecimalType
, dan MapType
didukung di semua versi Rekayasa Fitur di Katalog Unity dan di Penyimpanan Fitur Ruang Kerja v0.3.5 atau lebih tinggi.
Jenis data yang tercantum di atas mendukung jenis fitur yang umum dalam aplikasi pembelajaran mesin. Contohnya:
- Anda dapat menyimpan vektor tebal, tensor, dan sematan sebagai
ArrayType
. - Anda dapat menyimpan vektor tipis, tensor, dan sematan sebagai
MapType
. - Anda bisa menyimpan teks sebagai
StringType
.
Ketika diterbitkan ke penyimpanan online, fitur ArrayType
dan MapType
disimpan dalam format JSON.
UI Feature Store menampilkan metadata pada jenis data fitur:
Informasi selengkapnya
Untuk informasi selengkapnya tentang praktik terbaik untuk menggunakan Feature Store, unduh Panduan Komprehensif untuk Feature Store.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk