Apa itu Databricks Feature Store?

Halaman ini menjelaskan apa itu Databricks Feature Store dan manfaatnya, serta keuntungan spesifik Databricks Feature Store.

Databricks Feature Store adalah repositori terpusat yang memungkinkan ilmuwan data menemukan dan berbagi fitur dan juga memastikan bahwa kode yang sama yang digunakan untuk menghitung nilai fitur digunakan untuk pelatihan dan inferensi model.

Pembelajaran mesin menggunakan data yang ada untuk membangun model guna memprediksi hasil di masa mendatang. Dalam hampir semua kasus, data mentah memerlukan prapemrosesan dan transformasi sebelum dapat digunakan untuk membangun model. Proses ini disebut rekayasa fitur, dan output dari proses ini disebut fitur - blok penyusun model.

Mengembangkan fitur rumit dan memakan waktu. Komplikasi tambahan adalah bahwa untuk pembelajaran mesin, perhitungan fitur perlu dilakukan untuk pelatihan model, dan kemudian lagi ketika model digunakan untuk membuat prediksi. Implementasi ini mungkin tidak dilakukan oleh tim yang sama atau menggunakan lingkungan kode yang sama, yang dapat menyebabkan penundaan dan kesalahan. Selain itu, tim yang berbeda dalam organisasi sering kali memiliki kebutuhan fitur yang sama, tetapi mungkin tidak menyadari pekerjaan yang telah dilakukan tim lain. Databricks Feature Store dirancang untuk mengatasi masalah ini.

Mengapa menggunakan Databricks Feature Store?

Databricks Feature Store sepenuhnya terintegrasi dengan komponen Azure Databricks lainnya.

  • Kemampuan Ditemukan. Antarmuka pengguna Feature Store dapat diakses dari ruang kerja Databricks, sehingga memungkinkan Anda menelusuri dan mencari fitur yang ada.
  • Silsilah data. Saat Anda membuat tabel fitur di Azure Databricks, sumber data yang digunakan untuk membuat tabel fitur disimpan dan dapat diakses. Untuk setiap fitur dalam tabel fitur, Anda juga dapat mengakses model, buku catatan, pekerjaan, dan titik akhir yang menggunakan fitur tersebut.
  • Integrasi dengan penilaian dan penyajian model. Saat Anda menggunakan fitur dari Feature Store untuk melatih model, model dikemas dengan metadata fitur. Saat Anda menggunakan model untuk penilaian batch atau inferensi online, model secara otomatis mengambil fitur dari Databricks Feature Store. Pemanggil tidak perlu mengetahuinya atau menyertakan logika untuk mencari atau menggabungkan fitur untuk mendapatkan data baru. Ini membuat penyebaran dan pembaruan model jauh lebih mudah.
  • Pencarian point-in-time. Feature Store mendukung deret waktu dan kasus penggunaan berbasis peristiwa yang memerlukan kebenaran point-in-time.

Rekayasa Fitur dalam Katalog Unity

Dengan Databricks Runtime 13.3 LTS ke atas, jika ruang kerja Anda diaktifkan untuk Unity Catalog, Unity Catalog menjadi penyimpanan fitur Anda. Anda dapat menggunakan tabel Delta atau Tabel Langsung Delta apa pun di Unity Catalog dengan kunci utama sebagai tabel fitur untuk pelatihan atau inferensi model. Unity Catalog menyediakan penemuan fitur, tata kelola, silsilah data, dan akses lintas ruang kerja.

Bagaimana cara kerja Penyimpanan Fitur Databricks?

Alur kerja pembelajaran mesin yang khas menggunakan Feature Store mengikuti jalur ini:

  1. Tulis kode untuk mengubah data mentah menjadi fitur dan buat Spark DataFrame yang berisi fitur yang diinginkan.
  2. Untuk ruang kerja yang diaktifkan untuk Unity Catalog, tulis DataFrame sebagai tabel fitur di Unity Catalog. Jika ruang kerja Anda tidak diaktifkan untuk Unity Catalog, tulis DataFrame sebagai tabel fitur di Penyimpanan Fitur Ruang Kerja.
  3. Melatih model menggunakan fitur dari Feature Store. Ketika Anda melakukan hal ini, model akan menyimpan spesifikasi fitur yang digunakan untuk pelatihan. Ketika model digunakan untuk inferensi, model akan menggabungkan fitur dari tabel fitur yang sesuai secara otomatis.
  4. Mendaftarkan model pada Registri Model.

Kini Anda dapat menggunakan model untuk membuat prediksi pada data baru.

Model ini akan mengambil fitur yang dibutuhkan dari Feature Store secara otomatis.

Alur kerja Feature Store untuk kasus penggunaan pembelajaran mesin dalam batch.

Untuk kasus penggunaan penyajian real time, terbitkan fitur ke tabel online. Toko online pihak ketiga juga didukung. Lihat Toko online pihak ketiga.

Pada waktu inferensi, model membaca fitur pra-komputasi dari toko online dan menggabungkannya dengan data yang disediakan dalam permintaan klien ke titik akhir penyajian model.

Alur Feature Store untuk model pembelajaran mesin yang dilayani.

Mulai menggunakan Feature Store

Lihat artikel berikut ini untuk mulai menggunakan Feature Store:

Saat Anda menggunakan Rekayasa Fitur di Katalog Unity, Unity Catalog mengurus berbagi tabel fitur di seluruh ruang kerja, dan Anda menggunakan hak istimewa Katalog Unity untuk mengontrol akses tabel fitur. Tautan berikut hanya untuk Penyimpanan Fitur Ruang Kerja:

Tipe data yang didukung

Rekayasa Fitur di Unity Catalog dan Penyimpanan Fitur Ruang Kerja mendukung jenis data PySpark berikut:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]

[1] BinaryType, DecimalType, dan MapType didukung di semua versi Rekayasa Fitur di Katalog Unity dan di Penyimpanan Fitur Ruang Kerja v0.3.5 atau lebih tinggi.

Jenis data yang tercantum di atas mendukung jenis fitur yang umum dalam aplikasi pembelajaran mesin. Contohnya:

  • Anda dapat menyimpan vektor tebal, tensor, dan sematan sebagai ArrayType.
  • Anda dapat menyimpan vektor tipis, tensor, dan sematan sebagai MapType.
  • Anda bisa menyimpan teks sebagai StringType.

Ketika diterbitkan ke penyimpanan online, fitur ArrayType dan MapType disimpan dalam format JSON.

UI Feature Store menampilkan metadata pada jenis data fitur:

Contoh jenis data kompleks

Informasi selengkapnya

Untuk informasi selengkapnya tentang praktik terbaik untuk menggunakan Feature Store, unduh Panduan Komprehensif untuk Feature Store.