Rekayasa fitur dan penyajian
Halaman ini mencakup kemampuan rekayasa fitur dan penyajian untuk ruang kerja yang diaktifkan untuk Katalog Unity. Jika ruang kerja Anda tidak diaktifkan untuk Unity Catalog, lihat Penyimpanan fitur ruang kerja (Warisan).
Mengapa menggunakan Databricks sebagai penyimpanan fitur Anda?
Dengan Databricks Data Intelligence Platform, seluruh alur kerja pelatihan model berlangsung pada satu platform:
- Alur data yang menyerap data mentah, membuat tabel fitur, melatih model, dan melakukan inferensi batch. Saat Anda melatih dan mencatat model menggunakan rekayasa fitur di Unity Catalog, model dimas dengan metadata fitur. Saat Anda menggunakan model untuk penilaian batch atau inferensi online, model tersebut secara otomatis mengambil nilai fitur. Pemanggil tidak perlu mengetahuinya atau menyertakan logika untuk mencari atau menggabungkan fitur untuk mendapatkan data baru.
- Model dan fitur yang melayani titik akhir yang tersedia dengan satu klik dan yang memberikan latensi milidetik.
- Pemantauan data dan model.
Selain itu, platform ini menyediakan hal-hal berikut:
- Penemuan fitur. Anda dapat menelusuri dan mencari fitur di antarmuka pengguna Databricks.
- Pemerintahan. Tabel fitur, fungsi, dan model semuanya diatur oleh Unity Catalog. Saat Anda melatih model, model tersebut mewarisi izin dari data yang dilatihnya.
- Silsilah data. Saat Anda membuat tabel fitur di Azure Databricks, sumber data yang digunakan untuk membuat tabel fitur disimpan dan dapat diakses. Untuk setiap fitur dalam tabel fitur, Anda juga dapat mengakses model, buku catatan, pekerjaan, dan titik akhir yang menggunakan fitur tersebut.
- Akses lintas ruang kerja. Tabel fitur, fungsi, dan model secara otomatis tersedia di ruang kerja apa pun yang memiliki akses ke katalog.
Persyaratan
- Ruang kerja Anda harus diaktifkan untuk Katalog Unity.
- Rekayasa fitur di Unity Catalog memerlukan Databricks Runtime 13.3 LTS atau lebih tinggi.
Jika ruang kerja Anda tidak memenuhi persyaratan ini, lihat Penyimpanan fitur Ruang Kerja (Warisan) tentang cara menggunakan penyimpanan fitur ruang kerja.
Bagaimana cara kerja rekayasa fitur pada Databricks?
Alur kerja pembelajaran mesin yang khas menggunakan rekayasa fitur pada Databricks mengikuti jalur ini:
- Tulis kode untuk mengubah data mentah menjadi fitur dan buat Spark DataFrame yang berisi fitur yang diinginkan.
- Buat tabel Delta di Katalog Unity. Setiap tabel Delta dengan kunci primer secara otomatis merupakan tabel fitur.
- Melatih dan mencatat model menggunakan tabel fitur. Ketika Anda melakukan hal ini, model akan menyimpan spesifikasi fitur yang digunakan untuk pelatihan. Ketika model digunakan untuk inferensi, model akan menggabungkan fitur dari tabel fitur yang sesuai secara otomatis.
- Mendaftarkan model pada Registri Model.
Kini Anda dapat menggunakan model untuk membuat prediksi pada data baru. Model ini akan mengambil fitur yang dibutuhkan dari Feature Store secara otomatis.
Untuk kasus penggunaan penyajian real time, terbitkan fitur ke tabel online. Toko online pihak ketiga juga didukung. Lihat Toko online pihak ketiga.
Pada waktu inferensi, model membaca fitur pra-komputasi dari toko online dan menggabungkannya dengan data yang disediakan dalam permintaan klien ke titik akhir penyajian model.
Mulai menggunakan rekayasa fitur — contoh buku catatan
Untuk memulai, coba contoh buku catatan ini. Notebook dasar memanah Anda melalui cara membuat tabel fitur, menggunakannya untuk melatih model, lalu melakukan penilaian batch menggunakan pencarian fitur otomatis. Ini juga memperkenalkan Anda ke UI Rekayasa Fitur dan menunjukkan bagaimana Anda dapat menggunakannya untuk mencari fitur dan memahami bagaimana fitur dibuat dan digunakan.
Buku catatan contoh Rekayasa Fitur Dasar di Katalog Unity
Buku catatan contoh taksi mengilustrasikan proses pembuatan fitur, memperbaruinya, dan menggunakannya untuk pelatihan model dan inferensi batch.
Rekayasa Fitur di buku catatan contoh taksi Katalog Unity
Tipe data yang didukung
Rekayasa fitur di Unity Catalog dan penyimpanan fitur ruang kerja mendukung jenis data PySpark berikut:
IntegerType
FloatType
BooleanType
StringType
DoubleType
LongType
TimestampType
DateType
ShortType
ArrayType
BinaryType
[1]DecimalType
[1]MapType
[1]StructType
[2]
[1] BinaryType
, DecimalType
, dan MapType
didukung di semua versi Rekayasa Fitur di Katalog Unity dan di Penyimpanan Fitur Ruang Kerja v0.3.5 atau lebih tinggi.
[2] StructType
didukung dalam Rekayasa Fitur v0.6.0 atau lebih tinggi.
Jenis data yang tercantum di atas mendukung jenis fitur yang umum dalam aplikasi pembelajaran mesin. Contohnya:
- Anda dapat menyimpan vektor tebal, tensor, dan sematan sebagai
ArrayType
. - Anda dapat menyimpan vektor tipis, tensor, dan sematan sebagai
MapType
. - Anda bisa menyimpan teks sebagai
StringType
.
Ketika diterbitkan ke penyimpanan online, fitur ArrayType
dan MapType
disimpan dalam format JSON.
UI Feature Store menampilkan metadata pada jenis data fitur:
Informasi selengkapnya
Untuk informasi selengkapnya tentang praktik terbaik, unduh Panduan Komprehensif untuk Penyimpanan Fitur.