Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Halaman ini adalah gambaran umum kemampuan yang tersedia saat Anda menggunakan Penyimpanan Fitur Databricks dengan Unity Catalog.
Penyimpanan Fitur Databricks menyediakan registri pusat untuk fitur yang digunakan dalam model AI dan ML Anda. Tabel dan model fitur terdaftar di Unity Catalog, menyediakan tata kelola bawaan, silsilah data, dan berbagi dan penemuan fitur lintas ruang kerja. Dengan Databricks, seluruh alur kerja pelatihan model berlangsung pada satu platform, termasuk:
- Alur data yang menyerap data mentah, membuat tabel fitur, melatih model, dan melakukan inferensi batch.
- Model dan fitur yang melayani titik akhir yang tersedia dengan satu klik dan yang memberikan latensi milidetik.
- Pemantauan data dan model.
Saat Anda menggunakan fitur dari penyimpanan fitur untuk melatih model, model secara otomatis melacak silsilah data ke fitur yang digunakan dalam pelatihan. Pada waktu inferensi, model secara otomatis mencari nilai fitur terbaru. Penyimpanan fitur ini juga menyediakan komputasi fitur sesuai permintaan untuk aplikasi real time. Penyimpanan fitur menangani semua tugas komputasi fitur. Ini menghilangkan pelatihan/penyajian condong, memastikan bahwa komputasi fitur yang digunakan pada inferensi sama dengan yang digunakan selama pelatihan model. Ini juga secara signifikan menyederhanakan kode sisi klien, karena semua pencarian dan komputasi fitur ditangani oleh penyimpanan fitur.
Nota
Halaman ini mencakup kemampuan pengembangan fitur dan pengelolaan untuk ruang kerja yang diaktifkan untuk Katalog Unity. Jika ruang kerja Anda tidak diaktifkan untuk Unity Catalog, lihat Penyimpanan Fitur Ruang Kerja (versi lama).
Ringkasan konseptual
Untuk gambaran umum cara kerja Penyimpanan Fitur Databricks dan glosarium istilah, lihat Gambaran umum dan glosarium penyimpanan fitur.
Rekayasa fitur
| Fitur | Description |
|---|---|
| Bekerja dengan tabel fitur di Unity Catalog | Membuat dan bekerja dengan tabel fitur. |
Menemukan dan berbagi fitur
| Fitur | Description |
|---|---|
| Menjelajahi fitur di Unity Catalog | Jelajahi dan kelola tabel fitur menggunakan Catalog Explorer dan UI Fitur. |
| Menggunakan tag dengan tabel fitur dan fitur di Unity Catalog | Gunakan pasangan kunci-nilai sederhana untuk mengategorikan dan mengelola tabel dan fitur fitur Anda. |
Menggunakan fitur dalam alur kerja pelatihan
| Fitur | Description |
|---|---|
| Menggunakan fitur untuk melatih model | Gunakan fitur untuk melatih model. |
| Gabungan fitur titik waktu | Gunakan kebenaran point-in-time untuk membuat himpunan data pelatihan yang mencerminkan nilai fitur pada saat pengamatan label direkam. |
| Python API | Referensi API Python |
Menyajikan fitur
| Fitur | Description |
|---|---|
| Penyimpanan Fitur Databricks Online | Menyajikan data fitur ke aplikasi online dan model pembelajaran mesin real time. Didukung oleh Databricks Lakebase. |
| Model Melayani dengan pencarian fitur otomatis | Mencari nilai fitur secara otomatis dari toko online. |
| Titik akhir Penayangan Fitur | Menyajikan fitur untuk model dan aplikasi di luar Databricks. |
| Komputasi fitur sesuai permintaan | Hitung nilai fitur pada saat inferensi. |
Tata kelola dan jejak asal-usul fitur
| Fitur | Description |
|---|---|
| Tata kelola dan silsilah fitur | Gunakan Unity Catalog untuk mengontrol akses ke tabel fitur dan menampilkan silsilah tabel fitur, model, atau fungsi. |
Tutorials
| Tutorial | Description |
|---|---|
| Contoh buku catatan untuk memulai |
Buku catatan dasar. Memperlihatkan cara membuat tabel fitur, menggunakannya untuk melatih model, dan menjalankan penilaian batch menggunakan pencarian fitur otomatis. Juga menunjukkan UI Rekayasa Fitur untuk mencari fitur dan melihat silsilah data. Buku catatan contoh taksi. Memperlihatkan proses pembuatan fitur, memperbaruinya, dan menggunakannya untuk pelatihan model dan inferensi batch. |
| Contoh: Menyebarkan dan mengkueri titik akhir penyajian fitur | Tutorial dan contoh buku catatan memperlihatkan cara menyebarkan dan mengkueri fitur yang melayani titik akhir. |
| Contoh: gunakan fitur dengan aplikasi RAG terstruktur | Tutorial yang menunjukkan cara menggunakan tabel online Databricks dan fitur yang melayani titik akhir untuk pengambilan aplikasi pembuatan tertambah (RAG). |
Persyaratan
- Ruang kerja Anda harus diaktifkan terlebih dahulu untuk menggunakan Katalog Unity.
- Rekayasa fitur di Unity Catalog memerlukan Databricks Runtime 13.3 LTS atau lebih tinggi.
Jika ruang kerja Anda tidak memenuhi persyaratan ini, lihat Penyimpanan Fitur Ruang Kerja (warisan) tentang cara menggunakan Penyimpanan Fitur Ruang Kerja warisan.
Tipe data yang didukung
Rekayasa fitur di Unity Catalog dan Penyimpanan Fitur Ruang Kerja Legasi mendukung jenis data PySpark berikut:
IntegerTypeFloatTypeBooleanTypeStringTypeDoubleTypeLongTypeTimestampTypeDateTypeShortTypeArrayType-
BinaryType[1] -
DecimalType[1] -
MapType[1] -
StructType[2]
[1] BinaryType, DecimalType, dan MapType didukung di semua versi Rekayasa Fitur di Katalog Unity dan di Penyimpanan Fitur Ruang Kerja versi 0.3.5 ke atas.
[2] StructType didukung dalam Rekayasa Fitur v0.6.0 atau lebih tinggi.
Jenis data yang tercantum di atas mendukung jenis fitur yang umum dalam aplikasi pembelajaran mesin. Contohnya:
- Anda dapat menyimpan vektor padat, tensor, dan sematan sebagai
ArrayType. - Anda dapat menyimpan vektor tipis, tensor, dan sematan sebagai
MapType. - Anda bisa menyimpan teks sebagai
StringType.
Ketika diterbitkan ke penyimpanan online, fitur ArrayType dan MapType disimpan dalam format JSON.
UI Feature Store menampilkan metadata pada jenis data fitur:
Informasi selengkapnya
Untuk informasi selengkapnya tentang praktik terbaik, unduh Panduan Komprehensif mengenai Penyimpanan Fitur.