Penyimpanan Fitur Databricks

Halaman ini memberikan gambaran umum tentang kemampuan yang tersedia saat Anda menggunakan Databricks Feature Store dengan Unity Catalog.

Penyimpanan Fitur Databricks menyediakan registri pusat untuk fitur yang digunakan dalam model AI dan ML Anda. Tabel dan model fitur terdaftar di Unity Catalog, menyediakan tata kelola bawaan, silsilah data, dan berbagi dan penemuan fitur lintas ruang kerja. Dengan Databricks, seluruh alur kerja pelatihan model berlangsung pada satu platform, termasuk:

  • Alur data yang menyerap data mentah, membuat tabel fitur, melatih model, dan melakukan inferensi batch.
  • Model dan fitur yang melayani titik akhir yang tersedia dengan satu klik dan yang memberikan latensi milidetik.
  • Pemantauan data dan model.

Saat Anda menggunakan fitur dari Databricks Feature Store untuk melatih model, model secara otomatis melacak garis keturunan ke fitur yang digunakan saat pelatihan. Pada waktu inferensi, model secara otomatis mencari nilai fitur terbaru. Databricks Feature Store juga menyediakan komputasi fitur sesuai permintaan untuk aplikasi real time, menangani semua tugas komputasi fitur. Ini menghilangkan bias pelatihan/penyajian, memastikan bahwa perhitungan fitur yang digunakan selama inferensi sama dengan yang digunakan selama pelatihan model. Ini juga secara signifikan menyederhanakan kode pada sisi klien, karena semua pencarian fitur dan komputasi ditangani oleh Penyimpanan Fitur Databricks.

Nota

Halaman ini menjelaskan Feature Store Databricks untuk ruang kerja yang telah diaktifkan untuk Unity Catalog. Jika ruang kerja Anda tidak diaktifkan untuk Katalog Unity, lihat Penyimpanan Fitur Ruang Kerja (tidak digunakan lagi).

Ringkasan konseptual

Untuk gambaran umum tentang cara kerja Penyimpanan Fitur Databricks dan glosarium istilah, lihat Gambaran umum dan glosarium Penyimpanan Fitur.

Mengembangkan fitur

Fitur Description
Tabel fitur Membuat dan bekerja dengan tabel fitur.

Menemukan dan berbagi fitur

Fitur Description
Menjelajahi fitur di Unity Catalog Jelajahi dan kelola tabel fitur menggunakan Catalog Explorer dan UI Fitur.
Menggunakan tag dengan tabel fitur dan fitur di Unity Catalog Gunakan pasangan kunci-nilai sederhana untuk mengategorikan dan mengelola tabel dan fitur fitur Anda.

Menggunakan fitur dalam alur kerja pelatihan

Fitur Description
Melatih model dengan tabel fitur Gunakan fitur untuk melatih model.
Penyambungan fitur pada titik waktu spesifik Gunakan kebenaran pada titik waktu tertentu untuk membuat himpunan data pelatihan yang mencerminkan nilai fitur pada saat pencatatan observasi label.
Python API Referensi API Python

Menyediakan fitur

Fitur Description
Penyimpanan Fitur Databricks Online Menyajikan data fitur ke aplikasi online dan model pembelajaran mesin real time. Didukung oleh Databricks Lakebase.
Penyajian Model dengan pencarian fitur otomatis Mencari nilai fitur secara otomatis dari toko online.
Titik Akhir Penyajian Fitur Menyajikan fitur untuk model dan aplikasi di luar Databricks.
Komputasi fitur sesuai permintaan Hitung nilai fitur pada saat inferensi.

Tata kelola dan jejak asal-usul fitur

Fitur Description
Pengelolaan dan jejak fitur Gunakan Unity Catalog untuk mengontrol akses ke tabel fitur dan menampilkan silsilah tabel fitur, model, atau fungsi.

Tutorials

Tutorial Description
Contoh buku catatan untuk memulai Buku catatan dasar. Memperlihatkan cara membuat tabel fitur, menggunakannya untuk melatih model, dan menjalankan penilaian batch menggunakan pencarian fitur otomatis. Juga menunjukkan UI Rekayasa Fitur untuk mencari fitur dan melihat silsilah data.
Contoh buku catatan Taxi. Menunjukkan proses pembuatan fitur, memperbaruinya, dan menggunakannya untuk pelatihan model dan inferensi secara batch.
Contoh: Menyebarkan dan mengkueri titik akhir penyajian fitur Tutorial dan contoh buku catatan memperlihatkan cara menyebarkan dan mengkueri fitur yang melayani titik akhir.
Contoh: gunakan fitur dengan aplikasi RAG terstruktur Tutorial yang menunjukkan cara menggunakan tabel online Databricks dan fitur yang melayani titik akhir untuk pengambilan aplikasi pembuatan tertambah (RAG).

Persyaratan

Untuk menggunakan Penyimpanan Fitur Databricks, ruang kerja Anda harus diaktifkan untuk Unity Catalog. Jika ruang kerja Anda tidak diaktifkan untuk Katalog Unity, lihat Penyimpanan Fitur Ruang Kerja (tidak digunakan lagi).

Tipe data yang didukung

Penyimpanan Fitur Databricks dan Penyimpanan Fitur Ruang Kerja warisan mendukung jenis data PySpark berikut:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalType, dan MapType didukung di semua versi Rekayasa Fitur di Katalog Unity dan di Penyimpanan Fitur Ruang Kerja versi 0.3.5 ke atas. [2] StructType didukung dalam Rekayasa Fitur v0.6.0 atau lebih tinggi.

Jenis data yang tercantum di atas mendukung jenis fitur yang umum dalam aplikasi pembelajaran mesin. Contohnya:

  • Anda dapat menyimpan vektor padat, tensor, dan sematan sebagai ArrayType.
  • Anda dapat menyimpan vektor tipis, tensor, dan sematan sebagai MapType.
  • Anda bisa menyimpan teks sebagai StringType.

Ketika diterbitkan ke penyimpanan online, fitur ArrayType dan MapType disimpan dalam format JSON.

UI Feature Store menampilkan metadata pada jenis data fitur:

Contoh jenis data kompleks

Informasi selengkapnya

Untuk informasi selengkapnya tentang praktik terbaik, unduh Panduan Komprehensif mengenai Penyimpanan Fitur.