Bagikan melalui


Rekayasa fitur dan penyajian

Halaman ini mencakup kemampuan rekayasa fitur dan penyajian untuk ruang kerja yang diaktifkan untuk Katalog Unity. Jika ruang kerja Anda tidak diaktifkan untuk Unity Catalog, lihat Penyimpanan fitur ruang kerja (Warisan).

Mengapa menggunakan Databricks sebagai penyimpanan fitur Anda?

Dengan Databricks Data Intelligence Platform, seluruh alur kerja pelatihan model berlangsung pada satu platform:

  • Alur data yang menyerap data mentah, membuat tabel fitur, melatih model, dan melakukan inferensi batch. Saat Anda melatih dan mencatat model menggunakan rekayasa fitur di Unity Catalog, model dimas dengan metadata fitur. Saat Anda menggunakan model untuk penilaian batch atau inferensi online, model tersebut secara otomatis mengambil nilai fitur. Pemanggil tidak perlu mengetahuinya atau menyertakan logika untuk mencari atau menggabungkan fitur untuk mendapatkan data baru.
  • Model dan fitur yang melayani titik akhir yang tersedia dengan satu klik dan yang memberikan latensi milidetik.
  • Pemantauan data dan model.

Selain itu, platform ini menyediakan hal-hal berikut:

  • Penemuan fitur. Anda dapat menelusuri dan mencari fitur di antarmuka pengguna Databricks.
  • Pemerintahan. Tabel fitur, fungsi, dan model semuanya diatur oleh Unity Catalog. Saat Anda melatih model, model tersebut mewarisi izin dari data yang dilatihnya.
  • Silsilah data. Saat Anda membuat tabel fitur di Azure Databricks, sumber data yang digunakan untuk membuat tabel fitur disimpan dan dapat diakses. Untuk setiap fitur dalam tabel fitur, Anda juga dapat mengakses model, buku catatan, pekerjaan, dan titik akhir yang menggunakan fitur tersebut.
  • Akses lintas ruang kerja. Tabel fitur, fungsi, dan model secara otomatis tersedia di ruang kerja apa pun yang memiliki akses ke katalog.

Persyaratan

  • Ruang kerja Anda harus diaktifkan untuk Katalog Unity.
  • Rekayasa fitur di Unity Catalog memerlukan Databricks Runtime 13.3 LTS atau lebih tinggi.

Jika ruang kerja Anda tidak memenuhi persyaratan ini, lihat Penyimpanan fitur Ruang Kerja (Warisan) tentang cara menggunakan penyimpanan fitur ruang kerja.

Bagaimana cara kerja rekayasa fitur pada Databricks?

Alur kerja pembelajaran mesin yang khas menggunakan rekayasa fitur pada Databricks mengikuti jalur ini:

  1. Tulis kode untuk mengubah data mentah menjadi fitur dan buat Spark DataFrame yang berisi fitur yang diinginkan.
  2. Buat tabel Delta di Katalog Unity. Setiap tabel Delta dengan kunci primer secara otomatis merupakan tabel fitur.
  3. Melatih dan mencatat model menggunakan tabel fitur. Ketika Anda melakukan hal ini, model akan menyimpan spesifikasi fitur yang digunakan untuk pelatihan. Ketika model digunakan untuk inferensi, model akan menggabungkan fitur dari tabel fitur yang sesuai secara otomatis.
  4. Mendaftarkan model pada Registri Model.

Kini Anda dapat menggunakan model untuk membuat prediksi pada data baru. Model ini akan mengambil fitur yang dibutuhkan dari Feature Store secara otomatis.

Alur kerja Feature Store untuk kasus penggunaan pembelajaran mesin dalam batch.

Untuk kasus penggunaan penyajian real time, terbitkan fitur ke tabel online. Toko online pihak ketiga juga didukung. Lihat Toko online pihak ketiga.

Pada waktu inferensi, model membaca fitur pra-komputasi dari toko online dan menggabungkannya dengan data yang disediakan dalam permintaan klien ke titik akhir penyajian model.

Alur Feature Store untuk model pembelajaran mesin yang dilayani.

Mulai menggunakan rekayasa fitur — contoh buku catatan

Untuk memulai, coba contoh buku catatan ini. Notebook dasar memanah Anda melalui cara membuat tabel fitur, menggunakannya untuk melatih model, lalu melakukan penilaian batch menggunakan pencarian fitur otomatis. Ini juga memperkenalkan Anda ke UI Rekayasa Fitur dan menunjukkan bagaimana Anda dapat menggunakannya untuk mencari fitur dan memahami bagaimana fitur dibuat dan digunakan.

Buku catatan contoh Rekayasa Fitur Dasar di Katalog Unity

Dapatkan buku catatan

Buku catatan contoh taksi mengilustrasikan proses pembuatan fitur, memperbaruinya, dan menggunakannya untuk pelatihan model dan inferensi batch.

Rekayasa Fitur di buku catatan contoh taksi Katalog Unity

Dapatkan buku catatan

Tipe data yang didukung

Rekayasa fitur di Unity Catalog dan penyimpanan fitur ruang kerja mendukung jenis data PySpark berikut:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalType, dan MapType didukung di semua versi Rekayasa Fitur di Katalog Unity dan di Penyimpanan Fitur Ruang Kerja v0.3.5 atau lebih tinggi. [2] StructType didukung dalam Rekayasa Fitur v0.6.0 atau lebih tinggi.

Jenis data yang tercantum di atas mendukung jenis fitur yang umum dalam aplikasi pembelajaran mesin. Contohnya:

  • Anda dapat menyimpan vektor tebal, tensor, dan sematan sebagai ArrayType.
  • Anda dapat menyimpan vektor tipis, tensor, dan sematan sebagai MapType.
  • Anda bisa menyimpan teks sebagai StringType.

Ketika diterbitkan ke penyimpanan online, fitur ArrayType dan MapType disimpan dalam format JSON.

UI Feature Store menampilkan metadata pada jenis data fitur:

Contoh jenis data kompleks

Informasi selengkapnya

Untuk informasi selengkapnya tentang praktik terbaik, unduh Panduan Komprehensif untuk Penyimpanan Fitur.