Membangun sistem rekomendasi berbasis konten

Databricks
Machine Learning

Ide solusi

Artikel ini adalah ide solusi. Jika Anda ingin kami memperluas konten dengan informasi lebih lanjut, seperti potensi kasus penggunaan, layanan alternatif, pertimbangan implementasi, atau panduan harga, beri tahu kami dengan memberikan umpan balik GitHub.

Rekomendasi adalah pendorong pendapatan utama bagi banyak bisnis dan digunakan dalam berbagai jenis industri, termasuk ritel, berita, dan media. Dengan ketersediaan data dalam jumlah besar tentang aktivitas pelanggan, Anda dapat memberikan rekomendasi yang sangat relevan dengan menggunakan pembelajaran mesin.

Arsitektur

Diagram arsitektur yang menunjukkan pelatihan, evaluasi, dan pengembangan model pembelajaran mesin untuk personalisasi berbasis konten yang menggunakan Azure Databricks.

Unduh file PowerPoint arsitektur ini.

Aliran data

  1. Toko. Azure Data Lake Storage menyimpan data dalam jumlah besar tentang perilaku pengguna dan konsumen.

  2. Baca. Azure Databricks tersambung dan membaca dari Azure Data Lake Storage. Penyerapan ke Dalam Databricks memungkinkan praproscessing dan pelatihan untuk mendaftarkan model.

  3. Pra-proses. Praproses data membersihkan, mengubah, dan menyiapkan data untuk disalurkan ke model sistem rekomendasi.

  4. Kereta. Pelatihan memiliki dua langkah: rekayasa fitur dan pelatihan model. Selama pelatihan model, Azure Databricks menggunakan himpunan data yang telah diolah sebelumnya untuk melatih dan menjelaskan perilaku model rekomendasi terbaik.

  5. Pascaproscess. Pascaproscessing melibatkan evaluasi dan pemilihan model berdasarkan model mana yang berkinerja terbaik.

  6. Sebarkan. Azure Databricks mempertahankan model. Titik akhir yang dikelola batch menyebarkan model untuk paparan tampilan front-end. Saat model disebarkan, data baru dapat diakses melalui titik akhir baru. Rekomendasi batch dan hampir real-time didukung.

  7. Tulis. Antarmuka pengguna, seperti aplikasi web, dapat menggunakan hasil model yang disimpan. Hasilnya ditulis dan diambil dalam Azure Synapse. Model berjalan sebagai inferensi batch dan menyimpan hasilnya di penyimpanan data masing-masing.

Komponen

Arsitektur ini menggunakan komponen-komponen berikut:

  • Azure Data Lake Storage adalah serangkaian kemampuan penyimpanan yang didedikasikan untuk analitik big data dan yang menyediakan semantik sistem file, keamanan tingkat file, dan penskalaan.

  • Azure Databricks adalah kluster Apache Spark yang dikelola untuk pelatihan dan evaluasi model.

  • Azure Synapse Analytics adalah gudang data cloud yang cepat, fleksibel, dan tepercaya yang memungkinkan Anda menskalakan, menghitung, dan menyimpan secara elastis dan mandiri, dengan arsitektur pemrosesan paralel yang masif.

Detail skenario

Pendekatan yang dijelaskan dalam artikel ini berfokus pada pembangunan sistem rekomendasi berbasis konten. Untuk informasi selengkapnya tentang praktik terbaik membangun sistem rekomendasi, lihat dokumentasi dan contoh untuk Pemberi Rekomendasi di GitHub.

Contoh skenario ini menunjukkan bagaimana Anda dapat menggunakan pembelajaran mesin untuk mengotomatiskan personalisasi berbasis konten untuk pelanggan Anda. Solusi ini menggunakan Azure Databricks untuk melatih model yang memprediksi kemungkinan pengguna akan tertarik dengan item. titik akhir terkelola batch menyebarkan model tersebut sebagai layanan prediksi. Anda dapat menggunakan layanan ini untuk membuat rekomendasi yang dipersonalisasi dengan memberi peringkat item berdasarkan konten yang paling mungkin diminati pengguna.

Potensi penggunaan kasus

Solusi ini sangat ideal untuk industri ritel. Ini relevan dengan kasus penggunaan berikut:

  • Rekomendasi konten untuk situs web dan aplikasi seluler
  • Rekomendasi produk untuk situs e-niaga
  • Rekomendasi iklan yang ditampilkan untuk situs web

Jenis sistem rekomendasi

Ada tiga jenis utama sistem rekomendasi:

  • Pemfilteran kolaboratif. Pemfilteran kolaboratif mengidentifikasi pola serupa dalam perilaku pelanggan dan merekomendasikan item yang telah berinteraksi dengan pelanggan serupa lainnya. Keuntungan dari pemfilteran kolaboratif adalah kemudahan menghasilkan data—pengguna membuat data saat berinteraksi dengan daftar item dan produk. Selain itu, pelanggan dapat menemukan item dan produk baru selain yang dikumpulkan dari interaksi historis mereka. Namun, kelemahan pemfilteran kolaboratif adalah masalah cold start : karena ada kelangkaan interaksi antara pengguna dan penawaran baru, item yang baru ditambahkan tidak direkomendasikan oleh algoritma yang sepenuhnya bergantung pada interaksi pelanggan.

  • Berbasis konten. Rekomendasi berbasis konten menggunakan informasi tentang item untuk mempelajari preferensi pelanggan, dan merekomendasikan item yang berbagi properti dengan item yang sebelumnya berinteraksi dengan pelanggan. Sistem rekomendasi berbasis konten tidak terhambat oleh masalah cold-start dan dapat beradaptasi dengan pengenalan item baru. Namun, rekomendasi terbatas pada fitur item asli yang berinteraksi dengan pelanggan.

  • Metode hibrid. Pendekatan lain untuk membangun sistem rekomendasi adalah memadukan pemfilteran berbasis konten dan kolaboratif. Sistem ini merekomendasikan item berdasarkan peringkat pengguna dan informasi tentang item. Pendekatan hibrid memiliki keuntungan dari pemfilteran kolaboratif dan rekomendasi berbasis konten.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Kontributor lainnya:

  • | Andrew Ajaluwa Manajer Program
  • Gary Moore | Programmer/Writer

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Langkah berikutnya