Bagikan melalui


Penyajian model dengan Azure Databricks

Artikel ini menjelaskan Azure Databricks Model Serving, termasuk kelebihan dan batasannya.

Apa itu Model Serving?

Databricks Model Serving menyediakan antarmuka terpadu untuk menyebarkan, mengatur, dan mengkueri model AI. Setiap model yang Anda layani tersedia sebagai REST API yang dapat Anda integrasikan ke dalam aplikasi web atau klien Anda.

Model Serving menyediakan layanan dengan ketersediaan tinggi dan latensi rendah untuk menyebarkan model. Layanan ini secara otomatis meningkatkan atau menurunkan skala untuk memenuhi perubahan permintaan, menghemat biaya infrastruktur sambil mengoptimalkan performa latensi. Fungsionalitas ini menggunakan komputasi tanpa server. Lihat halaman Harga Model Melayani untuk detail selengkapnya.

Penyajian model mendukung penyajian:

  • Model kustom. Ini adalah model Python yang dimas dalam format MLflow. Mereka dapat didaftarkan baik di Katalog Unity atau di registri model ruang kerja. Contohnya termasuk model transformator scikit-learn, XGBoost, PyTorch, dan Hugging Face.
  • Model terbuka canggih yang disediakan oleh FOUNDATION Model API. Model ini adalah arsitektur model fondasi yang dikumpulkan yang mendukung inferensi yang dioptimalkan. Model dasar, seperti Llama-2-70B-chat, BGE-Large, dan Mistral-7B tersedia untuk digunakan segera dengan harga bayar per token , dan beban kerja yang memerlukan jaminan performa dan varian model yang disempurnakan dapat disebarkan dengan throughput yang disediakan.
  • Model eksternal. Ini adalah model yang dihosting di luar Databricks. Titik akhir yang melayani model eksternal dapat diatur secara terpusat dan pelanggan dapat menetapkan batas tarif dan kontrol akses untuk mereka. Contohnya termasuk model fondasi seperti, GPT-4 OpenAI, Claude Anthropic, dan lainnya.

Catatan

Anda dapat berinteraksi dengan model bahasa besar yang didukung menggunakan AI Playground. AI Playground adalah lingkungan seperti obrolan tempat Anda dapat menguji, meminta, dan membandingkan LLM. Fungsionalitas ini tersedia di ruang kerja Azure Databricks Anda.

Penyajian model menawarkan REST API terpadu dan API Penyebaran MLflow untuk TUGAS CRUD dan kueri. Selain itu, ini menyediakan satu UI untuk mengelola semua model Anda dan titik akhir penyajian masing-masing. Anda juga dapat mengakses model langsung dari SQL menggunakan fungsi AI untuk integrasi yang mudah ke dalam alur kerja analitik.

Untuk tutorial pengantar tentang cara menyajikan model kustom di Azure Databricks, lihat Tutorial: Menyebarkan dan mengkueri model kustom.

Untuk tutorial memulai tentang cara mengkueri model fondasi di Databricks, lihat Mulai mengkueri LLM di Databricks.

Mengapa menggunakan Model Serving?

  • Menyebarkan dan mengkueri model apa pun: Model Serving menyediakan antarmuka terpadu sehingga Anda dapat mengelola semua model di satu lokasi dan mengkuerinya dengan satu API, terlepas dari apakah model tersebut dihosting di Databricks atau secara eksternal. Pendekatan ini menyederhanakan proses bereksperimen dengan, menyesuaikan, dan menyebarkan model dalam produksi di berbagai cloud dan penyedia.

  • Sesuaikan model dengan aman dengan data privat Anda: Dibangun di Platform Kecerdasan Data, Model Melayani menyederhanakan integrasi fitur dan penyematan ke dalam model melalui integrasi asli dengan Databricks Feature Store dan Mosaic AI Vector Search. Untuk akurasi yang lebih ditingkatkan dan pemahaman kontekstual, model dapat disempurnakan dengan data kepemilikan dan disebarkan dengan mudah pada Model Serving.

  • Mengatur dan memantau model: Antarmuka pengguna Penyajian memungkinkan Anda mengelola semua titik akhir model secara terpusat di satu tempat, termasuk yang dihosting secara eksternal. Anda dapat mengelola izin, melacak, dan mengatur batas penggunaan, dan memantau kualitas semua jenis model. Ini memungkinkan Anda untuk mendemokratisasi akses ke SaaS dan membuka LLM dalam organisasi Anda sambil memastikan pagar pembatas yang sesuai diberlakukan.

  • Kurangi biaya dengan inferensi yang dioptimalkan dan penskalaan cepat: Databricks telah menerapkan berbagai pengoptimalan untuk memastikan Anda mendapatkan throughput dan latensi terbaik untuk model besar. Titik akhir secara otomatis meningkatkan atau menurunkan skala untuk memenuhi perubahan permintaan, menghemat biaya infrastruktur sambil mengoptimalkan performa latensi.

  • Membawa keandalan dan keamanan ke Model Melayani: Model Melayani dirancang untuk ketersediaan tinggi, penggunaan produksi latensi rendah dan dapat mendukung lebih dari 25 ribu kueri per detik dengan latensi overhead kurang dari 50 mdtk. Beban kerja penyajian dilindungi oleh beberapa lapisan keamanan, memastikan lingkungan yang aman dan andal bahkan untuk tugas yang paling sensitif sekalipun.

Persyaratan

  • Model terdaftar di Unity Catalog atau Registri Model Ruang Kerja.
  • Izin pada model terdaftar seperti yang dijelaskan dalam Melayani ACL titik akhir.
  • MLflow 1.29 atau lebih tinggi

Mengaktifkan Model Melayani untuk ruang kerja Anda

Tidak ada langkah tambahan yang diperlukan untuk mengaktifkan Model Melayani di ruang kerja Anda.

Keterbatasan dan ketersediaan wilayah

Databricks Model Serving memberlakukan batas default untuk memastikan performa yang andal. Lihat Batas dan wilayah Layanan Model. Jika Anda memiliki umpan balik tentang batas ini atau titik akhir di wilayah yang tidak didukung, hubungi tim akun Databricks Anda.

Perlindungan data dalam Model Serving

Databricks menganggap serius keamanan data. Databricks memahami pentingnya data yang Anda analisis menggunakan Databricks Model Serving, dan menerapkan kontrol keamanan berikut untuk melindungi data Anda.

  • Setiap permintaan pelanggan ke Model Serving secara logis diisolasi, diautentikasi, dan diotorisasi.
  • Databricks Model Serving mengenkripsi semua data tidak aktif (AES-256) dan saat transit (TLS 1.2+).

Untuk semua akun berbayar, Databricks Model Serving tidak menggunakan input pengguna yang dikirimkan ke layanan atau output dari layanan untuk melatih model apa pun atau meningkatkan layanan Databricks apa pun.

Untuk API Model Databricks Foundation, sebagai bagian dari penyediaan layanan, Databricks dapat memproses sementara dan menyimpan input dan output untuk tujuan mencegah, mendeteksi, dan mengurangi penyalahgunaan atau penggunaan yang berbahaya. Input dan output Anda diisolasi dari pelanggan lain, disimpan di wilayah yang sama dengan ruang kerja Anda hingga tiga puluh (30) hari, dan hanya dapat diakses untuk mendeteksi dan menanggapi masalah keamanan atau penyalahgunaan.

Sumber Daya Tambahan: