Bagikan melalui


Model bahasa besar (LLM) pada Databricks

Azure Databricks memudahkan untuk mengakses dan membangun model bahasa besar yang tersedia untuk umum.

Databricks Runtime untuk Pembelajaran Mesin mencakup pustaka seperti Hugging Face Transformers dan LangChain yang memungkinkan Anda untuk mengintegrasikan model yang sudah dilatih sebelumnya atau pustaka sumber terbuka lainnya ke dalam alur kerja Anda. Dari sini, Anda dapat memanfaatkan kemampuan platform Azure Databricks untuk menyempurnakan LLM menggunakan data Anda sendiri untuk performa domain yang lebih baik.

Selain itu, Azure Databricks menawarkan fungsionalitas bawaan bagi pengguna SQL untuk mengakses dan bereksperimen dengan LLM seperti Azure OpenAI dan OpenAI menggunakan fungsi AI.

Penyempurnaan Model Fondasi

Penting

Fitur ini ada di Pratinjau Publik. Hubungi tim akun Databricks Anda untuk berpartisipasi dalam Pratinjau Umum.

Penyelarasan Model Dasar (sekarang bagian dari Pelatihan Model AI Mosaic) adalah sebuah antarmuka sederhana untuk terhubung dengan tumpukan pelatihan Databricks guna melakukan penyelarasan penuh model.

Anda dapat melakukan hal berikut menggunakan Penyesuaian Model Dasar:

  • Sesuaikan model dengan data kustom Anda, dengan titik pemeriksaan disimpan ke MLflow. Anda mempertahankan kontrol penuh atas model yang telah disempurnakan.
  • Daftarkan model secara otomatis ke Unity Catalog, memungkinkan pendistribusian yang mudah dengan layanan model.
  • Menyempurnakan model yang telah selesai dan bersifat kepemilikan dengan memuat bobot dari model yang sebelumnya telah disempurnakan.

Lihat Penyetelan Model Foundation.

Memeluk Transformers Wajah

Dengan Hugging Face Transformers pada Databricks, Anda dapat meningkatkan skala aplikasi batch pemrosesan bahasa alami (NLP) dan menyempurnakan model untuk aplikasi model bahasa berskala besar.

Pustaka Hugging Face transformers telah diinstal sebelumnya pada Databricks Runtime 10.4 LTS ML ke atas. Banyak model NLP populer bekerja paling baik pada perangkat keras GPU, sehingga Anda mungkin mendapatkan performa terbaik menggunakan perangkat keras GPU terbaru kecuali Anda menggunakan model yang dioptimalkan khusus untuk digunakan pada CPU.

DSPy

DSPy mengotomatiskan penyetelan permintaan dengan menerjemahkan tanda tangan bahasa alami yang ditentukan pengguna ke dalam instruksi lengkap dan contoh beberapa bidikan.

Lihat Membangun aplikasi AI generatif menggunakan DSPy di Azure Databricks sebagai contoh cara menggunakan DSPy.

LangChain

LangChain tersedia sebagai varian MLflow eksperimental yang memungkinkan pengguna LangChain memanfaatkan alat-alat yang canggih dan kemampuan pelacakan eksperimen MLflow langsung dari lingkungan Azure Databricks.

LangChain adalah kerangka kerja perangkat lunak yang dirancang untuk membantu membuat aplikasi yang menggunakan model bahasa besar (LLM) dan menggabungkannya dengan data eksternal untuk menghadirkan lebih banyak konteks pelatihan untuk LLM Anda.

Databricks Runtime ML termasuk langchain dalam Databricks Runtime 13.1 ML ke atas.

Pelajari tentang integrasi LangChain khusus Databricks.

Fungsi AI

Penting

Fitur ini ada di Pratinjau Publik.

Fungsi AI adalah fungsi SQL bawaan yang memungkinkan pengguna SQL untuk:

  • Gunakan API Model Databricks Foundation untuk menyelesaikan berbagai tugas pada data perusahaan Anda.
  • Akses model eksternal seperti GPT-4 dari OpenAI dan bereksperimenlah dengannya.
  • Model kueri yang dihosting oleh Mosaic AI Model Melayani titik akhir dari kueri SQL.