Mulai mengkueri LLM di Databricks
Artikel ini menjelaskan cara mulai menggunakan API Model Foundation untuk melayani dan mengkueri LLM di Databricks.
Cara term mudah untuk mulai melayani dan mengkueri model LLM di Databricks adalah menggunakan API Model Foundation berdasarkan bayar per token . API menyediakan akses ke model fondasi populer dari titik akhir bayar per token yang secara otomatis tersedia di Antarmuka Pengguna Penyajian ruang kerja Databricks Anda. Lihat Model yang didukung untuk bayar per token.
Anda juga dapat menguji dan mengobrol dengan model bayar per token menggunakan AI Playground. Lihat Mengobrol dengan LLM dan prototipe aplikasi GenAI menggunakan AI Playground.
Untuk beban kerja produksi, terutama yang memiliki model yang disempurnakan atau yang memerlukan jaminan performa, Databricks merekomendasikan penggunaan API Model Foundation pada titik akhir throughput yang disediakan.
Persyaratan
- Ruang kerja Databricks di wilayah yang didukung untuk API Model Foundation bayar per token.
- Token akses pribadi Databricks untuk mengkueri dan mengakses titik akhir Mosaic AI Model Serving menggunakan klien OpenAI.
Penting
Sebagai praktik terbaik keamanan untuk skenario produksi, Databricks merekomendasikan agar Anda menggunakan token OAuth mesin-ke-mesin untuk autentikasi selama produksi.
Untuk pengujian dan pengembangan, Databricks merekomendasikan penggunaan token akses pribadi milik perwakilan layanan alih-alih pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.
Mulai menggunakan API Model Foundation
Contoh berikut dimaksudkan untuk dijalankan dalam buku catatan Databricks. Contoh kode mengkueri model Meta Llama 3.1 405B Instruct yang dilayani pada titik databricks-meta-llama-3-1-405b-instruct
akhir bayar per token .
Dalam contoh ini, Anda menggunakan klien OpenAI untuk mengkueri model dengan mengisi model
bidang dengan nama model yang melayani titik akhir yang menghosting model yang ingin Anda kueri. Gunakan token akses pribadi Anda untuk mengisi DATABRICKS_TOKEN
dan instans ruang kerja Databricks Anda untuk menghubungkan klien OpenAI ke Databricks.
from openai import OpenAI
import os
DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")
client = OpenAI(
api_key=DATABRICKS_TOKEN, # your personal access token
base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are an AI assistant",
},
{
"role": "user",
"content": "What is a mixture of experts model?",
}
],
model="databricks-meta-llama-3-1-405b-instruct",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
Catatan
Jika Anda menemukan pesan ImportError: cannot import name 'OpenAI' from 'openai'
berikut , tingkatkan versi Anda openai
menggunakan !pip install -U openai
. Setelah Anda menginstal paket, jalankan dbutils.library.restartPython()
.
Output yang diharapkan:
{
"id": "xxxxxxxxxxxxx",
"object": "chat.completion",
"created": "xxxxxxxxx",
"model": "databricks-meta-llama-3-1-405b-instruct",
"choices": [
{
"index": 0,
"message":
{
"role": "assistant",
"content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
},
"finish_reason": "stop"
}
],
"usage":
{
"prompt_tokens": 123,
"completion_tokens": 23,
"total_tokens": 146
}
}
Langkah berikutnya
- Gunakan taman bermain AI untuk mencoba model yang berbeda dalam antarmuka obrolan yang sudah dikenal.
- Mengkueri model AI generatif.
- Model akses yang dihosting di luar Databricks menggunakan model eksternal.
- Pelajari cara menyebarkan model yang disempurnakan menggunakan titik akhir throughput yang disediakan.
- Jelajahi metode untuk memantau kualitas model dan kesehatan titik akhir.