Bagikan melalui


Mulai mengkueri LLM di Databricks

Artikel ini menjelaskan cara mulai menggunakan API Model Foundation untuk melayani dan mengkueri LLM di Databricks.

Cara term mudah untuk mulai melayani dan mengkueri model LLM di Databricks adalah menggunakan API Model Foundation berdasarkan bayar per token . API menyediakan akses ke model fondasi populer dari titik akhir bayar per token yang secara otomatis tersedia di Antarmuka Pengguna Penyajian ruang kerja Databricks Anda. Lihat Model yang didukung untuk bayar per token.

Anda juga dapat menguji dan mengobrol dengan model bayar per token menggunakan AI Playground. Lihat Mengobrol dengan LLM dan prototipe aplikasi GenAI menggunakan AI Playground.

Untuk beban kerja produksi, terutama yang memiliki model yang disempurnakan atau yang memerlukan jaminan performa, Databricks merekomendasikan penggunaan API Model Foundation pada titik akhir throughput yang disediakan.

Persyaratan

Penting

Sebagai praktik terbaik keamanan untuk skenario produksi, Databricks merekomendasikan agar Anda menggunakan token OAuth mesin-ke-mesin untuk autentikasi selama produksi.

Untuk pengujian dan pengembangan, Databricks merekomendasikan penggunaan token akses pribadi milik perwakilan layanan alih-alih pengguna ruang kerja. Untuk membuat token untuk perwakilan layanan, lihat Mengelola token untuk perwakilan layanan.

Mulai menggunakan API Model Foundation

Contoh berikut dimaksudkan untuk dijalankan dalam buku catatan Databricks. Contoh kode mengkueri model Meta Llama 3.1 405B Instruct yang dilayani pada titik databricks-meta-llama-3-1-405b-instructakhir bayar per token .

Dalam contoh ini, Anda menggunakan klien OpenAI untuk mengkueri model dengan mengisi model bidang dengan nama model yang melayani titik akhir yang menghosting model yang ingin Anda kueri. Gunakan token akses pribadi Anda untuk mengisi DATABRICKS_TOKEN dan instans ruang kerja Databricks Anda untuk menghubungkan klien OpenAI ke Databricks.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Catatan

Jika Anda menemukan pesan ImportError: cannot import name 'OpenAI' from 'openai'berikut , tingkatkan versi Anda openai menggunakan !pip install -U openai. Setelah Anda menginstal paket, jalankan dbutils.library.restartPython().

Output yang diharapkan:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Langkah berikutnya