Aracılığıyla paylaş


Dağıtılmış Büyük Dil Modeli (LLM) toplu tahmini

Önemli

Bu özellik Beta sürümündedir. Çalışma alanı yöneticileri Bu özelliğe erişimi Önizlemeler sayfasından denetleyebilir. Bkz. Azure Databricks önizlemelerini yönetme.

Bu sayfada, sunucusuz GPU işlemlerinde yapay zeka iş yükleri için ölçeklenebilir bir veri işleme kitaplığı olan Ray Data kullanılarak LLM toplu çıkarımı için not defteri örnekleri sağlanmaktadır.

Ray Data ile vLLM kullanarak toplu çıkarım

Bu not defteri, sunucusuz GPU'da Ray Data ve vLLM kullanarak LLM çıkarımının uygun ölçekte nasıl çalıştırileceğini gösterir. Dağıtılmış çıkarım için çok düğümlü A10 GPU'ları otomatik olarak sağlamak ve yönetmek için dağıtılmış sunucusuz GPU API'sini kullanır.

vLLM Toplu İşlem Çıkarımı

Dizüstü bilgisayar al

Ray Data ile SGLang kullanarak toplu çıkarım

SGLang , LLM'ler için yüksek performanslı bir hizmet çerçevesidir. Bu not defteri, Databricks sunucusuz GPU'da SGLang ve Ray Data kullanarak LLM toplu çıkarımlarının nasıl çalıştırileceğini gösterir.

SGLang Toplu İnferans

Dizüstü bilgisayar al