Udostępnij za pośrednictwem


Interfejsy API podstawowych modeli usługi Databricks

Ten artykuł zawiera omówienie interfejsów API modelu podstawowego w usłudze Azure Databricks. Zawiera wymagania dotyczące użycia, obsługiwanych modeli i ograniczeń.

Co to są interfejsy API modelu usługi Databricks Foundation?

Usługa Mosaic AI Model Serving obsługuje teraz interfejsy API modelu foundation, które umożliwiają uzyskiwanie dostępu do najnowocześniejszego otwartego modelu i wykonywanie zapytań o nie z poziomu obsługiwanego punktu końcowego. Za pomocą interfejsów API modelu Foundation można szybko i łatwo tworzyć aplikacje korzystające z wysokiej jakości modelu generowania sztucznej inteligencji bez konieczności utrzymywania własnego wdrożenia modelu.

Interfejsy API modelu foundation są dostępne w dwóch trybach cenowych:

  • Płatność za token: jest to najprostszy sposób na rozpoczęcie uzyskiwania dostępu do modeli podstawowych w usłudze Databricks i zaleca się rozpoczęcie podróży za pomocą interfejsów API modelu Foundation. Ten tryb nie jest przeznaczony dla aplikacji o wysokiej przepływności ani wydajnych obciążeń produkcyjnych.
  • Aprowizowana przepływność: ten tryb jest zalecany dla wszystkich obciążeń produkcyjnych, zwłaszcza tych, które wymagają wysokiej przepływności, gwarancji wydajności, dostrojonych modeli lub mają dodatkowe wymagania dotyczące zabezpieczeń. Aprowizowanie punktów końcowych przepływności jest dostępne z certyfikatami zgodności, takimi jak HIPAA.

Aby uzyskać wskazówki dotyczące korzystania z tych dwóch trybów i obsługiwanych modeli, zobacz Use Foundation Model APIs (Korzystanie z interfejsów API modelu foundation).

Za pomocą interfejsów API modelu foundation można wykonywać następujące czynności:

  • Wykonaj zapytanie względem uogólnionego modułu LLM, aby zweryfikować ważność projektu przed zainwestowaniem większej ilości zasobów.
  • Wykonaj zapytanie względem uogólnionego modułu LLM, aby utworzyć szybką weryfikację koncepcji aplikacji opartej na usłudze LLM przed zainwestowaniem w trenowanie i wdrażanie modelu niestandardowego.
  • Użyj modelu podstawowego wraz z bazą danych wektorów, aby utworzyć czatbota przy użyciu rozszerzonej generacji pobierania (RAG).
  • Zastąp zastrzeżone modele otwartymi alternatywami, aby zoptymalizować koszt i wydajność.
  • Efektywnie porównaj moduły LLM, aby sprawdzić, który z nich jest najlepszym kandydatem do użycia, lub zamienić model produkcyjny z lepszym rozwiązaniem.
  • Utwórz aplikację LLM na potrzeby programowania lub produkcji na podstawie skalowalnego, opartego na umowie SLA rozwiązania obsługującego usługę LLM, które może obsługiwać wzrost ruchu produkcyjnego.

Wymagania

  • Token interfejsu API usługi Databricks do uwierzytelniania żądań punktów końcowych.
  • Obliczenia bezserwerowe (w przypadku modeli aprowizowanej przepływności).
  • Obszar roboczy w obsługiwanym regionie:

Uwaga

Aby uzyskać informacje na temat aprowizowania obciążeń przepływności korzystających z modelu podstawowego DBRX, zobacz Limity interfejsów API modelu foundation dla dostępności regionów .

Korzystanie z interfejsów API modelu foundation

Istnieje wiele opcji używania interfejsów API modelu foundation.

Interfejsy API są zgodne z interfejsem OpenAI, dzięki czemu można nawet używać klienta OpenAI do wykonywania zapytań. Możesz również użyć interfejsu użytkownika, interfejsu API modeli podstawowych zestawu SDK języka Python, zestawu SDK wdrożeń platformy MLflow lub interfejsu API REST do wykonywania zapytań dotyczących obsługiwanych modeli. Usługa Databricks zaleca korzystanie z zestawu SDK wdrożeń platformy MLflow lub interfejsu API REST na potrzeby interakcji rozszerzonych oraz interfejsu użytkownika do wypróbowanie tej funkcji.

Zobacz Modele podstaw zapytań, aby zapoznać się z przykładami oceniania.

Interfejsy API modelu modelu płatności za token platformy Azure

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Modele płatności za tokeny są dostępne w obszarze roboczym usługi Azure Databricks i są zalecane do rozpoczęcia pracy. Aby uzyskać dostęp do nich w obszarze roboczym, przejdź do karty Obsługa na pasku bocznym po lewej stronie. Interfejsy API modelu foundation znajdują się w górnej części widoku listy Punkty końcowe.

Lista punktów końcowych obsługujących

W poniższej tabeli przedstawiono podsumowanie obsługiwanych modeli płatności za token. Aby uzyskać dodatkowe informacje o modelu, zobacz Obsługiwane modele dla tokenu płatności za token .

Jeśli chcesz przetestować te modele i porozmawiać z nimi, możesz to zrobić przy użyciu narzędzia AI Playground. Zobacz Chat with supported LLMs using AI Playground (Czat z obsługiwanymi maszynami LLM przy użyciu środowiska zabaw dla sztucznej inteligencji).

Ważne

Modele MPT 7B Poinstruuj i MPT 30B Poinstruuj są przestarzałe. Po 30 sierpnia 2024 r. te modele nie będą już obsługiwane.

Model Typ zadania Punkt końcowy
DBRX Poinstruowanie Czat databricks-dbrx-instruct
Meta-Llama-3-70B-Poinstruowanie Czat databricks-meta-llama-3-70b-instruct
Meta-Llama-2-70B-Chat Czat databricks-llama-2-70b-chat
Mixtral-8x7B Poinstruowanie Czat databricks-mixtral-8x7b-instruct
Poinstruowanie MPT 7B Zakończenie databricks-mpt-7b-instruct
MpT 30B Poinstruowanie Zakończenie databricks-mpt-30b-instruct
GTE Large (angielski) Osadzanie databricks-gte-large-en
Duży BGE (angielski) Osadzanie databricks-bge-large-en
  • Zobacz Modele podstaw zapytań, aby uzyskać wskazówki dotyczące wykonywania zapytań względem interfejsów API modelu foundation.
  • Zobacz Dokumentacja interfejsu API REST modelu foundation, aby uzyskać wymagane parametry i składnię.

Aprowizowane interfejsy API modelu podstawowego przepływności

Aprowizowana przepływność jest ogólnie dostępna, a usługa Databricks zaleca aprowizowaną przepływność dla obciążeń produkcyjnych. Aprowizowana przepływność zapewnia punkty końcowe ze zoptymalizowanym wnioskowaniem dla obciążeń modelu podstawowego, które wymagają gwarancji wydajności. Zobacz Aprowizowanie interfejsów API modelu przepływności foundation, aby zapoznać się z przewodnikiem krok po kroku dotyczącym wdrażania interfejsów API modelu foundation w trybie aprowizacji.

Obsługa aprowizowanej przepływności obejmuje:

  • Podstawowe modele wszystkich rozmiarów, takie jak DBRX Base. Dostęp do modeli bazowych można uzyskać za pomocą witryny Databricks Marketplace lub możesz też pobrać je z witryny Hugging Face lub innego źródła zewnętrznego i zarejestrować je w wykazie aparatu Unity. Drugie podejście działa z dowolnym dostosowanym wariantem obsługiwanych modeli, niezależnie od zastosowanej metody dostrajania.
  • Dostosowane warianty modeli bazowych, takie jak LlamaGuard-7B. Obejmuje to modele, które są dostosowane do zastrzeżonych danych.
  • W pełni niestandardowe wagi i tokenizatory, takie jak te trenowane od podstaw lub ciągłe wstępnie wytrenowane lub inne odmiany przy użyciu architektury modelu podstawowego (takich jak CodeLlama, Yi-34B-Chat lub SOLAR-10.7B).

Poniższa tabela zawiera podsumowanie obsługiwanych architektur modelu dla aprowizowanej przepływności.

Architektura modelu Typy zadań Uwagi
DBRX Czat lub ukończenie Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów .
Meta Llama 3 Czat lub ukończenie
Meta Llama 2 Czat lub ukończenie
Mistral Czat lub ukończenie
Mixtral Czat lub ukończenie
MPT Czat lub ukończenie
BGE v1.5 (angielski) Osadzanie

Ograniczenia

Zobacz Limity i regiony obsługi modeli.

Dodatkowe zasoby