Interfejsy API podstawowych modeli usługi Databricks
Ten artykuł zawiera omówienie interfejsów API modelu podstawowego w usłudze Azure Databricks. Zawiera wymagania dotyczące użycia, obsługiwanych modeli i ograniczeń.
Co to są interfejsy API modelu usługi Databricks Foundation?
Usługa Mosaic AI Model Serving obsługuje teraz interfejsy API modelu foundation, które umożliwiają uzyskiwanie dostępu do najnowocześniejszego otwartego modelu i wykonywanie zapytań o nie z poziomu obsługiwanego punktu końcowego. Za pomocą interfejsów API modelu Foundation można szybko i łatwo tworzyć aplikacje korzystające z wysokiej jakości modelu generowania sztucznej inteligencji bez konieczności utrzymywania własnego wdrożenia modelu. Interfejsy API modelu foundation to wyznaczona usługa usługi Databricks, co oznacza, że używa usługi Databricks Geos do zarządzania miejscem przechowywania danych podczas przetwarzania zawartości klienta.
Interfejsy API modelu foundation są dostępne w dwóch trybach cenowych:
- Płatność za token: jest to najprostszy sposób na rozpoczęcie uzyskiwania dostępu do modeli podstawowych w usłudze Databricks i zaleca się rozpoczęcie podróży za pomocą interfejsów API modelu Foundation. Ten tryb nie jest przeznaczony dla aplikacji o wysokiej przepływności ani wydajnych obciążeń produkcyjnych.
- Aprowizowana przepływność: ten tryb jest zalecany dla wszystkich obciążeń produkcyjnych, zwłaszcza tych, które wymagają wysokiej przepływności, gwarancji wydajności, dostrojonych modeli lub mają dodatkowe wymagania dotyczące zabezpieczeń. Aprowizowanie punktów końcowych przepływności jest dostępne z certyfikatami zgodności, takimi jak HIPAA.
Aby uzyskać wskazówki dotyczące korzystania z tych dwóch trybów i obsługiwanych modeli, zobacz Use Foundation Model APIs (Korzystanie z interfejsów API modelu foundation).
Za pomocą interfejsów API modelu foundation można wykonywać następujące czynności:
- Wykonaj zapytanie względem uogólnionego modułu LLM, aby zweryfikować ważność projektu przed zainwestowaniem większej ilości zasobów.
- Wykonaj zapytanie względem uogólnionego modułu LLM, aby utworzyć szybką weryfikację koncepcji aplikacji opartej na usłudze LLM przed zainwestowaniem w trenowanie i wdrażanie modelu niestandardowego.
- Użyj modelu podstawowego wraz z bazą danych wektorów, aby utworzyć czatbota przy użyciu rozszerzonej generacji pobierania (RAG).
- Zastąp zastrzeżone modele otwartymi alternatywami, aby zoptymalizować koszt i wydajność.
- Efektywnie porównaj moduły LLM, aby sprawdzić, który z nich jest najlepszym kandydatem do użycia, lub zamienić model produkcyjny z lepszym rozwiązaniem.
- Utwórz aplikację LLM na potrzeby programowania lub produkcji na podstawie skalowalnego, opartego na umowie SLA rozwiązania obsługującego usługę LLM, które może obsługiwać wzrost ruchu produkcyjnego.
Wymagania
- Token interfejsu API usługi Databricks do uwierzytelniania żądań punktów końcowych.
- Obliczenia bezserwerowe (w przypadku modeli aprowizowanej przepływności).
- Obszar roboczy w obsługiwanym regionie:
- Regiony płatności za token.
- Aprowizowanie regionów przepływności.
Korzystanie z interfejsów API modelu foundation
Istnieje wiele opcji używania interfejsów API modelu foundation.
Interfejsy API są zgodne z interfejsem OpenAI, więc do wykonywania zapytań można użyć klienta OpenAI. Możesz również użyć interfejsu użytkownika, interfejsu API modeli podstawowych zestawu SDK języka Python, zestawu SDK wdrożeń platformy MLflow lub interfejsu API REST do wykonywania zapytań dotyczących obsługiwanych modeli. Usługa Databricks zaleca korzystanie z zestawu SDK klienta openAI lub interfejsu API na potrzeby interakcji rozszerzonych oraz interfejsu użytkownika do wypróbowanie tej funkcji.
Zobacz Modele sztucznej inteligencji generowania zapytań, aby uzyskać przykłady oceniania.
Interfejsy API modelu modelu płatności za token platformy Azure
Modele płatności za tokeny są dostępne w obszarze roboczym usługi Azure Databricks i są zalecane do rozpoczęcia pracy. Aby uzyskać dostęp do nich w obszarze roboczym, przejdź do karty Obsługa na pasku bocznym po lewej stronie. Interfejsy API modelu foundation znajdują się w górnej części widoku listy Punkty końcowe.
W poniższej tabeli przedstawiono podsumowanie obsługiwanych modeli płatności za token. Aby uzyskać dodatkowe informacje o modelu, zobacz Obsługiwane modele dla tokenu płatności za token .
Jeśli chcesz przetestować te modele i porozmawiać z nimi, możesz to zrobić przy użyciu narzędzia AI Playground. Zobacz Chat with LLMs and prototype GenAI apps using AI Playground (Czat z modułami LLM i prototypowymi aplikacjami GenAI korzystającymi ze środowiska sztucznej inteligencji).
Ważne
- Od 23 lipca 2024 r. meta-Llama-3.1-70B-Instruct zastępuje obsługę punktów końcowych meta-Llama-3-70B-Instruct w interfejsach API modelu foundation pay-per-token.
- Meta-Llama-3.1-405B-Instruct to największy otwarty dostępny najnowocześniejsze model dużego języka, utworzony i wyszkolony przez meta i dystrybuowany przez usługę Azure Machine Learning przy użyciu wykazu modeli AzureML.
- Następujące modele są teraz wycofane. Zobacz Wycofane modele , aby zapoznać się z zalecanymi modelami zastępczymi.
- Llama 2 70B Chat
- Poinstruowanie MPT 7B
- MpT 30B Poinstruowanie
Model | Typ zadania | Punkt końcowy | Uwagi |
---|---|---|---|
GTE Large (angielski) | Osadzanie | databricks-gte-large-en |
Nie generuje znormalizowanych osadzeń. |
Meta-Llama-3.1-70B-Poinstruowanie | Czat | databricks-meta-llama-3-1-70b-instruct |
|
Meta-Llama-3.1-405B-Poinstruowanie* | Czat | databricks-meta-llama-3-1-405b-instruct |
Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów . |
DBRX Poinstruowanie | Czat | databricks-dbrx-instruct |
Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów . |
Mixtral-8x7B Poinstruowanie | Czat | databricks-mixtral-8x7b-instruct |
Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów . |
Duży BGE (angielski) | Osadzanie | databricks-bge-large-en |
Zobacz Podstawowe limity interfejsów API modelu, aby uzyskać dostępność regionów . |
*
Skontaktuj się z zespołem konta usługi Databricks, jeśli wystąpią błędy punktu końcowego lub błędy stabilizacji podczas korzystania z tego modelu.
- Zobacz Modele sztucznej inteligencji generowania zapytań, aby uzyskać wskazówki dotyczące wykonywania zapytań względem interfejsów API modelu foundation.
- Zobacz Dokumentacja interfejsu API REST modelu foundation, aby uzyskać wymagane parametry i składnię.
Aprowizowane interfejsy API modelu podstawowego przepływności
Aprowizowana przepływność zapewnia punkty końcowe ze zoptymalizowanym wnioskowaniem dla obciążeń modelu podstawowego, które wymagają gwarancji wydajności. Usługa Databricks zaleca aprowizowaną przepływność dla obciążeń produkcyjnych. Zobacz Aprowizowanie interfejsów API modelu przepływności foundation, aby zapoznać się z przewodnikiem krok po kroku dotyczącym wdrażania interfejsów API modelu foundation w trybie aprowizacji.
Obsługa aprowizowanej przepływności obejmuje:
- Podstawowe modele wszystkich rozmiarów, takie jak DBRX Base. Dostęp do modeli bazowych można uzyskać za pomocą witryny Databricks Marketplace lub możesz też pobrać je z witryny Hugging Face lub innego źródła zewnętrznego i zarejestrować je w wykazie aparatu Unity. Drugie podejście działa z dowolnym dostosowanym wariantem obsługiwanych modeli, niezależnie od zastosowanej metody dostrajania.
- Dostosowane warianty modeli bazowych, takie jak LlamaGuard-7B lub
meta-llama/Llama-3.1-8B
. Obejmuje to modele, które są dostosowane do zastrzeżonych danych. - W pełni niestandardowe wagi i tokenizatory, takie jak te wytrenowane od podstaw lub dalsze wstępnie wytrenowane lub inne odmiany przy użyciu architektury modelu podstawowego (np. CodeLlama).
Poniższa tabela zawiera podsumowanie obsługiwanych architektur modelu dla aprowizowanej przepływności.
Ważne
Meta Llama 3.2 jest licencjonowany na licencję społeczności LLAMA 3.2, Copyright © Meta Platform, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z warunkami niniejszej licencji oraz zasadami dopuszczalnego użytkowania Llama 3.2.
Meta Llama 3.1 są licencjonowane na licencję społeczności LLAMA 3.1, Copyright © Meta Platform, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.
Architektura modelu | Typy zadań | Uwagi |
---|---|---|
Meta Llama 3.2 3B | Czat lub ukończenie | Zobacz Aprowizowanie limitów przepływności dla obsługiwanych wariantów modelu i dostępności regionu. |
Meta Llama 3.2 1B | Czat lub ukończenie | Zobacz Aprowizowanie limitów przepływności dla obsługiwanych wariantów modelu i dostępności regionu. |
Meta Llama 3.1 | Czat lub ukończenie | Zobacz Aprowizowanie limitów przepływności dla obsługiwanych wariantów modelu i dostępności regionu. |
Meta Llama 3 | Czat lub ukończenie | |
Meta Llama 2 | Czat lub ukończenie | |
DBRX | Czat lub ukończenie | Zobacz Aprowizowanie limitów przepływności, aby uzyskać dostępność regionów . |
Mistral | Czat lub ukończenie | |
Mixtral | Czat lub ukończenie | |
MPT | Czat lub ukończenie | |
GTE v1.5 (angielski) | Osadzanie | Nie generuje znormalizowanych osadzeń. |
BGE v1.5 (angielski) | Osadzanie |
Ograniczenia
Zobacz Limity interfejsów API modelu foundation.
Dodatkowe zasoby
- Generowanie zapytań dla modeli sztucznej inteligencji
- Interfejsy API modeli podstawowych z aprowizowaną produktywnością
- Wnioskowanie wsadowe przy użyciu interfejsów API modelu foundation aprowizowanej przepływności
- Obsługiwane modele dla płatności za token
- Dokumentacja interfejsu API REST modelu podstawowego