Interfejsy API modelu usługi Databricks Foundation
Ten artykuł zawiera omówienie interfejsów API modelu bazowego na platformie Azure Databricks. Zawiera wymagania dotyczące użycia, obsługiwanych modeli i ograniczeń.
Co to są interfejsy API modelu Databricks Foundation?
Mosaic AI Model Serving teraz obsługuje interfejsy API modeli bazowych, które umożliwiają uzyskiwanie dostępu do najnowocześniejszych otwartych modeli i ich odpytywania z poziomu punktu końcowego obsługującego. Te modele są hostowane przez usługę Databricks i można szybko i łatwo tworzyć aplikacje korzystające z nich bez konieczności utrzymywania własnego wdrożenia modelu. Interfejsy API modelu fundacyjnego to wyznaczona usługa Databricks, co oznacza, że używa Databricks Geos do zarządzania miejscem przechowywania danych podczas przetwarzania treści klienta.
Interfejsy modelu fundamentowego są dostępne w następujących trybach cenowych.
- Płatność za token: jest to najprostszy sposób na rozpoczęcie uzyskiwania dostępu do modeli bazowych w usłudze Databricks i zalecany jako początek pracy z interfejsami API modeli bazowych. Ten tryb nie jest przeznaczony dla aplikacji o wysokiej przepływności ani wydajnych obciążeń produkcyjnych.
- Aprowizowana przepływność: ten tryb jest zalecany dla wszystkich obciążeń produkcyjnych, zwłaszcza tych, które wymagają wysokiej przepływności, gwarancji wydajności, dostrojonych modeli lub mają dodatkowe wymagania dotyczące zabezpieczeń. Punkty końcowe z przydzieloną przepustowością są dostępne z certyfikatami zgodności, takimi jak HIPAA.
Aby uzyskać wskazówki dotyczące używania tych trybów i obsługiwanych modeli, zobacz Use Foundation Model APIs (Korzystanie z interfejsów API modelu podstawowego).
Korzystając z interfejsów API modelu Foundation, można wykonać następujące czynności
- Użyj uogólnionego LLM do weryfikacji zasadności projektu przed zainwestowaniem większej liczby zasobów.
- Przeprowadź zapytanie dotyczące uogólnionego modelu LLM, aby utworzyć szybki prototyp koncepcyjny aplikacji opartej na modelu LLM, zanim zainwestujesz w trenowanie i wdrażanie modelu niestandardowego.
- Użyj modelu bazowego wraz z bazą danych wektorów, aby zbudować czatbota przy użyciu generacji wspomaganej przeszukiwaniem (RAG).
- Zastąp zastrzeżone modele otwartymi alternatywami, aby zoptymalizować koszt i wydajność.
- Wydajnie porównaj LLM-y, aby zidentyfikować najlepszego kandydata dla Twojego przypadku użycia lub zamienić model produkcyjny na lepiej działający.
- Utwórz aplikację LLM na potrzeby programowania lub produkcji na podstawie skalowalnego, opartego na umowie SLA rozwiązania obsługującego usługę LLM, które może obsługiwać wzrost ruchu produkcyjnego.
Wymagania
- Token interfejsu API usługi Databricks do uwierzytelniania żądań punktów końcowych.
- Obliczenia bezserwerowe (w przypadku modeli aprowizowanej przepływności).
- Obszar roboczy w jednym z następujących obsługiwanych regionów:
Użyj interfejsów API Modelu Foundation
Masz wiele opcji używania interfejsów API Modelu Bazowego.
Interfejsy API są zgodne z interfejsem OpenAI, więc do wykonywania zapytań można użyć klienta OpenAI. Możesz również użyć interfejsu użytkownika, interfejsu API modeli podstawowych zestawu SDK języka Python, zestawu SDK wdrożeń platformy MLflow lub interfejsu API REST do wykonywania zapytań dotyczących obsługiwanych modeli. Databricks zaleca korzystanie z zestawu SDK klienta OpenAI lub interfejsu API na potrzeby interakcji rozszerzonych oraz interfejsu użytkownika do wypróbowania tej funkcji.
Aby uzyskać przykłady oceniania, zobacz Modele podstaw zapytań.
interfejsy API modelu modelu płatności za token
Wstępnie skonfigurowane punkty końcowe obsługujące modele płatności za token są dostępne w obszarze roboczym usługi Azure Databricks. Ten model płatności za tokeny jest zalecany do rozpoczęcia pracy. Aby uzyskać do nich dostęp w przestrzeni roboczej, przejdź do zakładki Obsługa na pasku bocznym po lewej stronie. Interfejsy API Foundation Model znajdują się na górze widoku listy Endpoints.
- Obsługiwane modele płatności za token.
- Aby uzyskać wskazówki dotyczące zapytań do interfejsów API modeli podstawowych, zobacz Modele Fundamentowe.
- Zobacz dokumentację interfejsu API REST modelu Foundation dotyczącą wymaganych parametrów i składni.
Interfejsy API dla modelu bazowego zarezerwowanej przepustowości
Przydzielona przepustowość zapewnia zoptymalizowane wnioskowanie dla punktów końcowych, w przypadku obciążeń modelu bazowego, które wymagają gwarancji dotyczących wydajności. Usługa Databricks zaleca przydzieloną przepustowość dla obciążeń produkcyjnych.
- Architektury modeli obsługiwane przez aprowizowaną przepustowość.
- Zobacz Interfejsy API modelu podstawowego o zarezerwowanej przepustowości, aby zapoznać się z przewodnikiem krok po kroku dotyczącym wdrażania interfejsów API modelu podstawowego w trybie zarezerwowanej przepustowości.
Obsługa zapewnionej przepływności obejmuje:
- Podstawowe modele we wszystkich rozmiarach. Dostęp do modeli bazowych można uzyskać za pomocą witryny Databricks Marketplace lub można je pobrać z Hugging Face albo innego źródła zewnętrznego i zarejestrować w katalogu Unity. Drugie podejście działa z dowolnym dostosowanym wariantem obsługiwanych modeli.
- dostrojone warianty modeli podstawowych, takie jak modele dostrojone do zastrzeżonych danych.
- w pełni niestandardowe wagi i tokenizatory, takie jak te wytrenowane od podstaw lub wstępnie wytrenowane lub innych odmian przy użyciu architektury modelu podstawowego (na przykład CodeLlama).
Ograniczenia
Zobacz limity interfejsów API modelu Foundation.
Dodatkowe zasoby
interfejsy API modelu aprowizowania przepływności foundation
Dokumentacja interfejsu API REST modelu Foundation
Przeprowadzanie wsadowego wnioskowania przy użyciu modelu LLM i ai_query