Databricks Foundation-model-API's
Dit artikel bevat een overzicht van de Foundation Model-API's in Azure Databricks. Het omvat vereisten voor gebruik, ondersteunde modellen en beperkingen.
Wat zijn Databricks Foundation Model-API's?
Databricks Model Serving biedt nu ondersteuning voor Foundation Model-API's waarmee u toegang kunt krijgen tot en query's kunt uitvoeren op geavanceerde open modellen vanuit een dienend eindpunt. Met Foundation Model-API's kunt u snel en eenvoudig toepassingen bouwen die gebruikmaken van een generatief AI-model van hoge kwaliteit zonder uw eigen modelimplementatie te onderhouden.
De Foundation Model-API's zijn beschikbaar in twee prijsmodi:
- Betalen per token: Dit is de eenvoudigste manier om toegang te krijgen tot basismodellen in Databricks en wordt aanbevolen voor het beginnen van uw reis met Foundation Model-API's. Deze modus is niet ontworpen voor toepassingen met hoge doorvoer of krachtige productieworkloads.
- Ingerichte doorvoer: deze modus wordt aanbevolen voor alle productieworkloads, met name voor workloads die hoge doorvoer, prestatiegaranties, nauwkeurig afgestemde modellen of aanvullende beveiligingsvereisten vereisen. Ingerichte doorvoereindpunten zijn beschikbaar met nalevingscertificeringen zoals HIPAA.
Zie Use Foundation Model-API's voor hulp bij het gebruik van deze twee modi en de ondersteunde modellen.
Met behulp van de Foundation Model-API's kunt u het volgende doen:
- Voer een query uit op een gegeneraliseerde LLM om de geldigheid van een project te controleren voordat u meer resources investeert.
- Voer een query uit op een gegeneraliseerde LLM om snel een proof-of-concept te maken voor een LLM-toepassing voordat u investeert in het trainen en implementeren van een aangepast model.
- Gebruik een basismodel, samen met een vectordatabase, om een chatbot te bouwen met behulp van het ophalen van augmented generation (RAG).
- Vervang bedrijfseigen modellen door open alternatieven om te optimaliseren voor kosten en prestaties.
- Vergelijk LLM's efficiënt om te zien welke de beste kandidaat is voor uw use-case, of vervang een productiemodel met een beter presterende model.
- Bouw een LLM-toepassing voor ontwikkeling of productie bovenop een schaalbare, door SLA ondersteunde LLM-oplossing die uw productieverkeerpieken kan ondersteunen.
Eisen
- Databricks API-token voor het verifiëren van eindpuntaanvragen.
- Serverloze rekenkracht (voor ingerichte doorvoermodellen).
- Een werkruimte in een ondersteunde regio:
- Regio's met betalen per token.
- Ingerichte doorvoerregio's.
Notitie
Zie Basismodel-API's voor beschikbaarheid van regio's voor ingerichte doorvoerworkloads die gebruikmaken van het DBRX-basismodel.
Foundation Model-API's gebruiken
U hebt meerdere opties voor het gebruik van de Foundation Model-API's.
De API's zijn compatibel met OpenAI, dus u kunt zelfs de OpenAI-client gebruiken om query's uit te voeren. U kunt ook de gebruikersinterface, de Foundation Models API's Python SDK, de MLflow Deployments SDK of de REST API gebruiken om query's uit te voeren op ondersteunde modellen. Databricks raadt aan de MLflow Deployments SDK of REST API te gebruiken voor uitgebreide interacties en de gebruikersinterface voor het uitproberen van de functie.
Zie Query-basismodellen voor scorevoorbeelden.
Model-API's voor betalen per token Foundation
Belangrijk
Deze functie is beschikbaar als openbare preview.
Modellen met betalen per tokens zijn toegankelijk in uw Azure Databricks-werkruimte en worden aanbevolen om aan de slag te gaan. Als u deze in uw werkruimte wilt openen, gaat u naar het tabblad Serveren in de linkerzijbalk. De Foundation Model-API's bevinden zich boven aan de lijstweergave eindpunten.
De volgende tabel bevat een overzicht van de ondersteunde modellen voor betalen per token. Zie Ondersteunde modellen voor betalen per token voor aanvullende modelgegevens.
Als u deze modellen wilt testen en chatten, kunt u dit doen met behulp van de AI Playground. Zie Chatten met ondersteunde LLM's met AI Playground.
Model | Taaktype | Eindpunt |
---|---|---|
DBRX Instruct | Chat | databricks-dbrx-instruct |
Meta-Llama-3-70B-Instruct | Chat | databricks-meta-llama-3-70b-instruct |
Meta-Llama-2-70B-Chat | Chat | databricks-llama-2-70b-chat |
Mixtral-8x7B Instruct | Chat | databricks-mixtral-8x7b-instruct |
MPT 7B Instruct | Voltooiing | databricks-mpt-7b-instruct |
MPT 30B-instructie | Voltooiing | databricks-mpt-30b-instruct |
BGE Large (Engels) | Insluiten | databricks-bge-large-en |
- Zie Query foundation-modellen voor hulp bij het uitvoeren van query's op Foundation Model-API's.
- Zie naslaginformatie over de REST API van het Foundation-model voor de vereiste parameters en syntaxis.
Ingerichte Doorvoer Foundation Model-API's
Ingerichte doorvoer is algemeen beschikbaar en Databricks raadt ingerichte doorvoer aan voor productieworkloads. Ingerichte doorvoer biedt eindpunten met geoptimaliseerde deductie voor basismodelworkloads waarvoor prestatiegaranties zijn vereist. Zie Ingerichte Doorvoer Foundation Model-API's voor een stapsgewijze handleiding over het implementeren van Foundation Model-API's in de hele modus.
Ondersteuning voor ingerichte doorvoer omvat:
- Basismodellen van alle grootten, zoals DBRX Base. Basismodellen kunnen worden geopend via databricks Marketplace of u kunt ze ook downloaden via Hugging Face of een andere externe bron en ze registreren in de Unity Catalog. De laatste benadering werkt met elke verfijnde variant van de ondersteunde modellen, ongeacht de gebruikte methode voor het afstemmen.
- Verfijnde varianten van basismodellen, zoals LlamaGuard-7B. Dit omvat modellen die zijn afgestemd op bedrijfseigen gegevens.
- Volledig aangepaste gewichten en tokenizers, zoals die zijn getraind vanaf het begin of vervolg vooraf getraind of andere variaties met behulp van de basismodelarchitectuur (zoals CodeLlama, Yi-34B-Chat of SOLAR-10.7B).
De volgende tabel bevat een overzicht van de ondersteunde modelarchitecturen voor ingerichte doorvoer.
Modelarchitectuur | Opdrachttypen | Opmerkingen |
---|---|---|
DBRX | Chatten of voltooien | Zie limieten voor Api's voor Foundation-modellen voor beschikbaarheid van regio's. |
Meta Llama 3 | Chatten of voltooien | |
Meta Llama 2 | Chatten of voltooien | |
Mistral | Chatten of voltooien | |
Mixtral | Chatten of voltooien | |
MPT | Chatten of voltooien | |
BGE v1.5 (Engels) | Insluiten |
Beperkingen
Zie Limieten en regio's voor modelbediening.