Databricks Basismodel-API's
Dit artikel bevat een overzicht van de Foundation Model-API's in Azure Databricks. Het omvat vereisten voor gebruik, ondersteunde modellen en beperkingen.
Wat zijn Databricks Foundation Model-API's?
Mosaic AI Model Serving biedt nu ondersteuning voor Foundation Model-API's waarmee u vanaf een dienend eindpunt toegang kunt krijgen tot open modellen en er query's op kunt uitvoeren. Met Foundation Model-API's kunt u snel en eenvoudig toepassingen bouwen die gebruikmaken van een generatief AI-model van hoge kwaliteit zonder uw eigen modelimplementatie te onderhouden. Foundation Model-API's is een Databricks Designated Service, wat betekent dat databricks Geos wordt gebruikt voor het beheren van gegevenslocatie bij het verwerken van klantinhoud.
De Foundation Model-API's zijn beschikbaar in twee prijsmodi:
- Betalen per token: Dit is de eenvoudigste manier om toegang te krijgen tot basismodellen in Databricks en wordt aanbevolen voor het beginnen van uw reis met Foundation Model-API's. Deze modus is niet ontworpen voor toepassingen met hoge doorvoer of krachtige productieworkloads.
- Ingerichte doorvoer: deze modus wordt aanbevolen voor alle productieworkloads, met name voor workloads die hoge doorvoer, prestatiegaranties, nauwkeurig afgestemde modellen of aanvullende beveiligingsvereisten vereisen. Ingerichte doorvoereindpunten zijn beschikbaar met nalevingscertificeringen zoals HIPAA.
Zie Use Foundation Model-API's voor hulp bij het gebruik van deze twee modi en de ondersteunde modellen.
Met behulp van de Foundation Model-API's kunt u het volgende doen:
- Voer een query uit op een gegeneraliseerde LLM om de geldigheid van een project te controleren voordat u meer resources investeert.
- Voer een query uit op een gegeneraliseerde LLM om snel een proof-of-concept te maken voor een LLM-toepassing voordat u investeert in het trainen en implementeren van een aangepast model.
- Gebruik een basismodel, samen met een vectordatabase, om een chatbot te bouwen met behulp van het ophalen van augmented generation (RAG).
- Vervang bedrijfseigen modellen door open alternatieven om te optimaliseren voor kosten en prestaties.
- Vergelijk LLM's efficiënt om te zien welke de beste kandidaat is voor uw use-case, of vervang een productiemodel met een beter presterende model.
- Bouw een LLM-toepassing voor ontwikkeling of productie bovenop een schaalbare, door SLA ondersteunde LLM-oplossing die uw productieverkeerpieken kan ondersteunen.
Eisen
- Databricks API-token voor het verifiëren van eindpuntaanvragen.
- Serverloze rekenkracht (voor ingerichte doorvoermodellen).
- Een werkruimte in een ondersteunde regio:
- Regio's met betalen per token.
- Ingerichte doorvoerregio's.
Foundation Model-API's gebruiken
U hebt meerdere opties voor het gebruik van de Foundation Model-API's.
De API's zijn compatibel met OpenAI, zodat u de OpenAI-client kunt gebruiken om query's uit te voeren. U kunt ook de gebruikersinterface, de Foundation Models API's Python SDK, de MLflow Deployments SDK of de REST API gebruiken om query's uit te voeren op ondersteunde modellen. Databricks raadt aan om de OpenAI-client-SDK of API te gebruiken voor uitgebreide interacties en de gebruikersinterface voor het uitproberen van de functie.
Zie Querygeneratieve AI-modellen voor scorevoorbeelden.
Model-API's voor betalen per token Foundation
Modellen met betalen per tokens zijn toegankelijk in uw Azure Databricks-werkruimte en worden aanbevolen om aan de slag te gaan. Als u deze in uw werkruimte wilt openen, gaat u naar het tabblad Serveren in de linkerzijbalk. De Foundation Model-API's bevinden zich boven aan de lijstweergave eindpunten.
De volgende tabel bevat een overzicht van de ondersteunde modellen voor betalen per token. Zie Ondersteunde modellen voor betalen per token voor aanvullende modelgegevens.
Als u deze modellen wilt testen en chatten, kunt u dit doen met behulp van de AI Playground. Zie Chat met LLM's en prototype GenAI-apps met AI Playground.
Belangrijk
- Vanaf 23 juli 2024 vervangt Meta-Llama-3.1-70B-Instruct ondersteuning voor Meta-Llama-3-70B-Instruct in Foundation Model-API's betalen per token.
- Meta-Llama-3.1-405B-Instruct is het grootste open beschikbare state-of-the-art grote taalmodel, gebouwd en getraind door Meta en gedistribueerd door Azure Machine Learning met behulp van de AzureML-modelcatalogus.
- De volgende modellen worden nu buiten gebruik gesteld. Zie Buiten gebruik gestelde modellen voor aanbevolen vervangingsmodellen.
- Llama 2 70B Chat
- MPT 7B Instruct
- MPT 30B-instructie
Modelleren | Taaktype | Eindpunt | Opmerkingen |
---|---|---|---|
GTE Large (Engels) | Insluiten | databricks-gte-large-en |
Er worden geen genormaliseerde insluitingen gegenereerd. |
Meta-Llama-3.1-70B-Instruct | Chat | databricks-meta-llama-3-1-70b-instruct |
|
Meta-Llama-3.1-405B-Instruct* | Chat | databricks-meta-llama-3-1-405b-instruct |
Zie limieten voor Api's voor Foundation-modellen voor beschikbaarheid van regio's. |
DBRX Instruct | Chat | databricks-dbrx-instruct |
Zie limieten voor Api's voor Foundation-modellen voor beschikbaarheid van regio's. |
Mixtral-8x7B Instruct | Chat | databricks-mixtral-8x7b-instruct |
Zie limieten voor Api's voor Foundation-modellen voor beschikbaarheid van regio's. |
BGE Large (Engels) | Insluiten | databricks-bge-large-en |
Zie limieten voor Api's voor Foundation-modellen voor beschikbaarheid van regio's. |
*
Neem contact op met uw Databricks-accountteam als er eindpuntfouten of stabilisatiefouten optreden bij het gebruik van dit model.
- Zie Querygeneratieve AI-modellen voor hulp bij het uitvoeren van query's op Foundation Model-API's.
- Zie naslaginformatie over de REST API van het Foundation-model voor de vereiste parameters en syntaxis.
Ingerichte Doorvoer Foundation Model-API's
Ingerichte doorvoer biedt eindpunten met geoptimaliseerde deductie voor basismodelworkloads waarvoor prestatiegaranties zijn vereist. Databricks raadt ingerichte doorvoer aan voor productieworkloads. Zie Ingerichte Doorvoer Foundation Model-API's voor een stapsgewijze handleiding over het implementeren van Foundation Model-API's in de hele modus.
Ondersteuning voor ingerichte doorvoer omvat:
- Basismodellen van alle grootten, zoals DBRX Base. Basismodellen kunnen worden geopend via databricks Marketplace of u kunt ze ook downloaden via Hugging Face of een andere externe bron en ze registreren in de Unity Catalog. De laatste benadering werkt met elke verfijnde variant van de ondersteunde modellen, ongeacht de gebruikte methode voor het afstemmen.
- Verfijnde varianten van basismodellen, zoals LlamaGuard-7B of
meta-llama/Llama-3.1-8B
. Dit omvat modellen die zijn afgestemd op bedrijfseigen gegevens. - Volledig aangepaste gewichten en tokenizers, zoals die zijn getraind vanaf het begin of vervolg vooraf getrainde of andere variaties met behulp van de basismodelarchitectuur (zoals CodeLlama).
De volgende tabel bevat een overzicht van de ondersteunde modelarchitecturen voor ingerichte doorvoer.
Belangrijk
Meta Llama 3.2 is gelicentieerd onder de LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor de naleving van de voorwaarden van deze licentie en het Beleid voor acceptabel gebruik van Llama 3.2.
Meta Llama 3.1 is gelicentieerd onder de LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties.
Modelarchitectuur | Opdrachttypen | Opmerkingen |
---|---|---|
Meta Llama 3.2 3B | Chatten of voltooien | Zie Ingerichte doorvoerlimieten voor ondersteunde modelvarianten en beschikbaarheid van regio's. |
Meta Llama 3.2 1B | Chatten of voltooien | Zie Ingerichte doorvoerlimieten voor ondersteunde modelvarianten en beschikbaarheid van regio's. |
Meta Llama 3.1 | Chatten of voltooien | Zie Ingerichte doorvoerlimieten voor ondersteunde modelvarianten en beschikbaarheid van regio's. |
Meta Llama 3 | Chatten of voltooien | |
Meta Llama 2 | Chatten of voltooien | |
DBRX | Chatten of voltooien | Zie Ingerichte doorvoerlimieten voor beschikbaarheid van regio's. |
Mistral | Chatten of voltooien | |
Mixtral | Chatten of voltooien | |
MPT | Chatten of voltooien | |
GTE v1.5 (Engels) | Insluiten | Er worden geen genormaliseerde insluitingen gegenereerd. |
BGE v1.5 (Engels) | Insluiten |
Beperkingen
Zie limieten voor Api's voor Foundation-modellen.