Databricks Foundation Model API

[アーティクル]
04/25/2024

この記事では、Azure Databricks の Foundation Model API の概要について説明します。使用要件、サポートされているモデル、制限事項などが含まれます。

Databricks Foundation Model API とは

Databricks Model Serving は、サービスエンドポイントから最先端のオープンモデルにアクセスしてクエリを実行できる Foundation Model API をサポートするようになりました。 Foundation Model API を使うと、独自のモデルデプロイを保守することなく、高品質の生成 AI モデルを利用するアプリケーションを迅速かつ簡単に構築できます。

Foundation Model API は、次の 2 つの価格モードで提供されます。

トークン単位の支払い: これは Databricks で Foundation Models にアクセスする最も簡単な方法であり、Foundation Models API を使い始めるユーザーにお勧めします。このモードは、高スループットのアプリケーションやパフォーマンスの高い運用ワークロード向けに設計されていません。
プロビジョニング済みスループット: このモードは、すべての運用ワークロード、特に高スループット、パフォーマンスの保証、微調整されたモデル、または追加のセキュリティ要件を必要とするワークロードに推奨されます。プロビジョニングされたスループットエンドポイントは、HIPAA などのコンプライアンス認定で利用できます。

これら 2 つのモードの使用方法とサポートされているモデルのガイダンスについては、「基盤モデル API の使用」を参照してください。

Foundation Model API を使用すると、次のことができます:

リソースを増やす前に、汎用 LLM のクエリを実行してプロジェクトの有効性を確認する。
カスタムモデルのトレーニングとデプロイに投資する前に、LLM ベースのアプリケーションの簡単な概念実証を作成するために、汎用 LLM のクエリを実行する。
基礎モデルとベクトルデータベースを使い、検索拡張生成 (RAG) を使ってチャットボットを構築する。
独自のモデルをオープンの代替手段に置き換えて、コストとパフォーマンスを最適化する。
LLM を効率よく比較して、ユースケースに最適な候補を確認したり、運用モデルをさらにパフォーマンスの高いものに入れ替えたりする。
運用トラフィックの急増に対応できるスケーラブルで SLA によって支えられた LLM サービスソリューションを基にして、開発または運用のための LLM アプリケーションを構築する。

要件

エンドポイントへの要求を認証するための Databricks API トークン。
サーバーレスコンピューティング (プロビジョニングされたスループットモデルの場合)
サポートされているリージョン内のワークスペース:
- トークン単位の支払いリージョン。
- プロビジョニング済みスループットリージョン。

Note

DBRX 基本モデルを使用するプロビジョニング済みスループットワークロードについては、「Foundation Model API の制限」のリージョン可用性を参照してください。

Foundation Model API を使う

Foundation Model API を使用するには、複数のオプションがあります。

これらの API は OpenAI と互換性があるため、OpenAI クライアントを使用してクエリを実行することもできます。さらに、UI、Foundation Models API の Python SDK、MLflow Deployments SDK、または REST API を使用して、サポートされているモデルに対するクエリを実行することもできます。 Databricks では、拡張操作には MLflow Deployments SDK または REST API を使い、機能を試す場合は UI を使うことをお勧めしています。

スコアリングの例については、「基盤モデルのクエリ」を参照してください。

Foundation Model API のトークン単位の支払い

重要

この機能はパブリックプレビュー段階にあります。

トークン単位の支払いモデルには、Azure Databricks ワークスペースからアクセスでき、作業を開始するために推奨されます。ワークスペースで Foundation Model API にアクセスするには、左側のサイドバーの [Serving] (提供) タブに移動します。 Foundation Model API は、エンドポイントリストビューの上部にあります。

サービスエンドポイントの一覧

次の表は、トークン単位の支払いがサポートされているモデルをまとめたものです。その他のモデルの情報については、「トークン単位の支払いでサポートされているモデル」を参照してください。

これらのモデルをテストしてチャットする場合は、AI プレイグラウンドを使用して行うことができます。「AI プレイグラウンドを使ってサポートされている LLM とチャットする」をご覧ください。

モデル	タスクの種類	エンドポイント
DBRX の指示	チャット	`databricks-dbrx-instruct`
Meta-Llama-3-70B-Instruct	チャット	`databricks-meta-llama-3-70b-instruct`
Meta-Llama-2-70B-Chat	チャット	`databricks-llama-2-70b-chat`
Mixtral-8x7B 指示	チャット	`databricks-mixtral-8x7b-instruct`
MPT 7B Instruct	完了	`databricks-mpt-7b-instruct`
MPT 30B Instruct	完了	`databricks-mpt-30b-instruct`
BGE Large (英語版)	埋め込み	`databricks-bge-large-en`

Foundation Model API のクエリ方法のガイダンスについては、「基盤モデルのクエリ」を参照してください。
必要なパラメーターと構文については、「基盤モデル REST API リファレンス」を参照してください。

プロビジョニングスループット Foundation Model API

プロビジョニング済みスループットは一般提供されており、Databricks では運用環境のワークロードに対してプロビジョニング済みスループットが推奨されます。プロビジョニングスループットは、パフォーマンス保証を必要とするワークロードの基盤モデル向けに最適化された推論をエンドポイントに提供します。 Foundation Model API をプロビジョニングスループットモードでデプロイする方法のステップバイステップガイドについては、「プロビジョニングスループット Foundation Model API」を参照してください。

プロビジョニングされたスループットのサポートには、以下が含まれます。

すべてのサイズのベースモデル。DBRX ベースなど。ベースモデルは、Databricks Marketplace を使用してアクセスするか、Hugging Face または他の外部ソースからダウンロードして Unity Catalog に登録できます。後者のアプローチは、採用されている微調整方法に関係なく、サポートされているモデルのどの微調整されたバリアントでも機能します。
微調整されたベースモデルのバリエーション。LlamaGuard-7B など。これには、専用データ上で微調整されたモデルが含まれます。
完全カスタムの重みとトークナイザー。ゼロからトレーニングされたもの、継続的に事前トレーニングされたもの、その他のベースモデルアーキテクチャを使用するバリエーション (例: CodeLlama、Yi-34B-Chat、SOLAR-10.7B など)。

次の表は、プロビジョニングされたスループットでサポートされているモデルアーキテクチャをまとめたものです。

モデルのアーキテクチャ	タスクの種類	メモ
DBRX	Chat または Completion	リージョンの可用性については、「Foundation Model API の制限」を参照してください。
Meta Llama 3	Chat または Completion
Meta Llama 2	Chat または Completion
ミストラル	Chat または Completion
Mixtral	Chat または Completion
MPT	Chat または Completion
BGE v1.5 (英語)	埋め込み

制限事項

「モデル提供の制限とリージョン」を参照してください。

Databricks Foundation Model API