この記事では、モザイク AI ゲートウェイについて説明します。これは、サポートされている生成 AI モデルとそれに関連するエンドポイントにサービスを提供するモデルへのアクセスを管理および監視するための Databricks ソリューションです。
モザイク AI ゲートウェイとは?
Mosaic AI Gateway は、組織内の生成 AI モデルとエージェントの使用と管理を合理化するように設計されています。 これは、エンドポイントにサービスを提供するモデルに、ガバナンス、モニタリング、本番環境への対応をもたらす一元化されたサービスです。 また、AIトラフィックを実行、保護、管理し、組織のAI採用を民主化、加速することができます。
すべてのデータは、 Unity カタログの Delta テーブルに記録されます。
AI Gateway データから分析情報の視覚化を開始するには、gitHub から サンプル AI Gateway ダッシュボード をダウンロードします。 このダッシュボードでは、使用状況追跡とペイロード ログ推論テーブルのデータが活用されます。
JSON ファイルをダウンロードしたら、ダッシュボードをワークスペースにインポートします。 ダッシュボードをインポートする手順については、「ダッシュボード ファイルをインポートする」を参照してください。
サポートされている機能
次の表では、使用可能な AI Gateway の機能と、それらをサポートするエンドポイントの種類を提供するモデルを定義します。
特徴量 | 定義 | 外部モデル エンドポイント | Foundation Model API によってプロビジョニングされたスループット エンドポイント | Foundation Model API のトークンごとの支払いエンドポイント | モザイクAI(エーアイ)エージェント | カスタム モデル エンドポイント |
---|---|---|---|---|---|---|
アクセス許可とレート制限 | アクセス権を持つユーザーとアクセス権の量を制御します。 | サポートされています | サポートされています | サポートされています | サポートされていません | サポートされています |
ペイロード ログ | 推論テーブルを使用してモデル API に送信されるデータ監視および監査します。 | サポートされています | サポートされています | サポートされています | サポートされています | サポートされています |
使用状況の追跡 | システム テーブルを使用して、エンドポイントの運用上の使用状況と関連コストを監視します。 | サポートされています | サポートされています | サポートされています | サポートされていません | サポートされています |
AI ガードレール | 要求と応答で不要で安全でないデータを防止します。 「AI ガードレール」を参照してください。 | サポートされています | サポートされています | サポートされています | サポートされていません | サポートされていません |
フォールバック | デプロイ中とデプロイ後の運用停止を最小限に抑えます。 | サポートされています | サポートされていません | サポートされていません | サポートされていません | サポートされていません |
トラフィックの分割 | モデル間でトラフィックを負荷分散します。 | サポートされています | サポートされています | サポートされていません | サポートされていません | サポートされています |
モザイク AI ゲートウェイでは、有効な機能ごとの料金が発生します。 有料機能には、ペイロードのログ記録と使用状況の追跡が含まれます。 クエリのアクセス許可、レート制限、フォールバック、トラフィックの分割などの機能は無料です。 新機能については、料金が発生する場合があります。
AI ガードレール
重要
この機能はパブリック プレビュー段階にあります。
AI Guardrails を使用すると、ユーザーはモデル・サービング・エンドポイント・レベルでデータ・コンプライアンスを構成および実施し、基礎となるモデルに送信されるリクエストの有害なコンテンツを削減することができます。 不適切な要求と応答はブロックされ、既定のメッセージがユーザーに返されます。 エンドポイントを提供するモデルでガードレールを構成する方法を参照してください。
重要
AI Guardrails モデレーション サービスは、トークンごとの支払いモデルの Foundation Model API に依存しています。 この依存関係により、AI Guardrails モデレーション サービスの可用性は、 Foundation Model API の従量課金制をサポートするリージョンに制限されます。
次の表は、構成可能なガードレールをまとめたものです。 「制限事項」を参照してください。
注
トピックのモデレーションとキーワード のフィルター処理は非推奨です。 2025 年 5 月 30 日以降、これらの機能はサポートまたは利用できなくなります。 これらの関数がワークフローに必要な場合は、Databricks アカウント チームに連絡して、カスタム ガードレールプライベート プレビューに参加してください。
ガードレール | 定義 |
---|---|
安全フィルタリング | 安全フィルターは、モデルが、暴力犯罪、自傷行為、ヘイト スピーチなどの安全でない有害なコンテンツとやり取りするのを防ぎます。 AI ゲートウェイの安全フィルターは Meta Llama 3 で構築されています。 Databricks は、Llama Guard 2-8b を安全フィルターとして使用します。 Llama Guard セーフティ フィルターの詳細と、セーフティ フィルターに適用されるトピックについては、 Meta Llama Guard 2 8B モデル カードを参照してください。 Meta Llama 3 は LLAMA 3 Community License の下でライセンスされています (Copyright © Meta Platforms, Inc. All Rights Reserved.)。 お客様は、該当するモデル ライセンスへのコンプライアンスを遵守する責任を負います。 |
個人を特定できる情報 (PII) の検出 | お客様は、ユーザーの名前、住所、クレジット カード番号などの機密情報を検出できます。 この機能では、AI Gateway は Presidio を使用して、米国の PII カテゴリ (クレジット カード番号、電子メール アドレス、電話番号、銀行口座番号、社会保障番号) を検出します。 PII 分類子は、構造化データと非構造化データの機密情報または PII を識別するのに役立ちます。 ただし、自動検出メカニズムを使用しているため、サービスがすべての機密情報を検出する保証はありません。 そのため、追加のシステムと保護を採用する必要があります。 これらの分類方法は、主に米国の PII のカテゴリ (米国の電話番号、社会保障番号など) を対象とします。 |
トピックのモデレーション (非推奨) | 許可されている一連のトピックを一覧表示する機能。 チャット要求が指定されると、このガードレールは、そのトピックが許可されたトピックにない場合に要求にフラグを設定します。 |
キーワード のフィルター処理 (非推奨) | お客様は、入力と出力の両方に異なる無効なキーワードのセットを指定できます。 キーワード フィルター処理の可能性のあるユース ケースの ひとつは、モデルが競合他社について話し合わない場合です。 このガードレールでは、キーワードまたは文字列の照合を使用して、要求または応答のコンテンツにキーワードが存在するかどうかを決定します。 |
AI ゲートウェイの使用
サービス UI を使用して、エンドポイントにサービスを提供するモデルで AI ゲートウェイ 機能を構成できます。 モデルサービングエンドポイントでのAIゲートウェイの構成を参照してください。
の制限事項
AI ゲートウェイが有効なエンドポイントの制限事項を次に示します。
- AI ガードレールを使用する場合、要求バッチ サイズ (埋め込みバッチ サイズ、完了バッチ サイズ、チャット要求の
n
パラメーター) は 16 を超えないものとします。 - プロビジョニングされたスループット ワークロードでは、AI ゲートウェイ対応推論テーブルを使用したレート制限とペイロード ログのみがサポートされます。
- AI Gateway 対応推論テーブルの制限を参照してください。
- 関数呼び出し 使用し、AI ガードレールを指定した場合、それらのガードレールは関数の要求と中間応答には適用されません。 ただし、最終的な出力応答にはガードレールが適用されます。
- テキストからイメージへのワークロードはサポートされていません。
- AI Gateway 機能が有効になっているトークンごとの支払いエンドポイントのバッチ推論ワークロードでは、使用状況の追跡のみがサポートされます。
endpoint_usage
システム テーブルでは、バッチ推論要求に対応する行のみが表示されます。 - AI ガードレールとフォールバックは、エンドポイントを提供するカスタム モデルではサポートされていません。
- エンドポイントを提供するカスタム モデルの場合、 ルート最適化 されていないワークロードのみがレート制限と使用状況の追跡をサポートします。
- エンドポイントを提供するルート最適化モデルの推論テーブルは 、パブリック プレビュー段階にあります。