Azure Databricks の生成 AI と 大規模言語モデル (LLM)
この記事では、Databricks における生成 AI の概要と、ノートブックやデモの例へのリンクを紹介します。
生成 AI とは
生成 AI は、画像、テキスト、コード、合成データなどのコンテンツを作成するためにモデルを使用するコンピューターの機能に焦点を当てた人工知能の一種です。
生成 AI アプリケーションは、大規模言語モデル (LLM) や基盤モデル上に構築されます。
- LLM は、優れた言語処理タスクを行うために膨大なデータセットを消費してトレーニングを行うディープ ラーニング モデルです。 LLM は、そのトレーニング データに基づいて、自然言語を模倣した新しいテキストの組み合わせを作成します。
- 基盤モデルは、より具体的な言語理解と生成タスクのために微調整されることを意図して事前にトレーニングされた大規模な機械学習モデルです。 これらのモデルは、入力データのパターンを識別するために利用されます。
これらのモデルは、学習プロセスを完了した後、一緒にプロンプトが表示されたときに統計的に確率の高い出力を生成し、次のようなさまざまなタスクを達成するために採用できます。
- 既存の画像に基づく画像生成、またはある画像のスタイルを利用して新しい画像を修正または作成します。
- 文字起こし、翻訳、質問と回答の生成、テキストの意図や意味の解釈などの音声タスク。
重要
多くの LLM やその他の生成型 AI モデルにはセーフガードが用意されていますが、それでも有害、または不正確な情報が生成される可能性があります。
生成 AI には、次の設計パターンがあります。
- プロンプト エンジニアリング: LLM の動作のガイド専用のプロンプトの作成
- 検索拡張生成 (RAG): LLM と外部ナレッジの検索の組み合わせ
- 微調整: ドメインの特定のデータ セットへの事前トレーニング済み LLM の適応
- 事前トレーニング: LLM のゼロからのトレーニング
Azure Databricks で生成 AI と LLM を開発する
Azure Databricks は、データ収集と準備から、モデル開発と LLMOps、サービス提供と監視に至るまで、AI のライフサイクルを統合します。 次の機能は、特に生成 AI アプリケーションの開発を促進するために最適化されています。
- データ、機能、モデル、関数を対象にした、ガバナンス、検出、バージョン管理、アクセス制御のための Unity Catalog。
- モデル開発の追跡と LLM 評価用の MLflow。
- 特徴エンジニアリングとサービス提供。
- LLM をデプロイするための Databricks Model Serving。 特に基盤モデルにアクセスするためのモデル提供エンドポイントを構成できます。
- Foundation Model API を使用した最新のオープン LLM。
- Databricks の外部でホストされているサードパーティ モデル。 「Databricks Model Serving の外部モデル」を参照してください。
- Databricks ベクトル検索には、埋め込みベクトルを保存するクエリ可能なベクトル データベースが用意されており、ナレッジ ベースと自動的に同期するように構成できます。
- 推論テーブルによる自動ペイロード ログを使って、データの監視と、モデルの予測品質とドリフトを追跡するためのレイクハウス監視。
- Databricks ワークスペースから基礎モデルをテストするための AI プレイグラウンド。 システム プロンプトや推論パラメーターなどの設定をプロンプト表示、比較、調整することができます。
- 独自のデータを使用して基礎モデルをカスタマイズし、そのパフォーマンスを特定のアプリケーション用に最適化するための Foundation Model Training。
その他のリソース
- 「Azure Databricks 上の取得拡張生成 (RAG)」を参照してください。
- 「LLama2 と Databricks を使用して Q&A チャットボットを構築する」を参照してください。
- Databricks での Hugging Face モデルの使用に関する詳細については、「Hugging Face Transformers」を参照してください。
- Github の databricks-ml-examples リポジトリには、最先端 (SOTA) の LLM の実装例が含まれます。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示