Azure Databricksでの機械学習

Azure Databricksで機械学習アプリケーションを構築、デプロイ、管理します。 統合プラットフォームは、データ準備から運用監視までの ML ライフサイクル全体を統合します。

生成AI と AIエージェントをお探しですか? Azure Databricks で AI エージェントを構築するを参照してください。

概要

クイック スタートを試すか、データを準備するか、ローコード モデルを構築します。

ガイド Description
はじめに: Databricks で初めての機械学習モデルを構築する scikit-learn をエンド ツー エンドで使用して、単純な分類モデルを構築します。
AutoML 機能エンジニアリングとハイパーパラメーターの自動チューニングを使用して、最小限のコードで高品質のモデルを自動的に構築します。
機械学習とディープ ラーニング用のデータを読み込む ML およびディープ ラーニング ワークフローのデータを読み込んで準備します。
レコメンダー モデルをトレーニングする 2 タワーまたは DLRM アーキテクチャを使用してレコメンダー モデルをトレーニングします。

従来の機械学習モデルをトレーニングする

自動化されたツールとコラボレーション開発環境を使用して機械学習モデルを作成します。

Feature Description
Databricks Runtime for ML scikit-learn、XGBoost、MLflow、およびその他の ML ライブラリを使用して事前構成されたクラスターと、ディープ ラーニング フレームワークのサポート。
MLflow の追跡 実験を追跡し、モデルのパフォーマンスを比較し、完全なモデル開発ライフサイクルを管理します。
特徴エンジニアリング 自動化されたデータ パイプラインと機能検出を使用して、機能を作成、管理、提供します。
Databricks ノートブック ML ワークフロー用の Python、R、Scala、SQL をサポートするコラボレーション開発環境。

ディープ ラーニング モデルをトレーニングする

マネージド コンピューティングと組み込みのフレームワークを使用して、ディープ ラーニング モデルを開発します。

Feature Description
分散トレーニング Ray、TorchDistributor、DeepSpeed を使用した分散ディープ ラーニングの例。
AI ランタイム カスタムディープ ラーニングトレーニングおよび推論ワークロード用のサーバーレス GPU コンピューティング。
DL のベスト プラクティス フレームワークの選択、データの読み込み、分散スケーリング、ディープ ラーニング モデルのライフサイクルの管理に関するガイダンス。
PyTorch PyTorch を使用した単一ノードおよび分散トレーニング。

モデルのデプロイと運用

スケーラブルなエンドポイント、リアルタイム推論、エンタープライズ レベルの監視を使用して、モデルを運用環境にデプロイします。

Feature Description
モデルサービング 自動スケーリングと GPU サポートを使用して、カスタム モデルと LLM をスケーラブルな REST エンドポイントとしてデプロイします。
AI ゲートウェイ 使用状況の追跡、ペイロードのログ記録、セキュリティ制御を使用して、Azure Databricksで提供されるモデルへのアクセスを管理および監視します。
外部モデル Databricks の外部でホストされているサード パーティ製モデルを、統合されたガバナンスと監視と統合します。
Foundation Model API Databricks によってホストされている最新のオープン モデルにアクセスしてクエリを実行します。

ML システムの監視と管理

包括的な監視およびガバナンス ツールを使用して、モデルの品質、データの整合性、コンプライアンスを確保します。

Feature Description
Unity カタログ 統合されたアクセス制御、系列の追跡、検出を使用して、データ、機能、モデル、および機能を管理します。
データ プロファイリング 自動化されたアラートと根本原因分析を使用して、データ品質、モデルのパフォーマンス、予測の誤差を監視します。
異常検出 カタログ レベルでデータの鮮度と完全性を監視します。
モデル用 MLflow 開発ライフサイクル全体を通じて、実験の追跡、Unity カタログでのモデルの管理、機械学習モデルのデプロイ、評価を行います。

ML ワークフローの運用化

自動化されたワークフロー、CI/CD 統合、運用対応パイプラインを使用して機械学習操作をスケーリングします。

Feature Description
Unity Catalog のモデル Unity カタログのモデル レジストリを使用して、一元的なガバナンスを行い、デプロイを含むモデルのライフサイクルを管理します。
Lakeflow ジョブ ML データ処理用の自動化されたワークフローと運用対応の ETL パイプラインを構築します。
Ray on Databricks 大規模なモデルのトレーニングと推論のために分散コンピューティングを使用して ML ワークロードをスケーリングします。
MLOps ワークフロー トレーニング、テスト、デプロイの自動化されたパイプラインを使用して、エンドツーエンドの MLOps を実装します。