Fabric のローコード AutoML インターフェイスを使用すると、ユーザーは ML タスクといくつかの基本構成を指定することで、機械学習を簡単に開始できます。 AutoML UI を使用すると、これらの選択に基づき、ユーザーの入力に合わせて事前に構成されたノートブックが生成されます。 実行されると、すべてのモデルのメトリックとイテレーションは、既存の ML 実験とモデル項目内で自動的にログされ、追跡され、モデルのパフォーマンスを管理および評価するための組織的かつ効率的な方法が提供されます。
重要
この機能はプレビュー段階にあります。
前提条件
Microsoft Fabric サブスクリプションを取得します。 または、無料の Microsoft Fabric 試用版にサインアップします。
Microsoft Fabric にサインインします。
ホーム ページの左下にあるエクスペリエンス スイッチャーを使用して Fabric に切り替えます。
自動 ML の試行をセットアップする
Fabric の AutoML ウィザードは、既存の実験、モデル、またはノートブック項目から直接起動できるので便利です。
データ ソースの選択
Fabric の AutoML ユーザーには、使用できるレイクハウスから選択できるオプションがあるため、プラットフォーム内の格納データへ簡単にアクセスし、分析できます。 レイクハウスを選択すると、ユーザーは AutoML タスクに使用する特定のテーブルまたはファイルを選択できます。
ヒント
ユーザーはレイクハウスを選択するときに、AutoML で使用するテーブルまたはファイルを選択できます。 サポートされているファイルの種類には、CSV、XLS、XLSX、JSON などがあります。
ML モデルの目的を定義する
この手順では、ユーザーはデータと目標に最適な ML タスクを選択することで、モデルの目標を定義します。
Fabric の AutoML ウィザードには、次の ML タスクが用意されています。
- 回帰: 連続する数値を予測します。
- 二項分類: データを 2 つのクラスのいずれかに分類します。
- 複数クラス分類: データを複数のクラスのいずれかに分類します。
- 予測: 時系列データに対して予測を行います。
ML タスクを選択したら、[AutoML モード] を選択できます。 各モードでは、探索対象のモデルや最適なモデルを見つけるために割り当てられる時間など、AutoML の試行に関する既定の構成が設定されます。 使用できるモードは次のとおりです。
- クイック プロトタイプ: 結果が迅速に提供されるので、迅速なテストと反復に最適です。
- 解釈可能モード: 実行時間をやや長くして、本質的に解釈しやすいモデルに焦点を当てます。
- ベスト フィット: 実行時間を長くして、より包括的な検索を実行し、可能な限り最適なモデルを見つけることを目指します。
- カスタム: AutoML の試行では一部の設定を手動で調整し、カスタマイズされた構成にすることができます。
適切な ML タスクと AutoML モードを選択すると、その目的に合わせて AutoML ウィザードが調整され、選択した構成に基づいて速度、解釈可能性、パフォーマンスのバランスが取られます。
トレーニング データを設定する
この手順で、ユーザーは AutoML がモデルの構築に使用するトレーニング データを構成します。 まず、予測列を選択します。これは、予測するモデルのトレーニングに使用される対象の列です。
予測列を選択した後に、入力データの処理方法をさらにカスタマイズできます。
- データ型: 各入力列のデータ型を確認し、調整して、互換性を確保し、モデルのパフォーマンスを最適化します。
- 補完方法: 補完方法を選択して、データセット内の欠損値を処理する方法を選択します。こうすることで、ユーザー設定に基づいてデータのギャップを埋められます。
自動特徴量化設定を有効または無効にすることもできます。 自動特徴量化を有効にすると、トレーニング用の追加の機能が生成され、データから追加の分析情報が抽出されることで、モデルのパフォーマンスが向上する可能性があります。 これらのデータ設定を定義すると、AutoML ウィザードがデータセットを正確に解釈して処理できるようになり、試行結果の品質が向上します。
最終的な詳細を入力する
次に、AutoML の試行を実行する方法と、実験と出力の名前付け規則を決定します。 AutoML の試行を実行するには 2 つのオプションがあります。
複数のモデルを同時にトレーニングする: このオプションが最適なのは、データを pandas DataFrame に読み込んで、Spark クラスターを利用して複数のモデルを並列で実行できる場合です。 このアプローチでは、複数のモデルを一度にトレーニングするので試行プロセスが高速になります。
Spark を使用してモデルを順次トレーニングする: このオプションが適しているのは、大規模なデータセットや、分散トレーニングにメリットがあるデータセットです。 分散モデルの探索には Spark と SynapseML が使用され、Spark が提供するスケーラビリティを利用して一度に 1 つのモデルがトレーニングされます。
Note
現在、Spark モードは、Spark ベースのモデルの入力スキーマと出力スキーマのログをサポートしていません。 このスキーマは、SynapseML PREDICT 関数の必須フィールドです。 回避策として、MLFlow を使用してモデルを直接読み込み、予測のスキーマ要件をバイパスしてノートブック内で推論を実行することができます。
実行モードを選択したら、[ノートブック]、[実験]、[モデル] の名前を指定してセットアップを完了します。 これらの名前付け規則は、Fabric 内で AutoML 資産を整理し、試行の追跡と管理を容易にするのに役立ちます。 完了すると、選択に基づいてノートブックが生成され、必要に応じて実行およびカスタマイズできるようになります。
ノートブックの確認と作成
最後の手順では、すべての AutoML 設定を確認し、選択内容に合わせて生成されたコードをプレビューできます。 この機会に、選択した ML タスク、モード、データ設定、その他の構成が目的を満たしていることを確認できます。
満足したら、この手順を完了して、AutoML の試行の全コンポーネントを含むノートブックを生成できます。 このノートブックを使用すると、データの準備からモデルの評価までのプロセスの各ステージを追跡できます。また、作業の包括的な記録として利用できます。 必要に応じてこのノートブックをさらにカスタマイズし、コードと設定を調整して AutoML の試行結果を調整することもできます。
AutoML の実行を追跡する
ノートブックを実行すると、AutoML により、MLFlow ログが利用され、試行中にテストされた各モデルの主要なメトリックとパラメーターが自動的に追跡されます。 このシームレスな統合により、追加のセットアップを行うことなく、AutoML の実行の各イテレーションを監視および確認できます。
AutoML の試行結果について確認するには:
ML 実験項目に移動する:[ML 実験] では、AutoML プロセスによって作成されたさまざまな実行をすべて追跡できます。 各実行では、モデルのパフォーマンス メトリック、パラメーター、構成などの重要な詳細がログされるため、結果の分析と比較が容易になります。
AutoML の構成を確認する: AutoML の試行ごとに、使用された AutoML 構成が表示され、各モデルの設定方法、最適な結果につながった設定についての分析情報が得られます。
最適なモデルを見つける:ML モデルを開いて、AutoML の試行からの最終的な最高のパフォーマンスのモデルにアクセスします。
この追跡ワークフローは、モデルの整理、試行、管理に役立ち、AutoML の試行でテストされた各モデルのパフォーマンスと設定を完全に追跡できるようになります。 ここから、SynapseML PREDICT インターフェイスを利用したり、ノートブックから直接予測を生成したりすることができます。