Fabricの低コードの AutoML インターフェイスを使用すると、ML タスクといくつかの基本的な構成を指定することで、機械学習を簡単に開始できます。 これらの選択に基づいて、AutoML UI によって、入力に合わせて構成済みのノートブックが生成されます。 ノートブックを実行すると、既存の ML 実験とモデル項目内のすべてのモデル メトリックとイテレーションが自動的にログに記録および追跡され、モデルのパフォーマンスを管理および評価するための整理された効率的な方法が提供されます。
前提条件
Microsoft Fabric サブスクリプションを取得します。 または、無料のMicrosoft Fabric試用版にサインアップします。
Microsoft Fabric にサインインします。
ホーム ページの左下にあるエクスペリエンス スイッチャーを使用して、Fabricに切り替えます。
自動 ML 試用版を設定する
既存の実験、モデル、またはノートブック項目から直接、Fabricで AutoML ウィザードを簡単に起動できます。
データ ソースの選択
Fabricの AutoML ユーザーは、使用可能な lakehouse から選択できるため、プラットフォーム内に格納されているデータに簡単にアクセスして分析できます。 レイクハウスを選択したら、AutoML タスクに使用する特定のテーブルまたはファイルを選択します。
ヒント
レイクハウスを選択するときに、AutoML で使用する テーブル または ファイル を選択できます。 サポートされているファイルの種類には、CSV、XLS、XLSX、JSON などがあります。
ML モデルの目的を定義する
この手順では、ユーザーはデータと目標に最適な ML タスクを選択することで、モデルの目標を定義します。
Fabricの AutoML ウィザードには、次の ML タスクが用意されています。
- 回帰: 連続する数値を予測します。
- 二項分類: データを 2 つのクラスのいずれかに分類します。
- 複数クラス分類: データを複数のクラスのいずれかに分類します。
- 予測: 時系列データに対して予測を行います。
ML タスクを選択したら、 AutoML モードを選択できます。 各モードでは、探索対象のモデルや最適なモデルを見つけるために割り当てられる時間など、AutoML の試行に関する既定の構成が設定されます。 使用できるモードは次のとおりです。
- クイック プロトタイプ: 結果が迅速に提供されるので、迅速なテストと反復に最適です。
- 解釈可能モード: 実行時間をやや長くして、本質的に解釈しやすいモデルに焦点を当てます。
- ベスト フィット: 実行時間を長くして、より包括的な検索を実行し、可能な限り最適なモデルを見つけることを目指します。
- カスタム: AutoML の試行では一部の設定を手動で調整し、カスタマイズされた構成にすることができます。
適切な ML タスクと AutoML モードを選択すると、その目的に合わせて AutoML ウィザードが調整され、選択した構成に基づいて速度、解釈可能性、パフォーマンスのバランスが取られます。
トレーニング データを設定する
この手順では、AutoML がモデルの構築に使用するトレーニング データを構成します。 まず、 予測列を選択します。これは、モデルが予測するようにトレーニングされるターゲット列です。
予測列を選択した後に、入力データの処理方法をさらにカスタマイズできます。
- データ型: 互換性を確保し、モデルのパフォーマンスを最適化するために、各入力列のデータ型を確認して調整します。
- 補完方法: 補完方法を選択して、データセット内の欠損値を処理する方法を選択します。こうすることで、ユーザー設定に基づいてデータのギャップを埋められます。
自動特徴量化設定を有効または無効にすることもできます。 自動特徴量化を有効にすると、トレーニング用の追加の機能が生成され、データから追加の分析情報が抽出されることで、モデルのパフォーマンスが向上する可能性があります。 これらのデータ設定を定義すると、AutoML ウィザードがデータセットを正確に解釈して処理できるようになり、試行結果の品質が向上します。
最終的な詳細を入力する
次に、AutoML 試用版を実行する方法と、実験と出力の名前付け規則を決定します。 AutoML の試行を実行するには 2 つのオプションがあります。
複数のモデルを同時にトレーニングする: このオプションは、データを pandas DataFrame に読み込むことができる場合に最適です。これにより、Spark クラスターを使用して複数のモデルを並列で実行できます。 このアプローチでは、複数のモデルを一度にトレーニングするので試行プロセスが高速になります。
Spark を使用してモデルを順次トレーニングする: このオプションが適しているのは、大規模なデータセットや、分散トレーニングにメリットがあるデータセットです。 分散モデルの探索には Spark と SynapseML が使用され、Spark が提供するスケーラビリティを利用して一度に 1 つのモデルがトレーニングされます。
注記
現時点では、 Spark モード では、Spark ベースのモデルの入力スキーマと出力スキーマのログ記録はサポートされていません。 このスキーマは、SynapseML PREDICT 関数の必須フィールドです。 回避策として、 MLflow を使用してモデルを直接読み込み、ノートブック内で推論を実行し、予測のスキーマ要件をバイパスできます。
実行モードを選択したら、[ノートブック]、[実験]、[モデル] の名前を指定してセットアップを完了します。 これらの名前付け規則は、Fabric内で AutoML アセットを整理し、評価版を簡単に追跡および管理するのに役立ちます。 完了すると、選択内容に基づいてノートブックが生成され、必要に応じて実行およびカスタマイズできます。
ノートブックの確認と作成
最後の手順では、すべての AutoML 設定を確認し、選択内容に合わせて生成されたコードをプレビューすることができます。 この機会に、選択した ML タスク、モード、データ設定、その他の構成が目的を満たしていることを確認できます。
問題がなければ、この手順を完了して、AutoML 試用版のすべてのコンポーネントを含むノートブックを生成できます。 このノートブックを使用すると、データの準備からモデルの評価までのプロセスの各ステージを追跡できます。また、作業の包括的な記録として利用できます。 必要に応じてこのノートブックをさらにカスタマイズし、コードと設定を調整して AutoML の試行結果を調整することもできます。
AutoML の実行を追跡する
ノートブックを実行すると、AutoML コードは MLflow ログを 使用して、試用中にテストされた各モデルの主要なメトリックとパラメーターを自動的に追跡します。 このシームレスな統合により、追加のセットアップを行うことなく、AutoML の実行の各イテレーションを監視および確認できます。
AutoML の試行結果について確認するには:
ML 実験項目に移動する:[ML 実験] では、AutoML プロセスによって作成されたさまざまな実行をすべて追跡できます。 各実行では、モデルのパフォーマンス メトリック、パラメーター、構成などの重要な詳細がログされるため、結果の分析と比較が容易になります。
AutoML 構成を確認します。 AutoML 試用版ごとに、使用された AutoML 構成が見つかります。各モデルがどのように設定され、どの設定が最適な結果につながったかについての分析情報が提供されます。
最適なモデルを見つける:ML モデルを開いて、AutoML の試行からの最終的な最高のパフォーマンスのモデルにアクセスします。
この追跡ワークフローは、モデルの整理、試行、管理に役立ち、AutoML の試行でテストされた各モデルのパフォーマンスと設定を完全に追跡できるようになります。 ここから、 SynapseML PREDICT インターフェイス を利用したり、ノートブックから直接予測を生成したりできます。