Microsoft Fabric の Data Science とは

データエンリッチメントとビジネス分析情報のために、Microsoft Fabric は、ユーザーがエンドツーエンドのデータサイエンスワークフローを構築できるようにするデータサイエンスエクスペリエンスを提供します。データサイエンスワークロードは OneLake の管理されたエンタープライズデータに対して直接動作するため、システム間でデータを移動することなく、キュレーションされたデータセット、共有データ、予測にアクセスできます。開始するには、データサイエンスのエンドツーエンドのチュートリアルを参照してください。

データサイエンスプロセス全体にわたって、さまざまなアクティビティを完了できます。

Microsoft Fabric ユーザーは、データサイエンスのホームページにアクセスできます。その後、次のスクリーンショットに示すように、関連するさまざまなリソースを検出してアクセスできます。

ほとんどの機械学習プロジェクトは、データサイエンスプロセスに従います。大まかに言えば、そのプロセスには次の手順が含まれます。

この記事では、データサイエンスプロセスの観点から Microsoft Fabric Data Science の機能について説明します。この記事では、Microsoft Fabric の役立つ機能を、データサイエンスプロセスの各ステップごとにまとめています。

問題の定式化と構想

Microsoft Fabric の Data Science ユーザーは、ビジネスユーザーやアナリストと同じプラットフォームで作業します。そのため、異なるロール間でのデータ共有やコラボレーションがシームレスになります。アナリストは、Power BI レポートやデータセットをデータサイエンスの専門家と簡単に共有できます。 Microsoft Fabric のロール間のコラボレーションが容易になり、問題の策定フェーズ中のハンドオフが容易になります。 OneLake でのテナント間データ共有により、複数組織のコラボレーションがさらに可能になり、データサイエンスチームは外部パートナーまたは子会社が共有する管理データセットにアクセスできます。

データの検出と前処理

Microsoft Fabric ユーザーは、Lakehouse リソースを使用して OneLake のデータを操作できます。データを参照して操作するために、Lakehouse はノートブックに簡単にアタッチできます。ユーザーは、レイクハウスから Pandas データフレームへのデータの直接読み込みを簡単に行えます。探索では、OneLake からのシームレスなデータ読み取りが可能になります。

OneLake ショートカットを使用すると、外部システムに格納されているデータや、他の Fabric ワークスペースやテナントから共有されているデータへのコピーアクセスを許可せずに、この機能を拡張できます。ショートカットをレイクハウスにアタッチし、ノートブック内の参照先データを重複や ETL なしで読み取ることができます。

Microsoft Fabric にネイティブに統合されているデータ統合パイプラインでは、データインジェストとデータオーケストレーションのパイプラインに強力なツールセットを利用できます。簡単に構築できるパイプラインでは、データにアクセスして、機械学習で使用できる形式に変換できます。

データ探索

機械学習プロセスの重要な部分は、探索と視覚化を通じてデータを理解することです。

Microsoft Fabric には、データストレージの場所に応じて、分析と機械学習のためにデータを探索および準備するためのツールが用意されています。ノートブック自体は、効率的で効果的なデータ探索ツールになります。

データ準備のための Apache Spark と Python

Microsoft Fabric では、大規模なデータの変換、準備、探索を行うことができます。 Spark を使用すると、ユーザーは PySpark/Python、Scala、SparkR/SparklyR ツールを使用して大規模にデータを前処理できます。強力なオープンソース視覚化ライブラリを使用すると、データの理解を深めるためにデータ探索エクスペリエンスを強化できます。

シームレスなデータクレンジングのためのデータ処理ツール

Data Wrangler を使用するために、Microsoft Fabric Notebook エクスペリエンスでは、データを準備して Python コードを生成するコードツール機能が追加されました。このエクスペリエンスにより、データのクリーニングなど、面倒で日常的なタスクを簡単に高速化できます。これを使用すると、生成されたコードを使用して自動化と再現性を構築することもできます。 Data Wrangler の詳細については、このドキュメントの「Data Wrangler」セクションを参照してください。

実験と ML モデリング

PySpark/Python や SparklyR/R などのツールを使用すると、ノートブックで機械学習モデルのトレーニングを処理できます。機械学習アルゴリズムとライブラリは、機械学習モデルのトレーニングに役立ちます。ライブラリ管理ツールで、これらのライブラリとアルゴリズムをインストールできます。その後、ユーザーは人気のある機械学習ライブラリを使用して、Microsoft Fabric で ML モデルのトレーニングを完了できます。また、Scikit Learn などの一般的なライブラリでもモデルを開発できます。

MLflow の実験と実行では、ML モデルのトレーニングを追跡できます。実験とモデルをログに記録するために、Microsoft Fabric には、相互作用をサポートする組み込みの MLflow エクスペリエンスが用意されています。 MLflow を使用して実験を追跡し、Microsoft Fabric でモデルを管理する方法について説明します。

SynapseML

Microsoft は SynapseML (旧称 MMLSpark) オープンソースライブラリを所有し、運用しています。これにより、非常にスケーラブルな機械学習パイプラインの作成が簡略化されます。これはツールのエコシステムであり、Apache Spark フレームワークをいくつかの新しい方向へ拡張します。 SynapseML は、複数の既存の機械学習フレームワークと新しい Microsoft アルゴリズムを 1 つのスケーラブルな API に統合します。オープンソースの SynapseML ライブラリには、予測モデル開発用の ML ツールの豊富なエコシステムが含まれており、Foundry Tools の事前トレーニング済み AI モデルが使用されています。詳細については、 SynapseML リソースを参照してください。

機能強化および運用に移行

ノートブックでは、予測用のオープンソースライブラリを使用して機械学習モデルのバッチスコアリングを処理できます。また、Microsoft Fabric のスケーラブルなユニバーサル Spark Predict 関数を処理することもできます。この関数は、Microsoft Fabric モデルレジストリの MLflow パッケージモデルをサポートします。

インサイトを得る

Microsoft Fabric では、予測値を OneLake に簡単に書き込むことができます。そこから、Power BI レポートを Power BI Direct Lake モードでシームレスに使用できます。Power BI Direct Lake モードでは、データをセマンティックモデルにコピーせずに OneLake から直接読み取ることができます。このコピーなしのアクセスパターンは、予測を最新の状態に保ち、冗長なデータ移動を排除します。データサイエンスの実践者は、作業の結果を関係者と簡単に共有でき、運用化が簡素化されます。

ノートブックのスケジュール機能を使用して、バッチスコアリングを含むノートブックの実行をスケジュールできます。また、パイプラインアクティビティまたは Spark ジョブの一部としてバッチスコアリングをスケジュールすることもできます。 Microsoft Fabric の Direct Lake モードでは、Power BI はデータの読み込みまたは更新を必要とせずに、最新の予測を自動的に取得します。

セマンティックリンクを使用したデータの探索

データサイエンティストやビジネスアナリストは、意味のある分析を開始する前に、データの理解、クリーンアップ、変換に多くの時間を費やしています。ビジネスアナリストは通常、セマンティックモデルを操作し、ドメインの知識とビジネスロジックを Power BI メジャーにエンコードします。一方、データサイエンティストは同じデータを操作できますが、通常は別のコード環境または言語を使用します。セマンティックリンクを使用すると、データサイエンティストは、SemPy Python ライブラリを使用して、Microsoft Fabric エクスペリエンスの Power BI セマンティックモデルと Synapse データサイエンス間の接続を確立できます。データ分析を簡略化するために、SemPy は、ユーザーがセマンティックモデルに対してさまざまな変換を実行する場合に、データセマンティクスをキャプチャして使用します。データサイエンティストがセマンティックリンクを使用すると、

コード内のビジネスロジックとドメイン知識の再実装を回避する
コード内で Power BI の計算項目に簡単にアクセスして使用する
セマンティクスを使用して新しいエクスペリエンスを実現する (セマンティック関数など)
データ間の機能依存関係とリレーションシップを調査して検証する

組織が SemPy を使用する場合は、次のことが期待できます。

同じデータセットを操作するチーム間の生産性の向上とコラボレーションの高速化
ビジネスインテリジェンスチームと AI チームの間のクロスコラボレーションの増加
新しいモデルまたはデータセットへのオンボード時のあいまいさが軽減され、学習曲線が容易になります

セマンティックリンクの詳細については、「セマンティックリンクとは」を参照してください。

エンドツーエンドのデータサイエンスサンプルの使用を開始するには、 Data Science チュートリアルを参照してください
Data Wrangler を使用したデータの準備とクリーニングの詳細については、Data Wrangler を参照してください
実験の追跡の詳細については、機械学習の実験にアクセスしてください
モデル管理の詳細については、機械学習モデルを参照してください
Predict を使用したバッチスコアリングの詳細については、PREDICT を使用したモデルのスコア付けに関するページを参照してください
Direct Lake を使用して Lakehouse 予測を Power BI に提供する

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-12-04