Microsoft Fabric を使ってデータを調べて処理する

完了

データは、特に人工知能を実現するための機械学習モデルのトレーニングを目指す場合に、データ サイエンスの基礎となります。 通常、トレーニング データセットのサイズが大きくなるにつれてパフォーマンスが向上します。 データの量に加えて、データの品質も同様に重要です。

データの品質と量の両方を保証するため、Microsoft Fabric の堅牢なデータ インジェストおよび処理エンジンを使用することは価値があります。 重要なデータ インジェスト、探索、変換パイプラインを確立するときに、ローコードまたはコードファーストのアプローチを柔軟に選択できます。

Microsoft Fabric にデータを取り込む

Microsoft Fabric でデータを操作するには、まずデータを取り込む必要があります。 データは、ローカルおよびクラウド データ ソースの両方の複数のソースから取り込むことができます。 たとえば、ローカル コンピューターまたは Azure Data Lake Storage (Gen2) に格納されている CSV ファイルからデータを取り込むことができます。

データ ソースに接続した後は、データを Microsoft Fabric のレイクハウスに保存できます。 レイクハウスを中央の場所として使用して、構造化、半構造化、非構造化の各ファイルを格納できます。 その後、調査や変換のためにデータにアクセスするたびに、レイクハウスに簡単に接続できます。

データを調査および変換する

データ サイエンティストは、ノートブックでのコードの記述と実行に最も精通している可能性があります。 Microsoft Fabric は、Spark コンピューティングを利用した、使い慣れたノートブック エクスペリエンスを提供します。

Apache Spark は、大規模なデータ処理と分析のためのオープンソースの並列処理フレームワークです。

ノートブックは Spark コンピューティングに自動的にアタッチされます。 ノートブックでセルを初めて実行すると、新しい Spark セッションが開始されます。 セッションは、後続のセルを実行するときに保持されます。 Spark セッションは、コストを節約するためにしばらく非アクティブ状態になった後、自動的に停止します。 セッションは手動で停止することもできます。

ノートブックで作業している場合は、使用する言語を選択できます。 データ サイエンス ワークロードの場合は、PySpark (Python) または SparkR (R) を使用する可能性があります。

Screenshot of a notebook in Microsoft Fabric.

ノートブック内では、任意のライブラリを使用するか、組み込みの視覚化オプションを使用してデータを調査できます。 必要に応じて、データを変換し、処理されたデータをレイクハウスに書き戻して保存できます。

Data Wrangler を使用してデータを準備する

データの探索と変換をより迅速に行うために、Microsoft Fabric には使いやすい Data Wrangler が用意されています。

Data Wrangler を起動すると、作業しているデータの概要が説明されます。 データの概要統計を表示して、欠損値などの問題を見つけることができます。

データをクリーンするには、組み込みのデータ クリーニング操作からいずれかを選択できます。 操作を選択すると、結果と関連するコードのプレビューが自動的に生成されます。 必要なすべての操作を選択したら、変換をコードにエクスポートし、それをデータに対して実行できます。