レイクハウス内のデータを探索して変換する

完了

レイクハウスにデータを読み込むと、次のように、さまざまなツールと手法を使用してデータを探索および変換できます。

  • Apache Spark: 各 Fabric レイクハウスでは、Notebooks または "Spark ジョブ定義" を使用して Spark プールを使用し、Scala、PySpark、または Spark SQL を使用してレイクハウス内のファイルとテーブルのデータを処理できます。

    • Notebooks: コードを使用して、テーブルやファイルとしてレイクハウスのデータを直接読み取り、変換し、書き込むことができる対話型コーディング インターフェイス。

    • Spark ジョブ定義: Spark エンジンを使ってレイクハウス内のデータを処理するオンデマンドまたはスケジュールされたスクリプト。

  • SQL 分析エンドポイント: 各レイクハウスには、Transact-SQL ステートメントを実行して、レイクハウス テーブル内のデータのクエリ、フィルター処理、集計、その他の探索を行うことができる SQL 分析エンドポイントが含まれています。

  • データフロー (Gen2): データ フローを使用すると、レイクハウスにデータを取り込むだけでなく、データフローを作成して、Power Query を介して後続の変換を実行し、必要に応じて変換されたデータをレイクハウスに戻すことができます。

  • データ パイプライン: 一連のアクティビティ (データフロー、Spark ジョブ、その他の制御フロー ロジックなど) を介してレイクハウス内のデータを操作する複雑なデータ変換ロジックを調整します。

レイクハウス内のデータを分析して視覚化する

レイクハウス テーブル内のデータは、データのリレーショナル モデルを定義するセマンティック モデルに含まれています。 このセマンティック モデルを編集 (または他のセマンティック モデルを作成) して、セマンティック モデルのカスタム メジャー、階層、集計、その他の要素を定義できます。 その後、データを視覚化して分析できる Power BI レポートのソースとしてセマンティック モデルを使用できます。

Power BI のデータの可視化機能と、データ レイクハウスの一元的なストレージおよび表形式スキーマを組み合わせて、1 つのプラットフォームにエンドツーエンドの分析ソリューションを実装できます。