Microsoft Fabric の用語

Synapse Data Warehouse、Synapse Data Engineering、Synapse Data Science、Synapse Real-Time Analytics、Data Factory、Power BI に固有の用語などの、Microsoft Fabric で使用される用語の定義について説明します。

一般用語

  • 容量: 容量とは、特定の時点で使用できるリソースの専用セットです。 容量では、アクティビティを実行したり、出力を生成したりするリソースの機能が定義されます。 アイテムが異なると、一定の時間に消費される容量が異なります。 Fabric では、Fabric SKU と試用版を通じて容量が提供されます。 詳細については、容量とは何かに関する記事を参照してください。

  • エクスペリエンス: 特定の機能を対象とする機能のコレクション。 Fabric エクスペリエンスには、Synapse Data Warehouse、Synapse Data Engineering、Synapse Data Science、Synapse Real-Time Analytics、Data Factory、Power BI が含まれます。

  • アイテム: アイテムとは、エクスペリエンス内の一連の機能です。 ユーザーは作成、編集、および削除を実行できます。 アイテムの種類は、それぞれ異なる機能を提供します。 たとえば、Data Engineering エクスペリエンスには、レイクハウス、ノートブック、Spark ジョブ定義のアイテムが含まれます。

  • テナント: テナントとは、組織の Fabric の単一インスタンスであり、Microsoft Entra ID と連携しています。

  • ワークスペース: ワークスペースとは、コラボレーション用に設計された 1 つの環境にさまざまな機能がまとめられたアイテムのコレクションです。 これは、実行されるワークに容量を使用するコンテナーとして機能し、その中のアイテムにアクセスできるユーザーを制御します。 たとえば、ワークスペースでは、ユーザーはレポート、ノートブック、セマンティック モデルなどを作成します。詳細については、「ワークスペース」の記事を参照してください。

Synapse Data Engineering

  • レイクハウス: レイクハウスは、ビッグ データ処理のために Apache Spark エンジンと SQL エンジンによって使用されるデータ レイク上のデータベースを表すファイル、フォルダー、テーブルのコレクションです。 レイクハウスには、オープンソースの Delta 形式のテーブルを使用するときの ACID トランザクションに対する強化機能が含まれています。 レイクハウス アイテムは、Microsoft OneLake の一意のワークスペース フォルダー内でホストされます。 これには、フォルダーとサブフォルダーに整理されたさまざまな形式 (構造化および非構造化) のファイルが含まれています。 詳細については、レイクハウスとは何かに関する記事を参照してください。

  • ノートブック: Fabric ノートブックは、豊富な機能を備えた多言語対話型プログラミング ツールです。 これには、コードとマークダウンの作成、Spark ジョブの実行と監視、結果の表示と視覚化、チームとの共同作業が含まれます。 これは、データ エンジニアとデータ サイエンティストがデータを探索して処理し、コードとローコードのエクスペリエンスの両方を使用して機械学習実験を構築するのに役立ちます。 これは、オーケストレーションのためのパイプライン アクティビティに簡単に変換できます。

  • Spark アプリケーション: Apache Spark アプリケーションとは、Spark の API 言語 (Scala、Python、Spark SQL、または Java) または Microsoft が追加した言語 (C# または F# を使用する .NET) を使用してユーザーが記述したプログラムです。 アプリケーションを実行すると、並列で実行される 1 つ以上の Spark ジョブに分割され、データをより高速に処理できます。 詳細については、Spark アプリケーションの監視に関する記事を参照してください。

  • Apache Spark ジョブ: Spark ジョブは、アプリケーション内の他のジョブと並列で実行される Spark アプリケーションの一部です。 ジョブは、複数のタスクで構成されます。 詳細については、Spark ジョブの監視に関する記事を参照してください。

  • Apache Spark ジョブ定義: Spark ジョブ定義は、Spark アプリケーションの実行方法を示す、ユーザーが設定するパラメーターのセットです。 これを使用すると、バッチまたはストリーミングのジョブを Spark クラスターに送信できます。 詳細については、「Apache Spark ジョブ定義とは」を参照してください。

  • V オーダー: 高速読み取りを可能にし、コスト効率とパフォーマンスを向上させる Parquet ファイル形式への書き込みの最適化。 すべての Fabric エンジンは、既定で V オーダーの Parquet ファイルを書き込みます。

Data Factory

  • コネクタ: Data Factory には、さまざまな種類のデータ ストアに接続できる豊富なコネクタ セットが用意されています。 接続すると、データを変換できます。 詳しくは、コネクタに関する記事を参照してください。

  • データ パイプライン: Data Factory では、データの移動と変換を調整するためにデータ パイプラインが使用されます。 これらのパイプラインは、Fabric のデプロイ パイプラインとは異なります。 詳細については、Data Factory の概要のパイプラインに関する記事を参照してください。

  • データフロー Gen2: データフローには、数百のデータ ソースからデータを取り込み、データを変換するためのローコードのインターフェイスが用意されています。 Fabric のデータフローは、データフロー Gen2 と呼ばれます。 データフロー Gen1 は Power BI に存在します。 データフロー Gen2 には、Azure Data Factory や Power BI のデータフローに比べて多くの機能が用意されています。 Gen1 から Gen2 にアップグレードすることはできません。 詳細については、Data Factory の概要の「データフロー」を参照してください。

Synapse Data Science

  • Data Wrangler: Data Wrangler は、探索的データ分析を実行するためのイマーシブ エクスペリエンスをユーザーに提供するノートブック ベースのツールです。 この機能は、動的なサマリー統計があるグリッドに似たデータ表示と、一連の一般的なデータ クレンジング操作を組み合わせていて、すべて数個のアイコンの選択で使用できます。 各操作は、再利用可能なスクリプトとしてノートブックに保存できるコードを生成します。

  • 実験: 機械学習実験は、関連するすべての機械学習の実行を編成および制御するための主要な単位です。 詳細については、「Microsoft Fabric での機械学習の実験」を参照してください。

  • モデル: 機械学習モデルとは、特定の種類のパターンを認識するようにトレーニングされたファイルのことです。 一連のデータに対してモデルをトレーニングし、それに対して、そのデータ セットの推論とそこからの学習に使用するアルゴリズムを提供します。 詳細については、機械学習モデルに関する記事を参照してください。

  • 実行: 実行はモデル コードの 1 回の実行に対応します。 MLflow では、追跡は実験と実行に基づいています。

Synapse Data Warehouse

  • SQL 分析エンドポイント: 各レイクハウスには SQL 分析エンドポイントがあり、ユーザーは TDS 経由で TSQL を使用して、Delta テーブル データにクエリを実行できます。 詳細については、SQL 分析エンドポイントに関する記事を参照してください。

  • Synapse Data Warehouse: Synapse Data Warehouse は、従来型のデータ ウェアハウスとして機能し、エンタープライズ データ ウェアハウスに期待されるトランザクション型の T-SQL 機能を完全にサポートします。 詳細については、「Synapse Data Warehouse」を参照してください。

Synapse Real-Time Analytics

  • KQL データベース: KQL データベースは、KQL クエリを実行できる形式でデータを保持します。 詳細については、KQL データベースのクエリ実行に関する記事を参照してください。

  • KQL クエリセット: KQL クエリセットは、Data Explorer データベースのデータに対するクエリの実行、結果の表示、およびクエリ結果の操作に使用されるアイテムです。 クエリセットには、データベースとテーブル、クエリ、結果が含まれます。 KQL Queryset を使うと、クエリを保存して後で使ったり、クエリをエクスポートして他のユーザーと共有したりできます。 詳細については、「KQL クエリセット内のデータのクエリを実行する」を参照してください。

  • イベント ストリーム: Microsoft Fabric のイベント ストリーム機能は、ノーコードのエクスペリエンスでリアルタイム イベントのキャプチャ、変換、宛先へのルーティングを行うための、Fabric プラットフォーム内の一元的な場所を提供します。 イベント ストリームは、さまざまなストリーミング データ ソース、インジェスト先、変換が必要なときのイベント プロセッサで構成されます。 詳細については、Microsoft Fabric のイベント ストリームに関する記事を参照してください。

OneLake

  • ショートカット: ショートカットとは、他のファイルの保存場所を指す、OneLake 内の埋め込み参照です。 直接コピーせずに既存のデータに接続する方法を提供します。 詳しくは、「OneLake のショートカット」をご覧ください。