Microsoft Fabric の用語

[アーティクル]
12/14/2023

Synapse Data Warehouse、Synapse Data Engineering、Synapse Data Science、Real-Time Intelligence、Data Factory、Power BI に固有の用語などの、Microsoft Fabric で使用される用語の定義について説明します。

一般用語

容量: 容量とは、特定の時点で使用できるリソースの専用セットです。容量では、アクティビティを実行したり、出力を生成したりするリソースの機能が定義されます。アイテムが異なると、一定の時間に消費される容量が異なります。 Fabric では、Fabric SKU と試用版を通じて容量が提供されます。詳細については、「容量とは何か?」を参照してください。
エクスペリエンス: 特定の機能を対象とする機能のコレクション。 Fabric エクスペリエンスには、Synapse Data Warehouse、Synapse Data Engineering、Synapse Data Science、Real-Time Intelligence、Data Factory、Power BI が含まれます。
アイテム: アイテムとは、エクスペリエンス内の一連の機能です。ユーザーは作成、編集、および削除を実行できます。アイテムの種類は、それぞれ異なる機能を提供します。たとえば、Data Engineering エクスペリエンスには、レイクハウス、ノートブック、Spark ジョブ定義のアイテムが含まれます。
テナント: テナントとは、組織の Fabric の単一インスタンスであり、Microsoft Entra ID と連携しています。
ワークスペース: ワークスペースとは、コラボレーション用に設計された 1 つの環境にさまざまな機能がまとめられたアイテムのコレクションです。これは、実行されるワークに容量を使用するコンテナーとして機能し、その中のアイテムにアクセスできるユーザーを制御します。たとえば、ワークスペースでは、ユーザーはレポート、ノートブック、セマンティックモデルなどを作成します。詳細については、「ワークスペース」の記事を参照してください。

Synapse Data Engineering

レイクハウス: レイクハウスは、ビッグデータ処理のために Apache Spark エンジンと SQL エンジンによって使用されるデータレイク上のデータベースを表すファイル、フォルダー、テーブルのコレクションです。レイクハウスには、オープンソースの Delta 形式のテーブルを使用するときの ACID トランザクションに対する強化機能が含まれています。レイクハウスアイテムは、Microsoft OneLake の一意のワークスペースフォルダー内でホストされます。これには、フォルダーとサブフォルダーに整理されたさまざまな形式 (構造化および非構造化) のファイルが含まれています。詳細については、「レイクハウスとは何か?」を参照してください。
ノートブック: Fabric ノートブックは、豊富な機能を備えた多言語対話型プログラミングツールです。これには、コードとマークダウンの作成、Spark ジョブの実行と監視、結果の表示と視覚化、チームとの共同作業が含まれます。これは、データエンジニアとデータサイエンティストがデータを探索して処理し、コードとローコードのエクスペリエンスの両方を使用して機械学習実験を構築するのに役立ちます。これは、オーケストレーションのためのパイプラインアクティビティに簡単に変換できます。
Spark アプリケーション: Apache Spark アプリケーションとは、Spark の API 言語 (Scala、Python、Spark SQL、または Java) または Microsoft が追加した言語 (C# または F# を使用する .NET) を使用してユーザーが記述したプログラムです。アプリケーションを実行すると、並列で実行される 1 つ以上の Spark ジョブに分割され、データをより高速に処理できます。詳細については、Spark アプリケーションの監視に関する記事を参照してください。
Apache Spark ジョブ: Spark ジョブは、アプリケーション内の他のジョブと並列で実行される Spark アプリケーションの一部です。ジョブは、複数のタスクで構成されます。詳細については、Spark ジョブの監視に関する記事を参照してください。
Apache Spark ジョブ定義: Spark ジョブ定義は、Spark アプリケーションの実行方法を示す、ユーザーが設定するパラメーターのセットです。これを使用すると、バッチまたはストリーミングのジョブを Spark クラスターに送信できます。詳細については、「Apache Spark ジョブ定義とは何か?」を参照してください。
V オーダー: 高速読み取りを可能にし、コスト効率とパフォーマンスを向上させる Parquet ファイル形式への書き込みの最適化。すべての Fabric エンジンは、既定で V オーダーの Parquet ファイルを書き込みます。

Data Factory

コネクタ: Data Factory には、さまざまな種類のデータストアに接続できる豊富なコネクタセットが用意されています。接続すると、データを変換できます。詳しくは、コネクタに関する記事を参照してください。
データパイプライン: Data Factory では、データの移動と変換を調整するためにデータパイプラインが使用されます。これらのパイプラインは、Fabric のデプロイパイプラインとは異なります。詳細については、Data Factory の概要のパイプラインに関する記事を参照してください。
データフロー Gen2: データフローには、数百のデータソースからデータを取り込み、データを変換するためのローコードのインターフェイスが用意されています。 Fabric のデータフローは、データフロー Gen2 と呼ばれます。データフロー Gen1 は Power BI に存在します。データフロー Gen2 には、Azure Data Factory や Power BI のデータフローに比べて多くの機能が用意されています。 Gen1 から Gen2 にアップグレードすることはできません。詳細については、Data Factory の概要の「データフロー」を参照してください。
トリガー: スケジュールやデータの可用性など、特定の条件に基づいてパイプラインを開始するデータファクトリの自動化機能。

Synapse Data Science

Data Wrangler: Data Wrangler は、探索的データ分析を実行するためのイマーシブエクスペリエンスをユーザーに提供するノートブックベースのツールです。この機能は、動的なサマリー統計があるグリッドに似たデータ表示と、一連の一般的なデータクレンジング操作を組み合わせていて、すべて数個のアイコンの選択で使用できます。各操作は、再利用可能なスクリプトとしてノートブックに保存できるコードを生成します。
実験: 機械学習実験は、関連するすべての機械学習の実行を編成および制御するための主要な単位です。詳細については、「Microsoft Fabric での機械学習の実験」を参照してください。
モデル: 機械学習モデルとは、特定の種類のパターンを認識するようにトレーニングされたファイルのことです。一連のデータに対してモデルをトレーニングし、それに対して、そのデータセットの推論とそこからの学習に使用するアルゴリズムを提供します。詳細については、機械学習モデルに関する記事を参照してください。
実行: 実行はモデルコードの 1 回の実行に対応します。 MLflow では、追跡は実験と実行に基づいています。

Synapse Data Warehouse

SQL 分析エンドポイント: 各レイクハウスには SQL 分析エンドポイントがあり、ユーザーは TDS 経由で TSQL を使用して、Delta テーブルデータにクエリを実行できます。詳細については、SQL 分析エンドポイントに関する記事を参照してください。
Synapse Data Warehouse: Synapse Data Warehouse は、従来型のデータウェアハウスとして機能し、エンタープライズデータウェアハウスに期待されるトランザクション型の T-SQL 機能を完全にサポートします。詳細については、「Synapse Data Warehouse」を参照してください。

リアルタイムインテリジェンス

KQL データベース: KQL データベースは、KQL クエリを実行できる形式でデータを保持します。詳細については、KQL データベースのクエリ実行に関する記事を参照してください。
KQL クエリセット: KQL クエリセットは、Data Explorer データベースのデータに対するクエリの実行、結果の表示、およびクエリ結果の操作に使用されるアイテムです。クエリセットには、データベースとテーブル、クエリ、結果が含まれます。 KQL Queryset を使うと、クエリを保存して後で使ったり、クエリをエクスポートして他のユーザーと共有したりできます。詳細については、「KQL クエリセット内のデータのクエリを実行する」を参照してください。
イベントストリーム: Microsoft Fabric のイベントストリーム機能は、ノーコードのエクスペリエンスでリアルタイムイベントのキャプチャ、変換、宛先へのルーティングを行うための、Fabric プラットフォーム内の一元的な場所を提供します。イベントストリームは、さまざまなストリーミングデータソース、インジェスト先、変換が必要なときのイベントプロセッサで構成されます。詳細については、Microsoft Fabric のイベントストリームに関する記事を参照してください。

OneLake

ショートカット: ショートカットとは、他のファイルの保存場所を指す、OneLake 内の埋め込み参照です。直接コピーせずに既存のデータに接続する方法を提供します。詳しくは、「OneLake のショートカット」をご覧ください。

次の方法で共有

Microsoft Fabric の用語

一般用語

Synapse Data Engineering

Data Factory

Synapse Data Science

Synapse Data Warehouse

リアルタイムインテリジェンス

OneLake

フィードバック

フィードバック

その他のリソース

次の方法で共有

Microsoft Fabric の用語

一般用語

Synapse Data Engineering

Data Factory

Synapse Data Science

Synapse Data Warehouse

リアルタイム インテリジェンス

OneLake

関連するコンテンツ

フィードバック

フィードバック

その他のリソース

リアルタイムインテリジェンス