次の方法で共有


Lake データベース

Azure Synapse Analytics の Lake データベースを使用すると、お客様は、データベースのデザイン、格納されているデータに関するメタ情報、データを格納する方法と場所を記述できる可能性をまとめることができます。 Lake データベースでは、データがどのように構造化されているかを理解するのが難しいという今日のデータ レイクの課題に対処しています。

Lake database の概要

データベース デザイナー

Synapse Studio の新しいデータベース デザイナーを使用すると、自分の Lake データベース用にデータ モデルを作成し、さらに情報を追加することができます。 どのエンティティと属性も、モデルに関する詳細情報を提供するために記述することができます。これには、エンティティだけでなく、リレーションシップも含まれます。 特に、モデル リレーションシップの欠如は、データレイクの操作にとって課題でした。 この課題は、データベースで使用できるがレイクでは利用できない手段を提供する統合されたデザイナーによって解決されました。 また、説明と場合によってはデモ値をモデルに追加する機能により、今後この機能を操作するユーザーは、必要な場所に情報を格納してデータについて理解を深めることもできます。

データ ストレージ

Lake データベースでは、Azure ストレージ アカウントのデータ レイクを使用して、データベースのデータを格納します。 データは デルタ形式または CSV 形式の Parquet に格納することができ、さまざまな設定を使用してストレージを最適化できます。 各 Lake データベースは、リンク サービスを使用して、ルート データ フォルダーの場所を定義します。 エンティティごとに、既定では、データ レイク上のこのデータベース フォルダー内に個別のフォルダーが作成されます。 既定では、Lake データベース内のすべてのテーブルで同じ形式が使用されますが、データの形式と場所は、要求された場合、エンティティごとに変更できます。

注意

Lake データベースを公開しても、Spark または SQL でデータのクエリを実行するために必要な基礎の構造またはスキーマは作成されません。 公開後に、パイプラインを使って Lake データベースにデータを読み込み、クエリを開始してください。

現時点では、レイク データベースの Delta 形式のサポートは、Synapse Studio ではサポートされていません。

ストレージと Synapse の間のレイク データベース オブジェクトの同期は一方向です。 Synapse Studio のデータベース デザイナーを使用し、レイク データベース オブジェクトの作成またはスキーマ変更を必ず実行してください。 このような変更を代わりに Spark から行うか、ストレージで直接行う場合、レイク データベースの定義が同期されなくなります。同期されないと、データベース デザイナーに古いレイク データベースの定義が表示されることがあります。 レイク データベースの再び同期させるには、このような変更をデータベース デザイナーで複製し、発行する必要があります。

データベース コンピューティング

Lake データベースは、Synapse SQL サーバーレス SQL プールと Apache Spark で公開されており、ストレージをコンピューティングから切り離す機能をユーザーに提供しています。 Lake データベースに関連付けられているメタデータを使用すると、さまざまなコンピューティング エンジンでは容易に、統合されたエクスペリエンスを提供するだけでなく、本来データ レイクでサポートされていなかった追加情報 (リレーションシップなど) も使用できるようになります。

次のステップ

次のリンクを使用して、データベース デザイナーの機能の詳細を引き続き確認します。