PostgreSQL に対してフェデレーションクエリを実行する

2025-06-11

この記事では、Azure Databricks で管理されていない PostgreSQL データに対してフェデレーションクエリを実行できるように、レイクハウスフェデレーションを設定する方法について説明します。 Lakehouse フェデレーションの詳細については、「Lakehouse フェデレーションとは?」を参照してください。

レイクハウスフェデレーションを使って PostgreSQL データベースに対する自分のクエリの実行に接続するには、Azure Databricks の Unity Catalog メタストアで以下を作成する必要があります。

PostgreSQL データベースへの "接続"。
Unity Catalog で PostgreSQL データベースをミラーリングする "外部カタログ"。これにより、Unity Catalog のクエリ構文とデータガバナンスツールを使って、Azure Databricks ユーザーのデータベースへのアクセスを管理できるようになります。

準備

ワークスペースの要件:

Unity Catalog を使用できるワークスペース。

コンピューティングの要件:

コンピューティングリソースからターゲットデータベースシステムへのネットワーク接続。「レイクハウスフェデレーションのためのネットワークに関する推奨事項」を参照してください。
Azure Databricks コンピューティングでは、Databricks Runtime 13.3 LTS 以降を使用し、Standard または デディケート アクセスモードを使用する必要があります。
SQL ウェアハウスはプロまたはサーバーレスである必要があり、2023.40 以降を使用する必要があります。

必要なアクセス許可:

接続を作成するには、メタストア管理者であるか、ワークスペースにアタッチされている Unity Catalog メタストアに対する CREATE CONNECTION 特権を持つユーザーである必要があります。
外部カタログを作成するには、メタストアに対する CREATE CATALOG 権限を持ち、接続の所有者であるか、接続に対する CREATE FOREIGN CATALOG 特権を持っている必要があります。

追加の権限要件は、以下の各タスクベースのセクションで規定されています。

接続を作成する

接続では、外部データベースシステムにアクセスするためのパスと資格情報を指定します。接続を作成するには、Catalog Explorer を使用するか、Azure Databricks ノートブックまたは Databricks SQL クエリエディターで CREATE CONNECTION SQL コマンドを使用します。

注

Databricks REST API または Databricks CLI を使用して接続を作成することもできます。 POST /api/2.1/unity-catalog/connections および Unity Catalog コマンドを参照してください。

必要な権限: メタストア管理者、または CREATE CONNECTION 特権を持つユーザー。

カタログエクスプローラー

Azure Databricks ワークスペースで、[ カタログ。
[カタログ] ペインの上部にある [追加] アイコンをクリックし、メニューから [接続の追加] を選択します。

または、[クイックアクセス] ページで、[外部データ >] ボタンをクリックし、[接続] タブに移動し、[接続の作成] をクリックします。
接続のセットアップウィザードの [接続の基本] ページで、わかりやすい 接続名入力します。
PostgreSQL の [接続の種類] を選択します。
(省略可能) コメントを追加します。
[次へ] をクリックします。
[ 認証 ] ページで、PostgreSQL インスタンスの次の接続プロパティを入力します。
- ホスト: たとえば、postgres-demo.lb123.us-west-2.rds.amazonaws.com
- ポート: たとえば、5432
- ユーザー: たとえば、postgres_user
- パスワード: たとえば、password123
[接続の作成] をクリックします。
カタログの基本 ページで、外部カタログの名前を入力します。外部カタログは、外部データシステム内のデータベースをミラーリングし、Azure Databricks と Unity Catalog を使ってそのデータベース内のデータに対するクエリの実行とアクセス管理ができるようにします。
(省略可能) [接続のテスト] をクリックして、動作することを確認します。
カタログを作成をクリックします。
[Access] ページで、作成したカタログにユーザーがアクセスできるワークスペースを選択します。 [すべてのワークスペースにアクセス権を持たせる] を選択するか、[ワークスペースへの割り当て] をクリックしてワークスペースを選択し、[割り当て] をクリックします。
カタログ内のすべてのオブジェクトへのアクセスを管理できる 所有者 を変更します。テキストボックスに主要項目を入力し、表示された結果からその項目をクリックします。
カタログに関する権限を付与します。 [許可] をクリックします。
1. カタログ内のオブジェクトにアクセスできる プリンシパル を指定します。テキストボックスに主要項目を入力し、表示された結果からその項目をクリックします。
2. 各プリンシパルに付与する 特権プリセット を選択します。既定では、すべてのアカウントユーザーに BROWSE が付与されます。
  - ドロップダウンメニューから [データ閲覧者 を選択して、カタログ内のオブジェクトに対する read 権限を付与します。
  - ドロップダウンメニュー データエディター を選択して、カタログ内のオブジェクトに対する read 権限と modify 権限を付与します。
  - 付与する特権を手動で選択します。
3. [許可] をクリックします。
[次へ] をクリックします。
[メタデータ] ページで、タグのキーと値のペアを指定します。詳細については、「Unity カタログのセキュリティ保護可能なオブジェクトにタグを適用する」を参照してください。
(省略可能) コメントを追加します。
[保存] をクリックします。

SQL

ノートブックまたは Databricks SQL クエリエディターで次のコマンドを実行します。

CREATE CONNECTION <connection-name> TYPE postgresql
OPTIONS (
  host '<hostname>',
  port '<port>',
  user '<user>',
  password '<password>'
);

資格情報などの機密性の高い値には、プレーンテキストの文字列ではなく Azure Databricks のシークレットを使用することをお勧めします。次に例を示します。

CREATE CONNECTION <connection-name> TYPE postgresql
OPTIONS (
  host '<hostname>',
  port '<port>',
  user secret ('<secret-scope>','<secret-key-user>'),
  password secret ('<secret-scope>','<secret-key-password>')
)

シークレットの設定については、「シークレットの管理」を参照してください。

外部カタログを作成する

注

UI を使用してデータソースへの接続を作成する場合は、外部カタログの作成が含まれるので、この手順は省略できます。

外部カタログは、外部データシステム内のデータベースをミラーリングし、Azure Databricks と Unity Catalog を使ってそのデータベース内のデータに対するクエリの実行とアクセス管理ができるようにします。外部カタログを作成するには、定義済みのデータソースへの接続を使用します。

外部カタログを作成するには、Catalog Explorer を使用するか、Azure Databricks ノートブックまたは SQL クエリエディターで CREATE FOREIGN CATALOG SQL コマンドを使用します。 Databricks REST API または Databricks CLI を使用してカタログを作成することもできます。 POST /api/2.1/unity-catalog/catalogs および Unity Catalog コマンドを参照してください。

必要なアクセス許可: メタストアに対する CREATE CATALOG アクセス許可と、接続の所有権または接続に対する CREATE FOREIGN CATALOG 特権。

カタログエクスプローラー

Azure Databricks ワークスペースで、[ カタログ をクリックしてカタログエクスプローラーを開きます。
[カタログ] ペインの上部にある [追加] アイコンをクリックし、メニューから [カタログの追加] を選択します。

または、[クイックアクセス] ページで、[カタログ] ボタンをクリックし、[カタログの作成] ボタンをクリックします。
「カタログを作成する」で外部カタログを作成する手順に従います。

SQL

ノートブックまたは SQL クエリエディターで次のコマンドを実行します。角かっこ内の項目は省略可能です。プレースホルダー値を次のように置き換えます。

<catalog-name>: Azure Databricks 内のカタログの名前。
<connection-name>: データソース、パス、アクセス資格情報を指定する接続オブジェクト。
<database-name>: Azure Databricks でカタログとしてミラーリングするデータベースの名前。

CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');

サポートされているプッシュダウン

すべてのコンピューティングで以下のプッシュダウンがサポートされています:

フィルター
プロジェクション
制限
関数: 部分的。フィルター式の場合のみ。 (文字列関数、数学関数、エイリアス、キャスト、SortOrder などのその他の関数)

Databricks Runtime 13.3 LTS 以上および SQL ウェアハウスでは、以下のプッシュダウンがサポートされています。

次の集計関数: MIN、MAX、COUNT、SUM、AVG、VAR_POP、VAR_SAMP、STDDEV_POP、STDDEV_SAMP、GREATEST、LEAST、COVAR_POP、COVAR_SAMP、CORR、REGR_INTERCEPT、REGR_R2、REGR_SLOPE、REGR_SXY
次のブール関数: =、<、<、=>、>=、<=>
次の数学関数 (ANSI が無効な場合はサポートされません): +、-、*、%、/
その他の演算子 | と ~
制限付きで使用した場合の並べ替え

以下のプッシュダウンはサポートされていません。

結合
Windows 関数

データ型マッピング

PostgreSQL から Spark に読み取ると、データ型は以下のようにマップされます。

PostgreSQL の型	Spark の型
数値	デシマルタイプ
int2	ShortType
int4 (署名されていない場合)	インテジャータイプ
int8、oid、xid、int4 (署名されている場合)	ロングタイプ (LongType)
float4	フロート型
double precision、 float8	DoubleType
文字	キャラクタータイプ
name、varchar、tid	VarcharType（バーチャータイプ）
bpchar、character varying、json、money、point、super、text	文字列型
bytea、geometry、varbyte	バイナリタイプ
bit、bool	BooleanType
日付	デートタイプ
tabstime、time、time with time zone、timetz、time without time zone、timestamp with time zone、timestamp、timestamptz、timestamp without time zone*	タイムスタンプ型/タイムスタンプNTZ型
Postgresql 配列型**	アレイタイプ

* Postgresql から読み取ると、Timestamp の場合 (既定値)、Postgresql のTimestampType は Spark の preferTimestampNTZ = false にマップされます。 Postgresql の Timestamp は、TimestampNTZType の場合、preferTimestampNTZ = true にマップされます。

**一部の配列型がサポートされています。

次の方法で共有

PostgreSQL に対してフェデレーション クエリを実行する

準備

接続を作成する

カタログ エクスプローラー

SQL

外部カタログを作成する

カタログ エクスプローラー

SQL

サポートされているプッシュダウン

データ型マッピング

フィードバック

その他のリソース

PostgreSQL に対してフェデレーションクエリを実行する

カタログエクスプローラー

カタログエクスプローラー