PostgreSQL'de federasyon sorguları çalıştırma

Makale
07/26/2024

Önemli

Bu makalede, Azure Databricks tarafından yönetilmeyen PostgreSQL verilerinde sorgu çalıştırma konusunda federasyon sorguları çalıştırmak için Lakehouse Federasyonu'nun nasıl ayarlanacağı açıklanır. Lakehouse Federasyonu hakkında daha fazla bilgi edinmek için bkz . Lakehouse Federasyonu nedir?

Lakehouse Federation kullanarak PostgreSQL veritabanındaki Çalıştırma sorgularınıza bağlanmak için Azure Databricks Unity Kataloğu meta veri deponuzda aşağıdakileri oluşturmanız gerekir:

PostgreSQL veritabanında sorgu çalıştırma bağlantınız.
Unity Kataloğu'ndaki PostgreSQL veritabanında çalıştır sorgularınızı yansıtan bir yabancı katalog ; böylece Unity Kataloğu sorgu söz dizimini ve veri idare araçlarını kullanarak Azure Databricks kullanıcısının veritabanına erişimini yönetebilirsiniz.

Başlamadan önce

Çalışma alanı gereksinimleri:

Unity Kataloğu için etkinleştirilen çalışma alanı.

İşlem gereksinimleri:

Databricks Runtime kümenizden veya SQL ambarından hedef veritabanı sistemlerine ağ bağlantısı. Bkz . Lakehouse Federasyonu için ağ önerileri.
Azure Databricks kümeleri Databricks Runtime 13.3 LTS veya üzerini ve paylaşılan veya tek kullanıcılı erişim modunu kullanmalıdır.
SQL ambarları Pro veya Sunucusuz olmalıdır ve 2023.40 veya üzerini kullanmalıdır.

Gerekli izinler:

Bağlantı oluşturmak için meta veri deposu yöneticisi veya çalışma alanına bağlı Unity Kataloğu meta veri deposunda ayrıcalığı olan CREATE CONNECTION bir kullanıcı olmanız gerekir.
Yabancı katalog oluşturmak için meta veri deposu üzerinde izninizin olması ve bağlantının sahibi olmanız veya bağlantıda ayrıcalığınız olması CREATE FOREIGN CATALOG gerekirCREATE CATALOG.

Aşağıdaki her görev tabanlı bölümde ek izin gereksinimleri belirtilir.

Bağlantı oluşturma

Bağlantı, bir dış veritabanı sistemine erişmek için bir yol ve kimlik bilgileri belirtir. Bağlantı oluşturmak için, Bir Azure Databricks not defterinde veya CREATE CONNECTION Databricks SQL sorgu düzenleyicisinde Katalog Gezgini'ni veya SQL komutunu kullanabilirsiniz.

Gerekli izinler: Meta veri deposu yöneticisi veya ayrıcalığına CREATE CONNECTION sahip kullanıcı.

Katalog Gezgini

Azure Databricks çalışma alanınızda Katalog'a tıklayın .
Katalog bölmesinin üst kısmında Ekle simgesine tıklayın ve menüden Bağlantı ekle'yi seçin.

Alternatif olarak, Hızlı erişim sayfasında Dış veri >düğmesine tıklayın, Bağlantılar sekmesine gidin ve Bağlantı oluştur'a tıklayın.
Kullanıcı dostu bir Bağlantı adı girin.
PostgreSQL bağlantı türünü seçin.
PostgreSQL örneğinin aşağıdaki bağlantı özelliklerini girin.
- Konak: Örneğin, postgres-demo.lb123.us-west-2.rds.amazonaws.com
- Bağlantı noktası: Örneğin, 5432
- Kullanıcı: Örneğin, postgres_user
- Parola: Örneğin, password123
(İsteğe bağlı) Çalıştığını onaylamak için Bağlantıyı test et'e tıklayın.
(İsteğe bağlı) Açıklama ekleyin.
Oluştur’a tıklayın.

SQL

Aşağıdaki komutu bir not defterinde veya Databricks SQL sorgu düzenleyicisinde çalıştırın.

CREATE CONNECTION <connection-name> TYPE postgresql
OPTIONS (
  host '<hostname>',
  port '<port>',
  user '<user>',
  password '<password>'
);

Kimlik bilgileri gibi hassas değerler için düz metin dizeleri yerine Azure Databricks gizli dizilerini kullanmanızı öneririz. Örneğin:

CREATE CONNECTION <connection-name> TYPE postgresql
OPTIONS (
  host '<hostname>',
  port '<port>',
  user secret ('<secret-scope>','<secret-key-user>'),
  password secret ('<secret-scope>','<secret-key-password>')
)

Gizli dizileri ayarlama hakkında bilgi için bkz . Gizli dizi yönetimi.

Yabancı katalog oluşturma

Yabancı katalog, Azure Databricks ve Unity Kataloğu'nu kullanarak bu veritabanındaki verileri sorgulayıp yönetebilmeniz için bir dış veri sistemindeki veritabanını yansıtır. Yabancı katalog oluşturmak için, önceden tanımlanmış olan veri kaynağına bir bağlantı kullanırsınız.

Yabancı katalog oluşturmak için, Bir Azure Databricks not defterinde veya CREATE FOREIGN CATALOG SQL sorgu düzenleyicisinde Katalog Gezgini'ni veya SQL komutunu kullanabilirsiniz.

gerekli izinler: CREATE CATALOG meta veri deposu üzerindeki izin ve bağlantının sahipliği veya CREATE FOREIGN CATALOG bağlantı üzerindeki ayrıcalık.

Katalog Gezgini

Azure Databricks çalışma alanınızda Katalog'a tıklayarak Katalog Gezgini'ne tıklayın.
Katalog bölmesinin üst kısmında Ekle simgesine tıklayın ve menüden Katalog ekle'yi seçin.

Alternatif olarak, Hızlı erişim sayfasında Kataloglar düğmesine ve ardından Katalog oluştur düğmesine tıklayın.
Katalog oluşturma başlığındaki yabancı katalog oluşturma yönergelerini izleyin.

SQL

Aşağıdaki SQL komutunu bir not defterinde veya SQL sorgu düzenleyicisinde çalıştırın. Köşeli ayraç içindeki öğeler isteğe bağlıdır. Yer tutucu değerlerini değiştirin:

<catalog-name>: Azure Databricks'teki kataloğun adı.
<connection-name>: Veri kaynağını, yolu ve erişim kimlik bilgilerini belirten bağlantı nesnesi .
<database-name>: Azure Databricks'te katalog olarak yansıtmak istediğiniz veritabanının adı.

CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');

Desteklenen gönderimler

Aşağıdaki gönderimler tüm işlemlerde desteklenir:

Filtreler
Projeksiyonlar
Sınır
İşlevler: kısmi, yalnızca filtre ifadeleri için. (Dize işlevleri, Matematiksel işlevler, Veri, Zaman ve Zaman Damgası işlevleri ve Alias, Cast, SortOrder gibi diğer çeşitli işlevler)

Aşağıdaki gönderimler Databricks Runtime 13.3 LTS ve üzeri ile SQL ambarlarında desteklenir:

Aşağıdaki toplama işlevleri: MIN, MAX, COUNT, SUM, AVG, VAR_POP, VAR_SAMP, STDDEV_POP, STDDEV_SAMP, GREATEST, LEAST, COVAR_POP, COVAR_SAMP, CORR, REGR_INTERCEPT, REGR_R2, REGR_SLOPE, REGR_SXY
Aşağıdaki Boole işlevleri: =, <, <, =>, >=, <=>
Aşağıdaki matematiksel işlevler (ANSI devre dışı bırakıldıysa desteklenmez): +, -, *, %, /
Çeşitli işleçler | ve~
Sıralama, sınır ile kullanıldığında

Aşağıdaki gönderimler desteklenmez:

Birleştirmeler
Windows işlevleri

Veri türü eşlemeleri

PostgreSQL'den Spark'a okuma yaptığınızda veri türleri aşağıdaki gibi eşlenir:

PostgreSQL türü	Spark türü
sayısal	Ondalık Türü
int2	ShortType
int4 (imzalı değilse)	IntegerType
int8, oid, xid, int4 (imzalıysa)	LongType
float4	FloatType
çift duyarlık, float8	DoubleType
char	CharType
ad, varchar, tid	VarcharType
bpchar, karakter değişen, json, para, nokta, süper, metin	StringType
bayt, geometri, varbayt	BinaryType
bit, bool	BooleanType
tarih	DateType
tabstime, time, time, time zone ile saat, saat dilimi olmayan saat, saat dilimi ile zaman damgası, zaman damgası, zaman damgası, saat dilimi olmadan zaman damgası*	TimestampType/TimestampNTZType
Postgresql dizi türü**	ArrayType

*Postgresql'den okuduğunuzda PostgresqlTimestamp, (varsayılan) ise preferTimestampNTZ = false Spark'a TimestampType eşlenir. PostgresqlTimestamp, ise preferTimestampNTZ = trueile TimestampNTZType eşlenir.

**Sınırlı dizi türleri desteklenir.

Aracılığıyla paylaş

PostgreSQL'de federasyon sorguları çalıştırma

Başlamadan önce

Bağlantı oluşturma

Katalog Gezgini

SQL

Yabancı katalog oluşturma

Katalog Gezgini

SQL

Desteklenen gönderimler

Veri türü eşlemeleri

Geri Bildirim

Ek kaynaklar