Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Na tej stronie opisano, jak skonfigurować federację Lakehouse do wykonywania zapytań federacyjnych na danych PostgreSQL, które nie są zarządzane przez Azure Databricks. Aby dowiedzieć się więcej o federacji Lakehouse, zobacz Co to jest Federacja Lakehouse?
Aby połączyć się z bazą danych PostgreSQL za pomocą Lakehouse Federation i wykonywać zapytania, należy utworzyć następujące elementy w katalogu Unity w Azure Databricks:
- Połączenie z uruchomionymi zapytaniami w bazie danych PostgreSQL.
- katalog obcy, który powiela zapytania wykonywane w bazie danych PostgreSQL w katalogu Unity, dzięki czemu można użyć składni zapytań w katalogu Unity oraz narzędzi ładu danych, pozwalając na zarządzanie dostępem użytkowników usługi Azure Databricks do bazy danych.
Zanim rozpoczniesz
Wymagania dotyczące obszaru roboczego:
- Obszar roboczy z dostępem do Unity Catalog.
Wymagania dotyczące obliczeń:
- Łączność sieciowa z zasobu obliczeniowego z docelowymi systemami baz danych. Zobacz Zalecenia dotyczące sieci dla usługi Lakehouse Federation.
- Środowisko obliczeniowe usługi Azure Databricks musi używać środowiska Databricks Runtime 13.3 LTS lub nowszego oraz standardowego trybu dostępu lub dedykowanego trybu dostępu .
- Magazyny SQL muszą być w wersji pro lub bezserwerowej i muszą używać wersji 2023.40 lub nowszej.
Wymagane uprawnienia:
- Aby utworzyć połączenie, musisz być administratorem magazynu metadanych lub użytkownikiem z uprawnieniami
CREATE CONNECTIONw magazynie metadanych Unity Catalog dołączonym do obszaru roboczego. - Aby utworzyć katalog zagraniczny, musisz mieć uprawnienie
CREATE CATALOGw metastore i być właścicielem połączenia lub mieć uprawnieniaCREATE FOREIGN CATALOGdla połączenia.
Dodatkowe wymagania dotyczące uprawnień są określone w każdej sekcji opartej na zadaniach.
Tworzenie połączenia
Połączenie określa ścieżkę dostępu i dane uwierzytelniające do zewnętrznego systemu bazodanowego. Aby utworzyć połączenie, możesz użyć Eksploratora wykazu lub polecenia CREATE CONNECTION SQL w notesie usługi Azure Databricks lub edytorze zapytań SQL usługi Databricks.
Note
Do utworzenia połączenia można również użyć interfejsu API REST usługi Databricks lub interfejsu wiersza polecenia usługi Databricks. Zobacz POST /api/2.1/unity-catalog/connections oraz polecenia Unity Catalog.
Wymagane uprawnienia: administrator magazynu metadanych lub użytkownik z uprawnieniami CREATE CONNECTION .
Eksplorator wykazu
W obszarze roboczym usługi Azure Databricks kliknij
Wykaz.
Na górze okienka Katalog kliknij ikonę
Dodaj i wybierz pozycję Dodaj połączenie z menu.Alternatywnie na stronie szybki dostęp do kliknij przycisk Zewnętrzne dane >, przejdź do karty połączenia, a następnie kliknij przycisk Utwórz połączenie.
Na stronie
Podstawy połączenia w kreatorzeKonfigurowanie połączenia , wprowadź nazwę połączenia przyjazną dla użytkownika. Wybierz typ połączenia dla PostgreSQL.
(Opcjonalnie) Dodaj komentarz.
Kliknij przycisk Dalej.
Na stronie Authentication wprowadź następujące właściwości połączenia dla wystąpienia bazy danych PostgreSQL.
-
Host: na przykład
postgres-demo.lb123.us-west-2.rds.amazonaws.com -
Port: na przykład
5432 -
Użytkownik: na przykład
postgres_user -
Hasło: na przykład
password123
-
Host: na przykład
Kliknij pozycję Utwórz połączenie.
Na stronie Podstawy katalogu wprowadź nazwę katalogu obcego. Wykaz obcy odzwierciedla bazę danych w zewnętrznym systemie danych, dzięki czemu można wykonywać zapytania o dostęp do danych w tej bazie danych i zarządzać nimi przy użyciu usług Azure Databricks i Unity Catalog.
(Opcjonalnie) Kliknij pozycję Testuj połączenie , aby potwierdzić, że działa.
Kliknij pozycję Utwórz katalog.
Na stronie Access wybierz obszary robocze, w których użytkownicy mogą uzyskiwać dostęp do utworzonego katalogu. Możesz wybrać opcję Wszystkie obszary robocze mają dostęplub kliknij Przypisać do obszarów roboczych, wybierz obszary robocze, a następnie kliknij Przypisz.
Zmień właściciela , który będzie mógł zarządzać dostępem do wszystkich obiektów w katalogu. Zacznij wpisywać główną osobę w polu tekstowym, a następnie kliknij główną osobę w zwróconych wynikach.
Nadaj przywileje w katalogu. Kliknij Zezwól:
- Określ podmioty, które będą miały dostęp do obiektów w katalogu. Zacznij wpisywać główną osobę w polu tekstowym, a następnie kliknij główną osobę w zwróconych wynikach.
- Wybierz ustawienia wstępne przywilejów, aby przyznać każdemu podmiotowi. Wszyscy użytkownicy konta domyślnie otrzymują
BROWSE.- Wybierz Czytnik danych z menu rozwijanego, aby nadać
readuprawnienia do obiektów w katalogu. - Wybierz pozycję Edytor danych z menu rozwijanego, aby przyznać
readimodifyuprawnienia do obiektów w wykazie. - Ręcznie wybierz uprawnienia do udzielenia.
- Wybierz Czytnik danych z menu rozwijanego, aby nadać
- Kliknij Grant.
Kliknij przycisk Dalej.
Na stronie Metadane określ pary klucz-wartość tagów. Aby uzyskać więcej informacji, zobacz Zastosuj tagi do obiektów zabezpieczalnych w Unity Catalog.
(Opcjonalnie) Dodaj komentarz.
Kliknij przycisk Zapisz.
SQL
Uruchom następujące polecenie w notesie lub edytorze zapytań SQL usługi Databricks.
CREATE CONNECTION <connection-name> TYPE postgresql
OPTIONS (
host '<hostname>',
port '<port>',
user '<user>',
password '<password>'
);
Zalecamy używanie tajnych danych usługi Azure Databricks zamiast ciągów w postaci zwykłego tekstu dla poufnych wartości, takich jak dane uwierzytelniające. Przykład:
CREATE CONNECTION <connection-name> TYPE postgresql
OPTIONS (
host '<hostname>',
port '<port>',
user secret ('<secret-scope>','<secret-key-user>'),
password secret ('<secret-scope>','<secret-key-password>')
)
Aby uzyskać informacje na temat konfigurowania wpisów tajnych, zobacz Zarządzanie wpisami tajnymi.
Tworzenie wykazu obcego
Note
Jeśli używasz interfejsu użytkownika do utworzenia połączenia ze źródłem danych, uwzględnione jest tworzenie katalogu zewnętrznego i możesz pominąć ten krok.
Wykaz obcy odzwierciedla bazę danych w zewnętrznym systemie danych, dzięki czemu można wykonywać zapytania o dostęp do danych w tej bazie danych i zarządzać nimi przy użyciu usług Azure Databricks i Unity Catalog. Aby utworzyć wykaz obcy, należy użyć połączenia ze źródłem danych, które zostało już zdefiniowane.
Aby utworzyć wykaz obcy, możesz użyć Eksploratora wykazu lub polecenia CREATE FOREIGN CATALOG SQL w notesie usługi Azure Databricks lub edytorze zapytań SQL. Do utworzenia katalogu można również użyć interfejsu API REST usługi Databricks lub interfejsu wiersza polecenia usługi Databricks. Zobacz POST /api/2.1/unity-catalog/catalogs i polecenia Katalogu Unity.
Wymagane uprawnienia:CREATE CATALOG uprawnienie do magazynu metadanych i własność połączenia lub CREATE FOREIGN CATALOG uprawnienia do połączenia.
Eksplorator wykazu
W obszarze roboczym usługi Azure Databricks kliknij
Wykaz do otwierania Eksploratora wykazu.
W górnej części okienka Katalogu, kliknij ikonę
Dodaj i wybierz Dodaj katalog z menu.Alternatywnie na stronie Szybki dostęp kliknij na przycisk Wykazy, a następnie kliknij na przycisk Utwórz katalog.
Postępuj zgodnie z instrukcjami dotyczącymi tworzenia katalogów obcych w Tworzenie katalogów.
SQL
Uruchom następujące polecenie SQL w notesie lub edytorze zapytań SQL. Elementy w nawiasach kwadratowych są opcjonalne. Zastąp wartości zastępcze:
-
<catalog-name>: nazwa wykazu w usłudze Azure Databricks. -
<connection-name>: obiekt połączenia określający źródło danych, ścieżkę i poświadczenia dostępu. -
<database-name>: nazwa bazy danych, którą chcesz dublować jako wykaz w usłudze Azure Databricks.
CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');
Obsługiwane funkcje wypychania
Następujące wypychania są obsługiwane we wszystkich obliczeniach:
- Filters
- Projections
- Limit
- Funkcje: częściowe, tylko dla wyrażeń filtru. (Funkcje ciągów, funkcje matematyczne i inne różne funkcje, takie jak Alias, Cast, SortOrder)
Następujące wypychania są obsługiwane w środowisku Databricks Runtime 13.3 LTS i nowszym oraz w magazynach SQL:
- Następujące funkcje agregacji: MIN, MAX, COUNT, SUM, AVG, VAR_POP, VAR_SAMP, STDDEV_POP, STDDEV_SAMP, GREATEST, LEAST, COVAR_POP, COVAR_SAMP, CORR, REGR_INTERCEPT, REGR_R2, REGR_SLOPE, REGR_SXY
- Następujące funkcje logiczne: =, <, <, =, =>, >=, <=>
- Następujące funkcje matematyczne (nieobsługiwane, jeśli usługa ANSI jest wyłączona): +, -, -, *, %, /
- Różne operatory | i~
- Sortowanie, gdy jest używane z limitem
Następujące wypychania nie są obsługiwane:
- Joins
- Funkcje systemu Windows
Mapowanie typu danych
Podczas odczytywania z bazy danych PostgreSQL do platformy Spark typy danych są mapowe w następujący sposób:
| Typ bazy danych PostgreSQL | Typ Spark |
|---|---|
| numeric | DecimalType |
| int2 | ShortType |
| int4 (jeśli nie jest podpisany) | IntegerType |
| int8, oid, xid, int4 (jeśli jest podpisany) | LongType |
| float4 | FloatType |
| podwójna precyzja, zmiennoprzecinkowa8 | DoubleType |
| char | CharType |
| name, varchar, tid | VarcharType |
| bpchar, znak różny, json, pieniądze, punkt, super, tekst | StringType |
| bytea, geometria, varbyte | BinaryType |
| bit, bool | BooleanType |
| date | DateType |
| tabstime, time, time with time zone, timetz, timetz, time without time zone, timestamp with time zone, timestamp, timestamptz, timestamp* | TimestampType/TimestampNTZType |
| Typ tablicy Postgresql** | ArrayType |
*Podczas odczytywania z bazy danych Postgresql narzędzie Postgresql Timestamp jest mapowane na platformę Spark TimestampType , jeśli preferTimestampNTZ = false (ustawienie domyślne). Narzędzie Postgresql Timestamp jest mapowane na TimestampNTZType wartość if preferTimestampNTZ = true.
**Obsługiwane są ograniczone typy tablic.