Federatieve query's uitvoeren op MySQL
In dit artikel wordt beschreven hoe u Lakehouse Federation instelt om federatieve query's uit te voeren op MySQL-gegevens die niet worden beheerd door Azure Databricks. Zie Wat is Lakehouse Federation? voor meer informatie over Lakehouse Federation.
Als u verbinding wilt maken met uw MySQL-database met behulp van Lakehouse Federation, moet u het volgende maken in uw Azure Databricks Unity Catalog-metastore:
- Een verbinding met uw MySQL-database.
- Een refererende catalogus die uw MySQL-database in Unity Catalog weerspiegelt, zodat u de syntaxis van de Unity Catalog-query en hulpprogramma's voor gegevensbeheer kunt gebruiken voor het beheren van azure Databricks-gebruikerstoegang tot de database.
Voordat u begint
Vereisten voor werkruimte:
- Werkruimte ingeschakeld voor Unity Catalog.
Rekenvereisten:
- Netwerkconnectiviteit van uw Databricks Runtime-cluster of SQL Warehouse naar de doeldatabasesystemen. Zie De aanbevelingen voor netwerken voor Lakehouse Federation.
- Azure Databricks-clusters moeten gebruikmaken van Databricks Runtime 13.3 LTS of hoger en de modus voor gedeelde of toegang tot één gebruiker.
- SQL-warehouses moeten Pro of Serverless zijn en moeten 2023.40 of hoger gebruiken.
Vereiste machtigingen:
- Als u een verbinding wilt maken, moet u een metastore-beheerder of een gebruiker zijn met de
CREATE CONNECTION
bevoegdheid voor de Unity Catalog-metastore die is gekoppeld aan de werkruimte. - Als u een refererende catalogus wilt maken, moet u beschikken over de
CREATE CATALOG
machtiging voor de metastore en de eigenaar van de verbinding zijn of over deCREATE FOREIGN CATALOG
bevoegdheid voor de verbinding beschikken.
Aanvullende machtigingsvereisten worden opgegeven in elke sectie op basis van taken die volgt.
Een verbinding maken
Een verbinding geeft een pad en referenties op voor toegang tot een extern databasesysteem. Als u een verbinding wilt maken, kunt u Catalog Explorer of de CREATE CONNECTION
SQL-opdracht gebruiken in een Azure Databricks-notebook of de Databricks SQL-queryeditor.
Notitie
U kunt ook de Databricks REST API of de Databricks CLI gebruiken om een verbinding te maken. Zie POST /api/2.1/unity-catalog/connections en Unity Catalog-opdrachten.
Vereiste machtigingen: Metastore-beheerder of gebruiker met de CREATE CONNECTION
bevoegdheid.
Catalogusverkenner
Klik in uw Azure Databricks-werkruimte op Catalogus.
Klik boven aan het deelvenster Catalogus op het pictogram Toevoegen en selecteer Een verbinding toevoegen in het menu.
U kunt ook op de pagina Snelle toegang op de knop Externe gegevens > klikken, naar het tabblad Verbindingen gaan en op Verbinding maken klikken.
Voer een gebruiksvriendelijke verbindingsnaam in.
Selecteer een verbindingstype van MySQL.
Voer de volgende verbindingseigenschappen in voor uw MySQL-exemplaar.
- Host: bijvoorbeeld
mysql-demo.lb123.us-west-2.rds.amazonaws.com
- Poort: bijvoorbeeld
3306
- Gebruiker: bijvoorbeeld
mysql_user
- Wachtwoord: bijvoorbeeld
password123
- Host: bijvoorbeeld
(Optioneel) Klik op Verbinding testen om te bevestigen dat deze werkt.
(Optioneel) Voeg een opmerking toe.
Klik op Create.
SQL
Voer de volgende opdracht uit in een notebook of de Sql-query-editor van Databricks.
CREATE CONNECTION <connection-name> TYPE mysql
OPTIONS (
host '<hostname>',
port '<port>',
user '<user>',
password '<password>'
);
U wordt aangeraden Azure Databricks-geheimen te gebruiken in plaats van tekenreeksen zonder opmaak voor gevoelige waarden, zoals referenties. Voorbeeld:
CREATE CONNECTION <connection-name> TYPE mysql
OPTIONS (
host '<hostname>',
port '<port>',
user secret ('<secret-scope>','<secret-key-user>'),
password secret ('<secret-scope>','<secret-key-password>')
)
Als u tekenreeksen zonder opmaak moet gebruiken in SQL-opdrachten van notebooks, vermijdt u het afkappen van de tekenreeks door speciale tekens te ontsnappen, zoals $
bij \
. Voorbeeld: \$
.
Zie Geheimbeheer voor informatie over het instellen van geheimen.
Een refererende catalogus maken
Een refererende catalogus spiegelt een database in een extern gegevenssysteem, zodat u de toegang tot gegevens in die database kunt opvragen en beheren met behulp van Azure Databricks en Unity Catalog. Als u een refererende catalogus wilt maken, gebruikt u een verbinding met de gegevensbron die al is gedefinieerd.
Als u een refererende catalogus wilt maken, kunt u Catalog Explorer of de CREATE FOREIGN CATALOG
SQL-opdracht gebruiken in een Azure Databricks-notebook of de Databricks SQL-queryeditor.
Notitie
U kunt ook de Databricks REST API of de Databricks CLI gebruiken om een catalogus te maken. Zie POST /api/2.1/unity-catalog/catalogs en Unity Catalog-opdrachten.
Vereiste machtigingen: CREATE CATALOG
machtiging voor de metastore en eigendom van de verbinding of de CREATE FOREIGN CATALOG
bevoegdheid voor de verbinding.
Catalogusverkenner
Klik in uw Azure Databricks-werkruimte op Catalog om Catalog Explorer te openen.
Klik boven aan het deelvenster Catalogus op het pictogram Toevoegen en selecteer Een catalogus toevoegen in het menu.
U kunt ook op de pagina Snelle toegang op de knop Catalogussen klikken en vervolgens op de knop Catalogus maken klikken.
Volg de instructies voor het maken van refererende catalogi in Catalogussen maken.
SQL
Voer de volgende SQL-opdracht uit in een notebook of Databricks SQL-editor. Items tussen haakjes zijn optioneel. Vervang de waarden van de tijdelijke aanduidingen:
<catalog-name>
: Naam voor de catalogus in Azure Databricks.<connection-name>
: Het verbindingsobject waarmee de gegevensbron, het pad en de toegangsreferenties worden opgegeven.
CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>;
Ondersteunde pushdowns
De volgende pushdowns worden ondersteund voor alle berekeningen:
- Filters
- Projecties
- Grenswaarde
- Functies: gedeeltelijk, alleen voor filterexpressies. (Tekenreeksfuncties, wiskundige functies, datum-, tijd- en tijdstempelfuncties en andere diverse functies, zoals Alias, Cast, SortOrder)
De volgende pushdowns worden ondersteund in Databricks Runtime 13.3 LTS en hoger, en in SQL-warehouses:
- Aggregaties
- Booleaanse operators
- De volgende wiskundige functies (niet ondersteund als ANSI is uitgeschakeld): +, -, *, %, /
- Sorteren, bij gebruik met limiet
De volgende pushdowns worden niet ondersteund:
- Samenvoegingen
- Windows-functies
Toewijzingen van gegevenstypen
Wanneer u van MySQL naar Spark leest, worden gegevenstypen als volgt toegewezen:
MySQL-type | Spark-type |
---|---|
bigint (indien niet ondertekend), decimaal | DecimalType |
tinyint*, int, integer, gemiddeldeint, smallint | IntegerType |
bigint (indien ondertekend) | LongType |
zwevend | FloatType |
dubbel | DoubleType |
char, enum, set | CharType |
varchar | VarcharType |
json, longtext, mediumtext, tekst, kleine tekst | StringType |
binary, blob, varbinary, varchar binary | BinaryType |
bit, Booleaanse waarde | BooleanType |
datum, jaar | DateType |
datum/tijd, tijd, tijdstempel** | TimestampType/TimestampNTZType |
*tinyint(1) signed
en tinyint(1) unsigned
worden behandeld als booleaanse waarde en geconverteerd naar BooleanType
. Zie Connector-/J-naslaginformatie in de MySQL-documentatie.
** Wanneer u vanuit MySQL leest, wordt MySQL Timestamp
toegewezen aan Spark TimestampType
als preferTimestampNTZ = false
(standaard). MySQL Timestamp
is toegewezen aan TimestampNTZType
if preferTimestampNTZ = true
.