Sdílet prostřednictvím


Databáze SQL s využitím konektoru Apache Spark

Důležité

Starší dokumentace k federaci dotazů byla vyřazena a nemusí se aktualizovat. Konfigurace uvedené v tomto obsahu nejsou oficiálně schváleny ani testovány službou Databricks. Pokud Federace Lakehouse podporuje vaši zdrojovou databázi, Databricks doporučuje místo toho použít ji.

Konektor Apache Spark pro Azure SQL Database a SQL Server umožňuje těmto databázím fungovat jako vstupní zdroje dat a výstupní datové jímky pro úlohy Apache Sparku. Umožňuje používat transakční data v reálném čase v analýzách velkých objemů dat a uchovávat výsledky pro ad hoc dotazy nebo vytváření sestav.

V porovnání s integrovaným konektorem JDBC tento konektor umožňuje hromadně vkládat data do databází SQL. Může překonat vkládání řádek po řádku výkonem, který je 10x až 20x rychlejší. Konektor Spark pro SQL Server a Azure SQL Database také podporuje ověřování Microsoft Entra ID, které umožňuje bezpečné připojení k databázím Azure SQL z Azure Databricks pomocí účtu MICROSOFT Entra ID. Poskytuje rozhraní podobná integrovanému konektoru JDBC. Migrace stávajících úloh Sparku pro použití tohoto konektoru je snadná.

Požadavky

Existují dvě verze konektoru Spark pro SQL Server: jednu pro Spark 2.4 a druhou pro Spark 3.x. Konektor Spark 3.x vyžaduje Databricks Runtime 7.x nebo vyšší. Konektor je podporovaný komunitou a nezahrnuje podporu smlouvy SLA od Microsoftu. Zapojte všechny problémy na GitHubu a požádejte komunitu o pomoc.

Součást Podporované verze
Apache Spark 3.0.x a 2,4x
Databricks Runtime Konektor Apache Spark 3.0: Databricks Runtime 7.x a vyšší verze
Scala Konektor Apache Spark 3.0: 2.12
Konektor Apache Spark 2.4: 2.11
Ovladač Microsoft JDBC pro SQL Server 8.2
Microsoft SQL Server SQL Server 2008 a novější
Azure SQL Database Podporováno

Použití konektoru Spark

Pokyny k použití konektoru Spark najdete v tématu Konektor Apache Spark: SQL Server a Azure SQL.