Abfragen von SQL Server mit Azure Databricks

Artikel
04/18/2024

In diesem Artikel erfahren Sie, wie Sie Azure Databricks mit einem Microsoft SQL-Server verbinden können, um Daten zu lesen und zu schreiben.

Hinweis

Möglicherweise bevorzugen Sie Lakehouse Federation für die Verwaltung von Abfragen von SQL Server-Daten. Weitere Informationen unter Was ist Lakehouse Federation.

Konfigurieren einer Verbindung mit einem SQL Server

In Databricks Runtime 11.3 LTS und höher können Sie das sqlserver-Schlüsselwort verwenden, um den enthaltenen Treiber für die Verbindung mit dem SQL-Server zu verwenden. Verwenden Sie beim Arbeiten mit DataFrames die folgende Syntax:

Python

remote_table = (spark.read
  .format("sqlserver")
  .option("host", "hostName")
  .option("port", "port") # optional, can use default port 1433 if omitted
  .option("user", "username")
  .option("password", "password")
  .option("database", "databaseName")
  .option("dbtable", "schemaName.tableName") # (if schemaName not provided, default to "dbo")
  .load()
)

Scala

val remote_table = spark.read
  .format("sqlserver")
  .option("host", "hostName")
  .option("port", "port") // optional, can use default port 1433 if omitted
  .option("user", "username")
  .option("password", "password")
  .option("database", "databaseName")
  .option("dbtable", "schemaName.tableName") // (if schemaName not provided, default to "dbo")
  .load()

Wenn Sie mit SQL arbeiten, geben Sie sqlserver in der USING-Klausel an, und übergeben Sie Optionen während dem Erstellen einer Tabelle, wie im folgenden Beispiel gezeigt:

DROP TABLE IF EXISTS sqlserver_table;
CREATE TABLE sqlserver_table
USING sqlserver
OPTIONS (
  dbtable '<schema-name.table-name>',
  host '<host-name>',
  port '1433',
  database '<database-name>',
  user '<username>',
  password '<password>'
);

Verwenden des Legacy-JDBC-Treibers

In Databricks Runtime 10.4 LTS und niedriger müssen Sie den Treiber und die Konfigurationen mithilfe der JDBC-Einstellungen angeben. Im folgenden Beispiel wird der SQL Server mithilfe seines JDBC-Treibers abgefragt. Weitere Informationen zum Lesen, Schreiben und Konfigurieren von Parallelismus und zum Abfrage-Pushdown finden Sie unter Abfragen von Datenbanken mithilfe von JDBC.

Python

driver = "com.microsoft.sqlserver.jdbc.SQLServerDriver"

database_host = "<database-host-url>"
database_port = "1433" # update if you use a non-default port
database_name = "<database-name>"
table = "<table-name>"
user = "<username>"
password = "<password>"

url = f"jdbc:sqlserver://{database_host}:{database_port};database={database_name}"

remote_table = (spark.read
  .format("jdbc")
  .option("driver", driver)
  .option("url", url)
  .option("dbtable", table)
  .option("user", user)
  .option("password", password)
  .load()
)

Scala

val driver = "com.microsoft.sqlserver.jdbc.SQLServerDriver"

val database_host = "<database-host-url>"
val database_port = "1433" // update if you use a non-default port
val database_name = "<database-name>"
val table = "<table-name>"
val user = "<username>"
val password = "<password>"

val url = s"jdbc:sqlserver://{database_host}:{database_port};database={database_name}"

val remote_table = spark.read
  .format("jdbc")
  .option("driver", driver)
  .option("url", url)
  .option("dbtable", table)
  .option("user", user)
  .option("password", password)
  .load()

Abfragen von SQL Server mit Azure Databricks

Konfigurieren einer Verbindung mit einem SQL Server

Python

Scala

Verwenden des Legacy-JDBC-Treibers

Python

Scala

Zusätzliche Ressourcen