共用方式為


Lakeflow Connect 中的標準連接器

此頁面描述 Databricks Lakeflow Connect 中的標準連接器,相較於受管理的連接器,此連接器提供較高層級的擷取管線自定義。

ETL 堆疊的圖層

某些連接器會在 ETL 堆疊的一個層級運作。 例如,Databricks 為 Salesforce 等企業應用程式提供完全受控的連接器,以及 SQL Server 等資料庫。 其他連接器會在 ETL 堆疊的多層運作。 例如,您可以在結構化串流中使用標準連接器進行完整自訂,或使用 Lakeflow Spark 宣告式管線來取得更受控的體驗。

ETL 堆疊圖表

Databricks 建議從最受控層開始。 如果它不符合您的需求(例如,如果不支援您的數據源),請下拉至下一層。

下表描述三層擷取產品,從最可自定義到最受控的產品排序:

說明
結構化串流 Apache Spark 結構化流式處理是一種串流引擎,提供使用 Spark API 的端對端容錯與精確一次處理保證。
Lakeflow Spark 宣告式管線 Lakeflow Spark 宣告式管線以結構化串流為基礎,提供用於建立資料管線的宣告式架構。 您可以定義要對資料執行的轉換,而 Lakeflow Spark 宣告式管線會管理協調流程、監視、資料品質、錯誤等等。 因此,其可提供比結構化串流更多的自動化和較少的額外負荷。
受控連接器 以 Lakeflow Spark 宣告式管線為基礎的全受控連接器,為最受歡迎的資料來源提供更多自動化功能。 它們擴充 Lakeflow Spark 宣告式管線功能,也包括來源特定的驗證、CDC、邊緣案例處理、長期 API 維護、自動重試、自動化結構描述演進等。 因此,它們為任何支援的數據來源提供更高程度的自動化。

選擇連接器

下表列出數據源和資料管道客製化程度的標準資料擷取連接器。 如需完全自動化的擷取體驗,請改用 受控連接器

從雲端物件記憶體累加擷取的SQL範例使用 CREATE STREAMING TABLE 語法。 它為 SQL 使用者提供可調整且強固的擷取體驗,因此是 的建議替代方案 COPY INTO

來源 更多自定義 某些自定義 更多自動化
雲端物件記憶體 自動載入器與結構化串流
(Python、Scala)
具有 Lakeflow Spark 宣告式管線的自動載入器
(Python,SQL)
使用 Databricks SQL 自動載入器
(SQL)
SFTP 伺服器 從 SFTP 伺服器擷取檔案
(Python,SQL)
N/A N/A
Apache Kafka 使用 Kafka 來源的結構化串流
(Python、Scala)
Lakeflow Spark 宣告式管線,使用 Kafka 作為來源
(Python,SQL)
Databricks SQL 與 Kafka 數據源
(SQL)
Google Pub/Sub 服務 使用 Pub/Sub 來源的結構化串流
(Python、Scala)
Lakeflow Spark 的宣告式管線,使用 Pub/Sub 作為來源
(Python,SQL)
具有 Pub/Sub 來源的 Databricks SQL
(SQL)
阿帕奇脈衝星 使用 Pulsar 來源的結構化串流
(Python、Scala)
具有 Pulsar 來源的 Lakeflow Spark 宣告式管線
(Python,SQL)
Databricks SQL 與 Pulsar 來源
(SQL)

導入排程

您可以設定匯入管線以定期排程或持續執行。

用例 管線模式
批次匯入 觸發:按排程或手動觸發時,處理新資料。
串流資料引入 連續:在來源送達時處理新數據。