此頁面描述 Databricks Lakeflow Connect 中的標準連接器,相較於受管理的連接器,此連接器提供較高層級的擷取管線自定義。
ETL 堆疊的圖層
某些連接器會在 ETL 堆疊的一個層級運作。 例如,Databricks 為 Salesforce 等企業應用程式提供完全受控的連接器,以及 SQL Server 等資料庫。 其他連接器會在 ETL 堆疊的多層運作。 例如,您可以在結構化串流中使用標準連接器進行完整自訂,或使用 Lakeflow Spark 宣告式管線來取得更受控的體驗。
Databricks 建議從最受控層開始。 如果它不符合您的需求(例如,如果不支援您的數據源),請下拉至下一層。
下表描述三層擷取產品,從最可自定義到最受控的產品排序:
| 層 | 說明 |
|---|---|
| 結構化串流 | Apache Spark 結構化流式處理是一種串流引擎,提供使用 Spark API 的端對端容錯與精確一次處理保證。 |
| Lakeflow Spark 宣告式管線 | Lakeflow Spark 宣告式管線以結構化串流為基礎,提供用於建立資料管線的宣告式架構。 您可以定義要對資料執行的轉換,而 Lakeflow Spark 宣告式管線會管理協調流程、監視、資料品質、錯誤等等。 因此,其可提供比結構化串流更多的自動化和較少的額外負荷。 |
| 受控連接器 | 以 Lakeflow Spark 宣告式管線為基礎的全受控連接器,為最受歡迎的資料來源提供更多自動化功能。 它們擴充 Lakeflow Spark 宣告式管線功能,也包括來源特定的驗證、CDC、邊緣案例處理、長期 API 維護、自動重試、自動化結構描述演進等。 因此,它們為任何支援的數據來源提供更高程度的自動化。 |
選擇連接器
下表列出數據源和資料管道客製化程度的標準資料擷取連接器。 如需完全自動化的擷取體驗,請改用 受控連接器 。
從雲端物件記憶體累加擷取的SQL範例使用 CREATE STREAMING TABLE 語法。 它為 SQL 使用者提供可調整且強固的擷取體驗,因此是 的建議替代方案 COPY INTO。
| 來源 | 更多自定義 | 某些自定義 | 更多自動化 |
|---|---|---|---|
| 雲端物件記憶體 |
自動載入器與結構化串流 (Python、Scala) |
具有 Lakeflow Spark 宣告式管線的自動載入器 (Python,SQL) |
使用 Databricks SQL 自動載入器 (SQL) |
| SFTP 伺服器 |
從 SFTP 伺服器擷取檔案 (Python,SQL) |
N/A | N/A |
| Apache Kafka |
使用 Kafka 來源的結構化串流 (Python、Scala) |
Lakeflow Spark 宣告式管線,使用 Kafka 作為來源 (Python,SQL) |
Databricks SQL 與 Kafka 數據源 (SQL) |
| Google Pub/Sub 服務 |
使用 Pub/Sub 來源的結構化串流 (Python、Scala) |
Lakeflow Spark 的宣告式管線,使用 Pub/Sub 作為來源 (Python,SQL) |
具有 Pub/Sub 來源的 Databricks SQL (SQL) |
| 阿帕奇脈衝星 |
使用 Pulsar 來源的結構化串流 (Python、Scala) |
具有 Pulsar 來源的 Lakeflow Spark 宣告式管線 (Python,SQL) |
Databricks SQL 與 Pulsar 來源 (SQL) |
導入排程
您可以設定匯入管線以定期排程或持續執行。
| 用例 | 管線模式 |
|---|---|
| 批次匯入 | 觸發:按排程或手動觸發時,處理新資料。 |
| 串流資料引入 | 連續:在來源送達時處理新數據。 |