Azure Databricks 上的串流

您可以使用 Azure Databricks 進行近乎即時的資料擷取、處理、機器學習和 AI 來串流資料。

Azure Databricks 提供許多串流處理和增量處理選擇。 針對大部分的串流或累加資料處理或 ETL 工作,Databricks 建議使用 Delta Live Tables。 請參閱 什麼是 Delta Live Tables?

Azure Databricks 上大部分的累加式和串流工作負載都由結構化串流提供,包括差異即時資料表和自動載入器。 請參閱 什麼是自動載入器?

Delta Lake 和結構化串流與 Databricks Lakehouse 中的累加處理緊密整合。 請參閱 差異資料表串流讀取和寫入

如需即時模型服務,請參閱 使用 Azure Databricks 提供模型。

若要深入瞭解如何在 Azure Databricks 平臺上建置串流解決方案,請參閱 資料流程產品頁面

Azure Databricks 具有使用 Avro、通訊協定緩衝區和 JSON 資料承載中包含的半結構化資料欄位的特定功能。 若要深入了解,請參閱:

什麼是結構化串流?

Apache Spark 結構化串流是一種近乎即時的處理引擎,可使用熟悉的 Spark API,提供端對端容錯與一次處理保證。 結構化串流可讓您以對靜態資料表示批次計算的相同方式,在串流資料上表示計算。 結構化串流引擎會以累加方式執行計算,並在串流資料送達時持續更新結果。

如果您不熟悉結構化串流,請參閱 執行您的第一個結構化串流工作負載

如需搭配 Unity 目錄使用結構化串流的詳細資訊,請參閱 搭配結構化串流 使用 Unity 目錄。

Azure Databricks 支援哪些串流來源和接收?

Databricks 建議使用自動載入器,將支援的檔案類型從雲端物件儲存體內嵌到 Delta Lake。 針對 ETL 管線,Databricks 建議使用差異即時資料表(使用差異資料表和結構化串流)。 您也可以透過串流至 Delta Lake 資料表來回設定累加 ETL 工作負載。

除了 Delta Lake 和自動載入器之外,結構化串流也可以連線到 Apache Kafka 等傳訊服務

您也可以 使用 foreachBatch 來寫入任意資料接收器

其他資源

Apache Spark 提供 結構化串流程式設計指南 ,其中包含結構化串流的詳細資訊。

如需結構化串流的相關參考資訊,Databricks 建議下列 Apache Spark API 參考: