使用 Azure Databricks 進行串流處理

Azure Cosmos DB

Azure Databricks

Azure 事件中樞

Azure Log Analytics

Azure 監視器

此參考架構顯示了端對端流處理管線。此管線的四個階段是內嵌、處理、儲存及分析和報告。對於此參考架構，管線從兩個來源獲取資料，對每個流中的相關記錄執行聯接，豐富結果，並即時計算平均值。然後會儲存結果以供進一步分析。

架構

下載此架構的 Visio 檔案。

Workflow

下列數據流對應至上圖：

在這個架構中，有兩個即時產生資料流的資料來源。 第一個數據流包含車程資訊，而第二個數據流則包含車資資訊。參考架構包含仿真的數據產生器，可從一組靜態檔案讀取，並將數據推送至 Azure 事件中樞。實際應用程式中的數據源是安裝在計程車上的裝置。
事件中樞 是事件擷取服務。此體系結構使用兩個事件中心執行個體，每個資料來源一個。每個資料來源都會向關聯的事件中心發送資料流。
Azure Databricks 是以 Apache Spark 為基礎的分析平臺，專為 Azure 雲端服務平臺Microsoft優化。 Azure Databricks 可用來將計程車車程和車資數據相互關聯，以及擴充與儲存在 Azure Databricks 文件系統中的鄰里數據相互關聯數據。
Azure Cosmos DB 是完全受控的多模型資料庫服務。 Azure Databricks 作業的輸出是一系列記錄，這些記錄會寫入 Azure Cosmos DB for Apache Cassandra。使用 Azure Cosmos DB for Apache Cassandra 是因為它支援時間序列資料模型化。
- 適用於 Azure Cosmos DB 的 Azure Synapse Link 可讓您對 Azure Cosmos DB 中的作業數據執行近乎即時的分析，而不會對交易式工作負載產生任何效能或成本影響。您可以使用無伺服器 SQL 集區和 Spark 集區來達成這些結果。這些分析引擎可從您的 Azure Synapse Analytics 工作區取得。
- Microsoft Fabric中的Mirroring Azure Cosmos DB for NoSQL 可讓您將 Azure Cosmos DB 數據與 Microsoft Fabric 中的其餘數據整合。
Log Analytics 是 Azure 監視器內的工具，可讓您查詢和分析來自各種來源的記錄數據。 Azure 監視器收集的應用程式記錄資料會儲存在 Log Analytics 工作區中，。您可以使用 Log Analytics 查詢來分析和可視化計量，並檢查記錄訊息，以識別應用程式內的問題。

案例詳細資料

計程車公司會收集每個計程車車程的相關數據。在此案例中，我們假設兩個不同的裝置會傳送數據。計程車有一個計量，可傳送每趟車程的相關信息，包括持續時間、距離和上車和下車地點。一個單獨的設備接受客戶的付款並發送有關票價的資料。為了找出騎車趨勢，計程車公司想要實時計算每個街區每英里行駛的平均小費。

資料提取

為了模擬數據源，此參考架構會使用紐約市計程車數據數據集 ¹。此數據集包含從 2010 年到 2013 年紐約市計程車車程的相關數據。它同時包含車程和票價數據記錄。車程數據包括車程持續時間、車程距離，以及上車和下車位置。票價資料包括票價、稅金和小費金額。這兩種記錄類型的欄位包括獎章號碼、駭客授權和廠商標識碼。這三個字段的組合可唯一識別計程車和司機。資料以 CSV 格式儲存。

[1] Donovan, Brian; Work, Dan (2016): New York City Taxi Trip Data (2010-2013).[1] 布萊恩‧多諾萬； Work，Dan (2016)：紐約市計程車出行資料（2010-2013）。伊利諾大學厄巴納香檳校區。 https://doi.org/10.13012/J8PN93H8

數據產生器是 .NET Core 應用程式，可讀取記錄，並將其傳送至事件中樞。生成器會傳送 JSON 格式的乘車資料和 CSV 格式的票價資料。

事件中心使用分區來分段資料。分割區允許使用者並行讀取每個分割區。當您將資料傳送至事件中樞時，您可以直接指定分割區索引鍵。否則，記錄將以循環方式分配給分割區。

在此案例中，應該為特定的計程車指派相同的分割區標識符，以取得車程數據和車資數據。此指派可讓 Databricks 在將兩個數據流相互關聯時套用平行處理原則的程度。例如，數據分割 n 中的記錄會比對數據分割中的記錄 n 費用數據。

下載此架構的 Visio 檔案。

在資料產生器中，兩種記錄類型的公共資料模型都有一個屬性，即 PartitionKey、MedallionHackLicense 和 VendorId 的串聯。

public abstract class TaxiData
{
    public TaxiData()
    {
    }

    [JsonProperty]
    public long Medallion { get; set; }

    [JsonProperty]
    public long HackLicense { get; set; }

    [JsonProperty]
    public string VendorId { get; set; }

    [JsonProperty]
    public DateTimeOffset PickupTime { get; set; }

    [JsonIgnore]
    public string PartitionKey
    {
        get => $"{Medallion}_{HackLicense}_{VendorId}";
    }

當此屬性將數據傳送至事件中樞時，會用來提供明確的分割區索引鍵。

using (var client = pool.GetObject())
{
    return client.Value.SendAsync(new EventData(Encoding.UTF8.GetBytes(
        t.GetData(dataFormat))), t.PartitionKey);
}

事件中樞

事件中心的輸送量以輸送量單位來衡量。您可以啟用自動擴充來自動調整事件中樞。這項功能會根據流量自動調整輸送量單位，最多可達設定的最大值。

串流處理

在 Azure Databricks 中，作業會執行數據處理。作業會指派給叢集，然後在叢集上執行。作業可以是以 Java 或 Spark 筆記本撰寫的自訂程式代碼，。

在此參考架構中，作業是 Java 封存，其類別是以 Java 和 Scala 撰寫。當您指定 Databricks 作業的 Java 封存時，Databricks 叢集會指定作業的類別。這裡，main 類別的 com.microsoft.pnp.TaxiCabReader 方法包含了資料處理邏輯。

從兩個事件中樞實例讀取數據流

資料處理邏輯使用 Spark 結構化串流從兩個 Azure 事件中心執行個體讀取：

// Create a token credential using Managed Identity
val credential = new DefaultAzureCredentialBuilder().build()

val rideEventHubOptions = EventHubsConf(rideEventHubEntraIdAuthConnectionString)
  .setTokenProvider(EventHubsUtils.buildTokenProvider(..., credential))
  .setConsumerGroup(conf.taxiRideConsumerGroup())
  .setStartingPosition(EventPosition.fromStartOfStream)
val rideEvents = spark.readStream
  .format("eventhubs")
  .options(rideEventHubOptions.toMap)
  .load

val fareEventHubOptions = EventHubsConf(fareEventHubEntraIdAuthConnectionString)
  .setTokenProvider(EventHubsUtils.buildTokenProvider(..., credential))
  .setConsumerGroup(conf.taxiFareConsumerGroup())
  .setStartingPosition(EventPosition.fromStartOfStream)
val fareEvents = spark.readStream
  .format("eventhubs")
  .options(fareEventHubOptions.toMap)
  .load

使用鄰里資訊擴充數據

車程數據報含上車和下車位置的緯度和經度座標。這些座標很有用，但不容易用於分析。因此，此數據會以從 shapefile讀取的鄰里數據擴充。

shapefile 格式是二進位格式，而且不容易剖析。但是，GeoTools 連結庫提供使用 shapefile 格式的地理空間數據工具。此連結庫會用於 com.microsoft.pnp.GeoFinder 類別中，根據取貨和下車位置的座標來判斷鄰里名稱。

val neighborhoodFinder = (lon: Double, lat: Double) => {
      NeighborhoodFinder.getNeighborhood(lon, lat).get()
    }

聯結車程和票價數據

首先，轉換行程和票價資料：

val rides = transformedRides
  .filter(r => {
    if (r.isNullAt(r.fieldIndex("errorMessage"))) {
      true
    }
    else {
      malformedRides.add(1)
      false
    }
  })
  .select(
    $"ride.*",
    to_neighborhood($"ride.pickupLon", $"ride.pickupLat")
      .as("pickupNeighborhood"),
    to_neighborhood($"ride.dropoffLon", $"ride.dropoffLat")
      .as("dropoffNeighborhood")
  )
  .withWatermark("pickupTime", conf.taxiRideWatermarkInterval())

val fares = transformedFares
  .filter(r => {
    if (r.isNullAt(r.fieldIndex("errorMessage"))) {
      true
    }
    else {
      malformedFares.add(1)
      false
    }
  })
  .select(
    $"fare.*",
    $"pickupTime"
  )
  .withWatermark("pickupTime", conf.taxiFareWatermarkInterval())

然後，車程數據會與票價數據聯結：

val mergedTaxiTrip = rides.join(fares, Seq("medallion", "hackLicense", "vendorId", "pickupTime"))

處理數據並將其插入 Azure Cosmos DB

每個鄰里的平均票價金額會針對特定時間間隔計算：

val maxAvgFarePerNeighborhood = mergedTaxiTrip.selectExpr("medallion", "hackLicense", "vendorId", "pickupTime", "rateCode", "storeAndForwardFlag", "dropoffTime", "passengerCount", "tripTimeInSeconds", "tripDistanceInMiles", "pickupLon", "pickupLat", "dropoffLon", "dropoffLat", "paymentType", "fareAmount", "surcharge", "mtaTax", "tipAmount", "tollsAmount", "totalAmount", "pickupNeighborhood", "dropoffNeighborhood")
      .groupBy(window($"pickupTime", conf.windowInterval()), $"pickupNeighborhood")
      .agg(
        count("*").as("rideCount"),
        sum($"fareAmount").as("totalFareAmount"),
        sum($"tipAmount").as("totalTipAmount"),
        (sum($"fareAmount")/count("*")).as("averageFareAmount"),
        (sum($"tipAmount")/count("*")).as("averageTipAmount")
      )
      .select($"window.start", $"window.end", $"pickupNeighborhood", $"rideCount", $"totalFareAmount", $"totalTipAmount", $"averageFareAmount", $"averageTipAmount")

然後，平均費用金額會插入 Azure Cosmos DB：

maxAvgFarePerNeighborhood
      .writeStream
      .queryName("maxAvgFarePerNeighborhood_cassandra_insert")
      .outputMode(OutputMode.Append())
      .foreach(new CassandraSinkForeach(connector))
      .start()
      .awaitTermination()

考量

這些考量能實作 Azure Well-Architected Framework 的支柱，這是一組指導原則，可以用來改善工作負載的品質。如需更多資訊，請參閱 Microsoft Azure 結構完善的架構。

安全性

安全性可提供針對蓄意攻擊和濫用寶貴數據和系統的保證。如需詳細資訊，請參閱安全性的設計檢閱檢查清單。

使用系統管理員控制台來控制 Azure Databricks 工作區的存取權。系統管理員主控台包含新增使用者、管理用戶許可權，以及設定單一登錄的功能。也可以透過管理員控制台設定工作區、叢集、作業和表格的存取控制。

管理秘密

Azure Databricks 包含秘密存放區，用來儲存認證，並在筆記本和作業中參考認證。界定 Azure Databricks 秘密存放區內的分割區秘密範圍：

databricks secrets create-scope --scope "azure-databricks-job"

秘密是在範圍層級新增的：

databricks secrets put --scope "azure-databricks-job" --key "taxi-ride"

注意

使用 Azure Key Vault 支援的範圍，而不是原生 Azure Databricks 範圍。

在程式碼中，可透過 Azure Databricks 機密實用程式存取機密。

成本優化

成本優化著重於減少不必要的費用，並提升營運效率的方式。如需詳細資訊，請參閱成本優化的設計檢閱檢查清單。

使用 Azure 定價計算機來預估成本。請考慮此參考架構中使用的下列服務。

事件中樞成本考慮

此參考架構會在標準層中部署事件中樞。定價模型基於輸送量單位、輸入事件和擷取事件。輸入事件是 64 KB 以下的數據單位。較大訊息以 64 KB 的倍數計費。您可以透過 Azure 入口網站或事件中心管理 API 指定輸送量單位。

如果您需要更多保留天數，請考慮專用層。此層提供具有嚴格需求的單一租使用者部署。此供應專案會建置以容量單位為基礎的叢集，且不相依於輸送量單位。標準層也會根據輸入事件和輸送量單位來計費。

如需詳細資訊，請參閱事件中樞定價。

Azure Databricks 成本考慮

Azure Databricks 提供標準層和進階層，這兩者都支援三個工作負載。此參考架構會在進階層中部署 Azure Databricks 工作區。

數據工程工作負載應該在作業叢集上執行。數據工程師會使用叢集來建置和執行作業。數據分析工作負載應該在全用途叢集上執行，且適用於數據科學家以互動方式探索、可視化、作及共用數據和深入解析。

Azure Databricks 提供多個定價模型。

隨用隨付方案

系統會根據所選的 VM 實例，針對叢集和 Azure Databricks 單位（DBU）中布建的虛擬機（VM）計費。 DBU 是每秒使用量計費的處理功能單位。 DBU 耗用量取決於在 Azure Databricks 中執行的實例大小和類型。定價取決於所選的工作負載和層級。
預先購買方案

您可以將 DBU 認可為 Azure Databricks 認可單位一或三年，以降低與隨用隨付模型相比，在該期間的總擁有成本。

如需詳細資訊，請參閱 Azure Databricks 定價。

Azure Cosmos DB 成本考慮

在此架構中，Azure Databricks 作業會將一系列記錄寫入 Azure Cosmos DB。系統會向您保留的容量收費，其以每秒要求單位（RU/秒）來測量。此容量可用來執行插入作業。計費單位為每小時 100 RU/秒。例如，寫入 100 KB 專案的成本為 50 RUn。

對於寫入操作，請設定足夠的容量來支援每秒所需的寫入次數。您可以在執行寫入作業之前，先使用入口網站或 Azure CLI 來增加布建的輸送量，然後在完成這些作業之後減少輸送量。寫入期間的輸送量是特定數據所需的最小輸送量和插入作業所需的輸送量總和。此計算假設沒有其他工作負載正在執行。

成本分析範例

假設您在容器上設定輸送量值為 1,000 RU/秒。其已部署 24 小時 30 天，總共 720 小時。

容器的計費單位為每小時 100 RU/秒。每小時 0.008 美元（每 100 RU/秒）的 10 個單位按每小時 0.08 美元收費。

對於 720 小時或 7,200 個單位（100 RU），您本月的帳單為 57.60 美元。

記憶體也會針對儲存數據和索引所使用的每個 GB 計費。有關詳細資訊，請參閱 Azure Cosmos DB 定價模型。

使用 Azure Cosmos DB 容量計算機快速估計工作負載成本。

卓越營運

卓越營運涵蓋部署應用程式的作業程式，並讓它在生產環境中執行。如需詳細資訊，請參閱 Operational Excellence的設計檢閱檢查清單。

監視

Azure Databricks 是以 Apache Spark 為基礎。 Azure Databricks 和 Apache Spark 都會使用 Apache Log4j 作為記錄的標準連結庫。除了 Apache Spark 提供的預設記錄之外，您還可以在 Log Analytics 中實作記錄。有關詳細資訊，請參閱監視 Azure Databricks。

當 com.microsoft.pnp.TaxiCabReader 類別處理車程和車資訊息時，訊息的格式可能不正確，因此無效。在生產環境中，請務必分析這些格式錯誤的訊息，以找出數據源的問題，以便快速修正，以防止數據遺失。 com.microsoft.pnp.TaxiCabReader 類別會註冊 Apache Spark 累積器，以追蹤格式不正確的票價記錄和車程記錄數目：

@transient val appMetrics = new AppMetrics(spark.sparkContext)
appMetrics.registerGauge("metrics.malformedrides", AppAccumulators.getRideInstance(spark.sparkContext))
appMetrics.registerGauge("metrics.malformedfares", AppAccumulators.getFareInstance(spark.sparkContext))
SparkEnv.get.metricsSystem.registerSource(appMetrics)

Apache Spark 會使用Dropwizard連結庫來傳送計量。某些原生Dropwizard計量欄位與Log Analytics不相容，這就是為什麼此參考架構包含自定義Dropwizard接收和記者的原因。它會以 Log Analytics 預期的格式格式化計量。當 Apache Spark 報告指標時，也會發送格式錯誤的行程和票價資料的自訂指標。

您可以使用 Log Analytics 工作區中的下列範例查詢來監視串流作業的作業。每個查詢中的自變數 ago(1d) 會傳回過去一天產生的所有記錄。您可以調整此參數來檢視不同的時間週期。

數據流查詢作業期間記錄的例外狀況

SparkLoggingEvent_CL
| where TimeGenerated > ago(1d)
| where Level == "ERROR"

錯誤票價和乘車資料的累積

SparkMetric_CL
| where TimeGenerated > ago(1d)
| where name_s contains "metrics.malformedrides"
| project value_d, TimeGenerated, applicationId_s
| render timechart

SparkMetric_CL
| where TimeGenerated > ago(1d)
| where name_s contains "metrics.malformedfares"
| project value_d, TimeGenerated, applicationId_s
| render timechart

一段時間的作業作業

SparkMetric_CL
| where TimeGenerated > ago(1d)
| where name_s contains "driver.DAGScheduler.job.allJobs"
| project value_d, TimeGenerated, applicationId_s
| render timechart

資源組織和部署

為生產、開發和測試環境建立單獨的資源組。單獨的資源群組可以更輕鬆地管理部署、刪除測試部署和指派存取權限。
使用 Azure Resource Manager 範本，根據基礎結構即程式代碼程式來部署 Azure 資源。藉由使用範本，您可以使用 Azure DevOps 服務或其他持續整合和持續傳遞（CI/CD）解決方案自動化部署。
將每個工作負載放入單獨的部署範本中，並將資源儲存在來源控制系統中。您可以將這些範本一併或單獨部署，作為 CI/CD 程序的一部分。此方法可簡化自動化程式。

在此架構中，事件中樞、Log Analytics 和 Azure Cosmos DB 會識別為單一工作負載。這些資源會包含在單一 Azure Resource Manager 範本中。
考慮暫存您的工作負載。部署至各種階段，並在每個階段執行驗證檢查，再移至下一個階段。如此一來，您就可以控制如何將更新推送至生產環境，並將未預期的部署問題降到最低。

在此架構中，有多個部署階段。請考慮建立 Azure DevOps 管線並新增這些階段。您可以將下列階段自動化：
- 啟動 Databricks 叢集。
- 設定 Databricks CLI。
- 安裝 Scala 工具。
- 新增 Databricks 秘密。
請考慮撰寫自動化整合測試，以改善 Databricks 程式代碼及其生命週期的品質和可靠性。

後續步驟

Azure 串流分析的串流處理

意見反應

此頁面對您有幫助嗎？