使用作業來實作資料處理和分析工作流程

發行項
10/07/2024

您可以使用 Azure Databricks 作業，在 Databricks 平台上協調資料處理、機器學習或資料分析管線。 Azure Databricks 作業支援許多工作負載類型，包括筆記本、指令碼、差異即時資料表管線、Databricks SQL 查詢和 dbt 專案。下列文章會引導您使用 Azure Databricks 作業的功能和選項來實作資料管線。

提示

您可使用 Databricks Asset Bundles 來定義並以程式設計方式管理您的作業。請參閱什麼是 Databricks Asset Bundles？以及使用 Databricks Asset Bundles 在 Azure Databricks 上開發作業。

使用 Azure Databricks 作業轉換、分析和視覺化您的資料

您可以使用作業來建立資料管線，以擷取、轉換、分析及可視化資料。在 Azure Databricks 作業中使用 Databricks SQL 中的範例會建置管線：

使用 Python 指令碼來使用 REST API 擷取資料。
使用差異即時資料表來內嵌和轉換擷取的資料，並將轉換的資料儲存至 Delta Lake。
使用作業與 Databricks SQL 整合來分析轉換的資料，並建立圖形以視覺化結果。

在作業中使用 dbt 轉換

如果您要使用 dbt 核心專案執行資料轉換，並且想要將該專案整合到 Azure Databricks 作業中，或是想要建立新的 dbt 轉換，並在作業中執行這些轉換，請使用 dbt 工作類型。請參閱在 Azure Databricks 作業中使用 dbt 轉換。

在作業中使用 Python 套件

Python Wheel 檔案是封裝及散發執行 Python 應用程式所需檔案的標準方式。您可以輕鬆地建立作業，該作業會使用以 Python wheel 工作類型封裝為 Python Wheel 檔案的 Python 程式碼。請參閱在 Azure Databricks 作業中使用 Python 轉輪檔案。

使用封裝在 JAR 中的程式碼

以 JVM 語言實作的程式庫和應用程式，例如 Java 和 Scala，通常會封裝在 Java 封存 (JAR) 檔案中。 Azure Databricks 作業支援以 JAR 工作類型封裝在 JAR 中的程式碼。請參閱在 Azure Databricks 作業中使用 JAR。

使用 Apache Airflow 協調作業

Databricks 建議使用 Azure Databricks 作業來協調工作流程。不過，Apache Airflow 通常用作工作流程協調流程系統，並提供 Azure Databricks 作業的原生支援。雖然 Azure Databricks 作業提供可視化 UI 來建立工作流程，但 Airflow 會使用 Python 檔案來定義及部署您的資料管線。如需使用 Airflow 建立和執行作業的範例，請參閱使用 Apache Airflow 協調 Azure Databricks 作業。

使用服務主體執行作業

您可以藉由使用 Microsoft Entra ID 應用程式和服務主體，將您的作業當人做服務帳戶來執行。以服務帳戶身分執行作業，而不是個別使用者，可讓您控制作業的存取權、確保作業具有必要的權限，以及防止作業擁有者從工作區中移除時發生問題。如需建立和使用服務主體來執行 Azure Databricks 作業的教學課程，請參閱使用 Microsoft Entra ID 服務主體執行作業。

共用方式為