適用於 Scala 開發人員的 Azure Databricks
本文提供使用 Scala 語言在 Azure Databricks 中開發筆記本和工作的指南。 第一節提供一般工作流程和工作的教學課程連結。 第二節提供 API、程式庫和金鑰工具的連結。
使用者入門的基本工作流程如下:
- 匯入程式碼並使用互動式 Databricks 筆記本執行:從檔案或 Git 存放庫匯入您自己的程式碼,或嘗試下列教學課程。
- 在叢集上執行程式碼:建立您自己的叢集,或確保您擁有使用共用叢集的權限。 將筆記本連結至叢集,然後執行筆記本。
除此之外,您可以延伸至更具體的主題:
- 使用 Apache Spark 處理較大的資料集
- 新增視覺效果
- 將工作負載自動化為工作
- 以整合式開發環境 (IDE) 開發
教學課程
下列教學課程提供範例程式碼和筆記本,有助了解一般工作流程。 如需將筆記本範例匯入工作區中的指示,請參閱匯入筆記本。
- 教學課程:使用 Apache Spark DataFrame 載入和轉換資料
- 教學課程:Delta Lake 提供 Scala 範例。
- 快速入門 Java 和 Scala 可協助您了解在 Scala 中使用 MLflow 追蹤機器學習訓練執行的基本概念。
- 在 Azure Databricks 上使用 XGBoost 提供 Scala 範例。
參考
下列小節列出主要功能和提示,以協助您開始使用 Scala 在 Azure Databricks 中進行開發。
Scala API
這些連結提供了 Apache Spark Scala API 的簡介和參考。
- 教學課程:使用 Apache Spark DataFrame 載入和轉換資料
- 查詢 JSON 字串
- 結構化串流簡介
- Apache Spark Core API 參考
- Apache Spark ML API 參考
使用筆記本和 Databricks Git 資料夾管理程式碼
Databricks 筆記本支援 Scala。 這些筆記本提供與 Jupyter 類似的功能,但具有新增功能,例如使用巨量資料進行內建視覺效果、用於偵錯和效能監控的 Apache Spark 整合,以及用於追蹤機器學習實驗的 MLflow 整合。 透過匯入筆記本開始。 擁有叢集存取權之後,您就可以將筆記本連結至叢集並執行筆記本。
提示
若要完全重設筆記本的狀態,重新啟動核心程序可能會很有用。 針對 Jupyter 使用者,Jupyter 中的 [重新啟動核心] 選項會對應至 Databricks 中的 [中斷連結並重新連結筆記本]。 若要在筆記本中重新啟動核心,請按下筆記本工具列中的 [計算選取器],並將滑鼠停留在清單中的已連結叢集或 SQL 倉儲上方,以顯示側邊功能表。 選取 [中斷連結並重新連結]。 這會中斷筆記本與叢集的連結並重新連結,進而重新啟動程序。
Databricks Git 資料夾可讓使用者同步處理筆記本和其他使用 Git 存放庫的檔案。 Databricks Git 資料夾有助於程式碼版本設定和共同作業,並可簡化將完整的程式碼存放庫匯入 Azure Databricks、檢視過去的筆記本版本以及整合 IDE 開發等流程。 從複製遠端 Git 存放庫開始著手。 然後,您可以使用存放庫複製來開啟或建立筆記本、將筆記本連結至叢集,以及執行筆記本。
叢集和程式庫
Azure Databricks 計算可為任何大小的叢集提供計算管理:從單一節點叢集到大型叢集。 您可以根據需求自訂叢集硬體和程式庫。 資料科學家通常會藉由建立叢集或使用現有的共用叢集開始工作。 擁有叢集存取權之後,您就可將筆記本連結至叢集並在叢集上執行工作。
Azure Databricks 叢集使用 Databricks Runtime,其提供許多現成可用的熱門程式庫,包括 Apache Spark、Delta Lake 等等。 您也可以安裝額外的協力廠商或自訂程式庫,以搭配使用筆記本和工作。
- 從 Databricks Runtime 版本資訊版本和相容性中的預設程式庫開始。 如需預先安裝的程式庫的完整清單,請參閱 Databricks Runtime 版本資訊版本和相容性。
- 您也可以在叢集中安裝 Scala 程式庫。
- 如需詳細資料,請參閱程式庫。
視覺效果
Azure Databricks Scala Notebooks 具有對許多類型的視覺效果的內建支援。 您也可以使用舊版視覺效果:
互通性
本節說明了支援 Scala 與 SQL 之間互通性的功能。
工作
您可在 Azure Databricks 中將 Scala 工作負載自動化為排程或觸發工作。 工作可以執行筆記本和 JAR。
- 如需透過 UI 建立工作的詳細資訊,請參閱設定和編輯 Databricks 工作。
- Databricks SDK 可讓您以程式設計的方式建立、編輯和刪除工作。
- Databricks CLI 為自動化工作提供方便的命令列介面。
整合式開發環境 (IDE)、開發人員工具與 SDK
除了在 Azure Databricks Notebooks 中開發 Scala 程式碼之外,您還可以使用 IntelliJ IDEA 等整合式開發環境 (IDE) 進行外部開發。 若要同步處理外部開發環境與 Azure Databricks 之間的運作,有幾個可用選項:
- 程式碼:您可以使用 Git 同步處理程式碼。 請參閱 Databricks Git 資料夾的 Git 整合。
- 程式庫和工作:您可以在外部建立程式庫檔案),並將其上傳至 Azure Databricks。 這些程式庫可以在 Azure Databricks Notebooks 中匯入,或可用來建立工作。 請參閱程式庫和排程及協調工作流程。
- 遠端電腦執行:您可以從本機 IDE 執行程式碼,以進行互動式開發與測試。 整合式開發環境 (IDE) 可以與 Azure Databricks 通訊,以在 Azure Databricks 叢集上執行大型計算。 例如,您可搭配 Databricks Connect 使用 IntelliJ IDEA。
Databricks 提供一組 SDK,可支援自動化及與外部工具的整合。 您可以使用 Databricks SDK 來管理資源,例如叢集和程式庫、程式碼和其他工作區物件、工作負載和工作等等。 請參閱 Databricks SDK。
如需 IDE、開發人員工具和 SDK 的詳細資訊,請參閱 開發人員工具。
其他資源
- Databricks 學院提供許多主題的自學型和講師指導型課程。