2019 年 7 月
這些功能和 Azure Databricks 平臺改良功能於 2019 年 7 月發行。
注意
發行會暫存。 在初始發行日期之後的一周之前,您的 Azure Databricks 帳戶可能不會更新。
即將推出:Databricks 6.0 不支援 Python 2
在預計 Python 2 即將結束的 2020 年生命週期中,Databricks Runtime 6.0 中將不會支援 Python 2。 舊版 Databricks Runtime 將繼續支援 Python 2。 我們預期會在 2019 年稍後發行 Databricks Runtime 6.0。
在集區閑置實例上預先載入 Databricks 運行時間版本
7 月 30 日 - 2019 年 8 月 6 日:版本 2.103
您現在可以選取要在集區閑置實例上載入的 Databricks 執行時間版本,加速集區支援的叢集啟動。 集區 UI 上的欄位稱為 預先載入的 Spark 版本。
自定義叢集標籤和集區標籤在一起發揮得更好
7 月 30 日 - 2019 年 8 月 6 日:版本 2.103
本月早些時候,Azure Databricks 引進了集區,這是一組閑置實例,可協助您快速啟動叢集。 在原始版本中,集區支援的叢集繼承了集區組態中的預設和自定義標籤,而且您無法在叢集層級修改這些標記。 現在您可以設定集區支援叢集的特定自定義標籤,而該叢集會套用所有自定義標籤,無論是繼承自集區,還是特別指派給該叢集。 您無法新增具有與繼承自集區之自定義標籤相同的索引鍵名稱的叢集特定自定義標籤(也就是說,您無法覆寫繼承自集區的自定義標籤)。 如需詳細資訊,請參閱 集區標籤。
MLflow 1.1 帶來數個 UI 和 API 改善
7 月 30 日 - 2019 年 8 月 6 日:版本 2.103
MLflow 1.1 引進數項新功能,以改善 UI 和 API 可用性:
執行概觀 UI 現在可讓您在執行數目超過 100 時流覽多個執行頁面。 第 100 次執行之後,按兩下 [ 載入更多 ] 按鈕以載入接下來的 100 次執行。
比較執行UI現在提供平行座標繪圖。 繪圖可讓您觀察一組 n 維度參數和計量之間的關聯性。 它會將所有執行可視化為以色彩編碼的行,這些行會根據計量的值進行色彩編碼(例如精確度),並顯示每個執行所採用的參數值。
現在,您可以從執行概觀 UI 新增和編輯標籤,並在實驗搜尋檢視中檢視卷標。
新的 MLflowContext API 可讓您以類似 Python API 的方式建立和記錄執行。 此 API 與現有的低階
MlflowClient
API 形成鮮明對比,其只會包裝 REST API。您現在可以使用 DeleteTag API,從 MLflow 執行中刪除標籤。
如需詳細資訊,請參閱 MLflow 1.1 部落格文章。 如需功能和修正的完整清單,請參閱 MLflow Changelog。
pandas DataFrame 顯示就像在 Jupyter 中所做的一樣轉譯
7 月 30 日 - 2019 年 8 月 6 日:版本 2.103
現在當您呼叫 pandas DataFrame 時,它會以與 Jupyter 中的相同方式轉譯。
新區域
2019年7月30日
Azure Databricks 現在可在下列其他區域中使用:
- 南韓中部
- 南非北部
Databricks Runtime 5.5 搭配 Conda (Beta)
2019年7月23日
重要
搭配 Conda 的 Databricks Runtime 處於 Beta 版。 支援環境的內容可能會在即將推出的 Beta 版本中變更。 變更可以包含套件清單或已安裝套件的版本。 Databricks Runtime 5.5 與 Conda 建置在 Databricks Runtime 5.5 LTS (不支援)之上。
具有 Conda 版本的 Databricks Runtime 5.5 新增了新的筆記本範圍連結庫 API,以支援使用 YAML 規格更新筆記本的 Conda 環境(請參閱 Conda 檔)。
請參閱 Databricks Runtime 5.5 與 Conda 的完整版本資訊(不支援)。
已更新中繼存放區連線限制
2019 年 7 月 16 日 - 23 日:版本 2.102
eastus、eastus2、centralus、westus、westus、westus2、westeurope、northeurope 的新 Azure Databricks 工作區將會有較高的中繼存放區連線限制 250。 現有的工作區會繼續使用目前的中繼存放區,且不會中斷,並繼續有 100 的連線限制。
設定集區的權限 (公開預覽)
2019 年 7 月 16 日 - 23 日:版本 2.102
集區 UI 現在支援設定可管理集區的人員,以及誰可以將叢集附加至集區的許可權。
如需詳細資訊,請參閱 集區許可權。
Databricks Runtime 5.5 for 機器學習
2019年7月15日
Databricks Runtime 5.5 ML 建置在 Databricks Runtime 5.5 LTS (不支援)之上。 其中包含許多熱門的機器學習連結庫,包括 TensorFlow、PyTorch、Keras 和 XGBoost,並使用 Horovod 提供分散式 TensorFlow 訓練。
此版本包含下列新功能和改進:
- 已新增 MLflow 1.0 Python 套件
- 已升級的機器學習連結庫
- TensorFlow 從 1.12.0 升級至 1.13.1
- PyTorch 從 0.4.1 升級至 1.1.0
- scikit-learn 從 0.19.1 升級至 0.20.3
- HorovodRunner 的單一節點作業
如需詳細資訊,請參閱 Databricks Runtime 5.5 LTS for ML (不支援)。
Databricks Runtime 5.5
2019年7月15日
Databricks Runtime 5.5 現已推出。 Databricks Runtime 5.5 包含 Apache Spark 2.4.3、升級的 Python、R、Java 和 Scala 連結庫,以及下列新功能:
- Azure Databricks 上的 Delta Lake 自動優化 GA
- Azure Databricks 上的 Delta Lake 已改善最小值、最大值和計數匯總查詢效能
- 使用改良的二進位檔資料來源和純量反覆運算器 pandas UDF 來加快模型推斷管線的速度(公開預覽)
- R 筆記本中的秘密 API
如需詳細資訊,請參閱 Databricks Runtime 5.5 LTS (不支援)。
將實體集區保留在待命狀態以進行快速叢集啟動 (公開預覽)
2019 年 7 月 9 日 - 11 日:版本 2.101
為了減少叢集開始時間,Azure Databricks 現在支援將叢集附加至預先定義的閑置實例集區。 連結至集區時,叢集會從集區配置其驅動程式和背景工作節點。 如果集區沒有足夠的閑置資源來容納叢集的要求,集區會藉由從雲端提供者配置新的實例來擴充。 當連結的叢集終止時,所使用的實例會傳回集區,並可由不同的叢集重複使用。
Azure Databricks 不會在集區中的實例閑置時向 DBU 收費。 實例提供者計費確實適用。 請參閱定價。
如需詳細資訊,請參閱 集區組態參考。
Ganglia 計量
2019 年 7 月 9 日 - 11 日:版本 2.101
Ganglia 是可調整的分散式監視系統,現已可在 Azure Databricks 叢集上使用。 Ganglia 計量可協助您監視叢集效能和健康情況。 您可以從叢集詳細資料頁面存取 Ganglia 計量:
如需使用和設定計量的詳細資訊,請參閱 Ganglia 計量。
全域數列色彩
2019 年 7 月 9 日 - 11 日:版本 2.101
您現在可以指定數列的色彩應該在筆記本中的所有圖表上保持一致。 請參閱 圖表之間的色彩一致性。