Maj 2020

Dessa funktioner och förbättringar av Azure Databricks-plattformen släpptes i maj 2020.

Anteckning

Versioner mellanlagras. Ditt Azure Databricks-konto kanske inte uppdateras förrän en vecka efter det första lanseringsdatumet.

Virtuella datorer i Easv4-serien (Beta)

29 maj 2020

Azure Databricks har nu betastöd för virtuella datorer i Easv4-serien , som använder en premium-SSD och kan uppnå en ökad maximal frekvens på 3,35 GHz. Dessa instanstyper kan optimera arbetsbelastningens prestanda för minnesintensiva företagsprogram.

Databricks Runtime 6.6 for Genomics GA

26 maj 2020

Databricks Runtime 6.6 för Genomics bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • GFF3-läsare
  • Stöd för anpassat referensgenom
  • Tidsgränser för pipeline per exempel
  • Exportalternativ för BAM
  • Manifestblobar

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 for Genomics (stöds inte).

Databricks Runtime 6.6 ML GA

26 maj 2020

Databricks Runtime 6.6 ML bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • Uppgraderat mlflow: 1.7.0 till 1.8.0

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 ML (stöds inte).

Databricks Runtime 6.6 GA

26 maj 2020

Databricks Runtime 6.6 innehåller många biblioteksuppgraderingar och nya funktioner, inklusive följande Delta Lake-funktioner:

  • Nu kan du utveckla schemat för tabellen automatiskt med åtgärden merge . Detta är användbart i scenarier där du vill flytta data till en tabell och schemat för data ändras över tid. I stället för att identifiera och tillämpa schemaändringar före upserting merge kan du samtidigt utveckla schemat och öka ändringarna. Se Automatisk schemautveckling.
  • Prestandan för sammanslagningsåtgärder som bara har matchade satser, dvs. de har bara update och delete åtgärder och ingen insert åtgärd, har förbättrats.
  • Parquet-tabeller som refereras i Hive-metaarkivet kan nu konverteras till Delta Lake via deras tabellidentifierare med hjälp av CONVERT TO DELTA.

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 (stöds inte).

Storleksgräns för DBFS REST API-borttagningsslutpunkt

21–28 maj 2020: Version 3.20

När du tar bort ett stort antal filer rekursivt med hjälp av DBFS API 2.0 utförs borttagningsåtgärden i steg. Anropet returnerar ett svar efter cirka 45-talet med ett felmeddelande där du uppmanas att åter anropa borttagningsåtgärden tills katalogstrukturen har tagits bort helt. Ett exempel:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Visa enkelt ett stort antal MLflow-registrerade modeller

21–28 maj 2020: Version 3.20

MLflow Model Registry stöder nu sökning och sidnumrering på serversidan för registrerade modeller, vilket gör det möjligt för organisationer med ett stort antal modeller att effektivt utföra listning och sökning. Precis som tidigare kan du söka efter modeller efter namn och få resultat ordnade efter namn eller senast uppdaterad tid. Men om du har ett stort antal modeller läses sidorna in mycket snabbare och sökningen hämtar den senaste vyn av modeller.

Bibliotek som har konfigurerats för att installeras på alla kluster installeras inte på kluster som kör Databricks Runtime 7.0 och senare

21–28 maj 2020: Version 3.20

I Databricks Runtime 7.0 och senare använder den underliggande versionen av Apache Spark Scala 2.12. Eftersom bibliotek som kompilerats mot Scala 2.11 kan inaktivera Databricks Runtime 7.0-kluster på oväntade sätt, installerar inte kluster som kör Databricks Runtime 7.0 och senare bibliotek som är konfigurerade att installeras på alla kluster. Fliken Klusterbibliotek visar status Skipped och ett utfasningsmeddelande som är relaterat till ändringarna i bibliotekshanteringen.

Om du har ett kluster som skapades på en tidigare version av Databricks Runtime innan 3.20 släpptes till arbetsytan och du nu redigerar klustret för att använda Databricks Runtime 7.0, installeras alla bibliotek som har konfigurerats för att installeras på alla kluster i klustret. I det här fallet kan eventuella inkompatibla JAR:er i de installerade biblioteken göra att klustret inaktiveras. Lösningen är antingen att klona klustret eller skapa ett nytt kluster.

Databricks Runtime 7.0 for Genomics (Beta)

21 maj 2020

Databricks Runtime 7.0 för Genomics bygger på Databricks Runtime 7.0 och innehåller följande biblioteksändringar:

  • ADAM-biblioteket har uppdaterats från version 0.30.0 till 0.32.0.
  • Hail-biblioteket ingår inte i Databricks Runtime 7.0 för Genomics eftersom det inte finns någon version baserad på Apache Spark 3.0.

Mer information finns i fullständiga viktig information om Databricks Runtime 7.0 for Genomics (stöds inte).

Databricks Runtime 7.0 ML (Beta)

21 maj 2020

Databricks Runtime 7.0 ML bygger på Databricks Runtime 7.0 och innehåller följande nya funktioner:

  • Python-bibliotek med notebook-omfång och anpassade miljöer som hanteras av kommandona conda och pip.
  • Uppdateringar för större Python-paket, inklusive tensorflow, tensorboard, pytorch, xgboost, sparkdl och hyperopt.
  • Nyligen tillagda Python-paket lightgbm, nltk, petastorm och plotly.
  • RStudio Server Öppen källkod v1.2.

Mer information finns i fullständiga viktig information om Databricks Runtime 7.0 ML (stöds inte).

Databricks Runtime 6.6 for Genomics (Beta)

7 maj 2020

Databricks Runtime 6.6 för Genomics bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • GFF3-läsare
  • Stöd för anpassat referensgenom
  • Tidsgränser för pipeline per exempel
  • Exportalternativ för BAM
  • Manifestblobar

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 for Genomics (stöds inte).

Databricks Runtime 6.6 ML (Beta)

7 maj 2020

Databricks Runtime 6.6 ML bygger på Databricks Runtime 6.6 och innehåller följande nya funktioner:

  • Uppgraderat mlflow: 1.7.0 till 1.8.0

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 ML (stöds inte).

Databricks Runtime 6.6 (Beta)

7 maj 2020

Databricks Runtime 6.6 (Beta) innehåller många biblioteksuppgraderingar och nya funktioner, inklusive följande Delta Lake-funktioner:

  • Nu kan du utveckla schemat för tabellen automatiskt med åtgärden merge . Detta är användbart i scenarier där du vill flytta data till en tabell och schemat för data ändras över tid. I stället för att identifiera och tillämpa schemaändringar före upserting merge kan du samtidigt utveckla schemat och öka ändringarna. Se Automatisk schemautveckling.
  • Prestandan för sammanslagningsåtgärder som bara har matchade satser, dvs. de har bara update och delete åtgärder och ingen insert åtgärd, har förbättrats.
  • Parquet-tabeller som refereras i Hive-metaarkivet kan nu konverteras till Delta Lake via deras tabellidentifierare med hjälp av CONVERT TO DELTA.

Mer information finns i fullständiga viktig information om Databricks Runtime 6.6 (stöds inte).

Jobbkluster taggas nu med jobbnamn och ID

5–12 maj 2020: Version 3.19

Jobbkluster märks automatiskt med jobbnamnet och ID:t. Taggarna visas i fakturerbara användningsrapporter så att du enkelt kan tillskriva din DBU-användning efter jobb och identifiera avvikelser. Taggarna är sanerade för klustertaggspecifikationer, till exempel tillåtna tecken, maximal storlek och maximalt antal taggar. Jobbnamnet finns i taggen RunName och jobb-ID:t finns i taggen JobId .

Återställ borttagna notebook-celler

5–12 maj 2020: Version 3.19

Nu kan du återställa borttagna celler med hjälp av kortkommandot (Z) eller genom att välja Redigera > Ångra ta bort celler.

Gräns för väntande jobb i kö

5–12 maj 2020: Version 3.19

En arbetsyta är nu begränsad till 1 000 aktiva jobbkörningar (körs och väntar). Eftersom en arbetsyta är begränsad till 150 samtidiga (pågående) jobbkörningar kan en arbetsyta ha upp till 850 körningar i den väntande kön.