Avril 2019

Ces fonctionnalités et les améliorations de la plateforme Azure Databricks ont été publiées en avril 2019.

Notes

Les publications se font par étapes. Votre compte Azure Databricks peut ne pas être mis à jour jusqu’à une semaine après la date de publication initiale.

MLflow sur Azure Databricks (disponibilité générale)

25 avril 2019

Managed MLflow sur Azure Databricks est maintenant généralement disponible. MLflow sur Azure Databricks offre une version hébergée de MLflow entièrement intégrée au modèle de sécurité Databricks et à l’espace de travail interactif. voir Guide de MLflow.

Delta Lake sur Azure Databricks

24 avril 2019

Databricks a ouvert le projet Delta Lake en open source. Delta Lake est une couche de stockage qui apporte la fiabilité aux lacs de données basés sur HDFS et le stockage cloud en fournissant des transactions ACID via un contrôle d’accès concurrentiel optimiste entre les écritures et l’isolation d’instantané pour les lectures cohérentes pendant les écritures. Delta Lake fournit également un contrôle de version des données intégré pour faciliter les restaurations et la reproduction des rapports.

Notes

Ce qui a été précédemment appelé Databricks Delta est désormais le projet Delta Lake Open source plus les optimisations disponibles sur Azure Databricks. Consultez Présentation de Delta Lake.

Barre latérale des exécutions MLflow

9-16 avril 2019 : Version : 2.95

Vous pouvez maintenant afficher les exécutions de MLflow et les révisions du bloc-notes qui les ont produites dans un encadré à côté de votre bloc-notes.

MLflow s’exécute dans la barre latérale du notebook

Consultez Créer une expérience de notebook.

Accéder à Azure Data Lake Storage Gen1 et Gen2 automatiquement avec vos informations d’identification Azure AD (disponibilité générale)

9-16 avril 2019 : Version : 2.95

Nous sommes heureux d'annoncer la disponibilité générale de l'authentification automatique à Azure Data Lake Storage Gen1 et Gen2 à partir des clusters Azure Databricks en utilisant la même identité Azure Active Directory (Azure AD) que vous utilisez pour vous connecter à Azure Databricks.

Il suffit d'activer votre cluster pour le passage des informations d'identification Azure AD, et les commandes que vous exécutez sur ce cluster seront en mesure de lire et d'écrire vos données dans Azure Data Lake Storage Gen1 et Gen2 sans que vous ayez à configurer les informations d'identification des principaux services pour accéder au stockage.

Pour plus d’informations, consultez Accéder à Azure Data Lake Storage en utilisant le passage des informations d’identification Azure Active Directory.

Databricks Runtime 5.3 (disponibilité générale)

3 avril 2019

Databricks Runtime 5.3 est désormais en disponibilité générale. Databricks Runtime 5.3 comprend de nouvelles fonctionnalités Delta Lake et des mises à niveau, ainsi que des bibliothèques Python, R, Java et Scala mises à niveau.

Les principales mises à niveau sont les suivantes :

  • Databricks Delta time travel GA
  • Réplication de table MySQL vers la préversion publique de Delta
  • Dossier DBFS FUSE optimisé pour les charges de travail de Deep Learning
  • Améliorations de la bibliothèque de portée bloc-notes
  • Nouveaux indicateurs Databricks Advisor

Pour plus d’informations, consultez Databricks Runtime 5.3 (non pris en charge).

Databricks Runtime 5.3 ML (disponibilité générale)

3 avril 2019

Avec Databricks Runtime 5.3 pour Machine Learning, nous avons atteint notre premier GA de Databricks Runtime ML ! Databricks Runtime ML fournit un environnement prêt à l'emploi pour l'apprentissage automatique et la science des données. Il s'appuie sur Databricks Runtime et ajoute de nombreuses bibliothèques d'apprentissage automatique populaires, notamment TensorFlow, PyTorch, Keras et XGBoost. Il prend également en charge l’entraînement distribué avec Horovod.

Cette version est basée sur Databricks Runtime 5.3, avec des bibliothèques supplémentaires, des versions de bibliothèque différentes et la gestion des packages Conda pour les bibliothèques Python. les nouvelles fonctionnalités majeures depuis Databricks Runtime 5.2 ML bêta sont les suivantes :

  • L’intégration de MLlib à MLflow (préversion privée), qui fournit la journalisation automatique des exécutions de MLflow pour les modèles, s’adapte aux algorithmes de paramétrage PySpark CrossValidator et TrainValidationSplit .

    Si vous souhaitez participer à l'avant-première, contactez votre représentant de compte Databricks.

  • Mises à niveau vers les bibliothèques PyArrow, Horovod et TensorboardX.

    La mise à jour PyArrow ajoute la possibilité d’utiliser BinaryType lorsque vous effectuez une conversion basée sur une flèche et la rend disponible dans le fichier UDF pandas.

pour plus d’informations, consultez Databricks Runtime 5.3 ML (non pris en charge). Pour plus d’informations, notamment les instructions relatives à la création d’un cluster Databricks Runtime ML, consultez Databricks Runtime pour Machine Learning.