Avril 2019

Ces fonctionnalités et les améliorations de la plateforme Azure Databricks ont été publiées en avril 2019.

Notes

Les publications se font par étapes. Votre compte Azure Databricks peut ne pas être mis à jour jusqu’à une semaine après la date de publication initiale.

MLflow sur Azure Databricks (disponibilité générale)

25 avril 2019

Managed MLflow sur Azure Databricks est maintenant généralement disponible. MLflow sur Azure Databricks offre une version hébergée de MLflow entièrement intégrée au modèle de sécurité Databricks et à l’espace de travail interactif. Consultez Gestion de cycle de vie ML en utilisant MLflow.

Delta Lake sur Azure Databricks

24 avril 2019

Databricks a ouvert le projet Delta Lake en open source. Delta Lake est une couche de stockage qui apporte la fiabilité aux lacs de données basés sur HDFS et le stockage cloud en fournissant des transactions ACID via un contrôle d’accès concurrentiel optimiste entre les écritures et l’isolation d’instantané pour les lectures cohérentes pendant les écritures. Delta Lake fournit également un contrôle de version des données intégré pour faciliter les restaurations et la reproduction des rapports.

Notes

Ce qui a été précédemment appelé Databricks Delta est désormais le projet Delta Lake Open source plus les optimisations disponibles sur Azure Databricks. Consultez Présentation de Delta Lake.

Barre latérale des exécutions MLflow

9-16 avril 2019 : Version : 2.95

Vous pouvez maintenant afficher les exécutions de MLflow et les révisions du bloc-notes qui les ont produites dans un encadré à côté de votre bloc-notes. Dans la barre d’outils de droite du notebook, cliquez sur l’icône ExpérienceExperiment icon.

Consultez Créer une expérience de notebook.

Accéder à Azure Data Lake Storage Gen1 et Gen2 automatiquement avec vos informations d’identification Microsoft Entra ID (GA)

9-16 avril 2019 : Version : 2.95

Nous sommes heureux d'annoncer la disponibilité générale de l'authentification automatique à Azure Data Lake Storage Gen1 et Gen2 à partir des clusters Azure Databricks en utilisant la même identité Microsoft Entra ID que vous utilisez pour vous connecter à Azure Databricks.

Activez simplement votre cluster pour le passage des informations d’identification Microsoft Entra ID et les commandes que vous exécutez sur ce cluster pourront lire et écrire vos données dans Azure Data Lake Storage Gen1 et Gen2 sans que vous ayez besoin de configurer les informations d’identification du principal de service pour l’accès au stockage.

Pour en savoir plus, consultez Accéder à Azure Data Lake Storage à l’aide du relais d’informations d’identification Microsoft Entra ID (anciennement Azure Active Directory) (hérité).

Databricks Runtime 5.3 (disponibilité générale)

3 avril 2019

Databricks Runtime 5.3 est désormais en disponibilité générale. Databricks Runtime 5.3 comprend de nouvelles fonctionnalités Delta Lake et des mises à niveau, ainsi que des bibliothèques Python, R, Java et Scala mises à niveau.

Les principales mises à niveau sont les suivantes :

  • Databricks Delta time travel GA
  • Réplication de table MySQL vers la préversion publique de Delta
  • Dossier DBFS FUSE optimisé pour les charges de travail de Deep Learning
  • Améliorations de la bibliothèque de portée bloc-notes
  • Nouveaux indicateurs Databricks Advisor

Pour plus d’informations, consultez Databricks Runtime 5.3 (non pris en charge).

Databricks Runtime 5.3 ML (disponibilité générale)

3 avril 2019

Avec Databricks Runtime 5.3 pour Machine Learning, nous avons atteint notre premier GA de Databricks Runtime ML ! Databricks Runtime ML fournit un environnement prêt à l'emploi pour l'apprentissage automatique et la science des données. Il s'appuie sur Databricks Runtime et ajoute de nombreuses bibliothèques d'apprentissage automatique populaires, notamment TensorFlow, PyTorch, Keras et XGBoost. Il prend également en charge l’entraînement distribué avec Horovod.

Cette version est basée sur Databricks Runtime 5.3, avec des bibliothèques supplémentaires, des versions de bibliothèque différentes et la gestion des packages Conda pour les bibliothèques Python. les nouvelles fonctionnalités majeures depuis Databricks Runtime 5.2 ML bêta sont les suivantes :

  • L’intégration de MLlib à MLflow (préversion privée), qui fournit la journalisation automatique des exécutions de MLflow pour les modèles, s’adapte aux algorithmes de paramétrage PySpark CrossValidator et TrainValidationSplit .

    Si vous souhaitez participer à l'aperçu, contactez l'équipe de votre compte Databricks.

  • Mises à niveau vers les bibliothèques PyArrow, Horovod et TensorboardX.

    La mise à jour PyArrow ajoute la possibilité d’utiliser BinaryType lorsque vous effectuez une conversion basée sur une flèche et la rend disponible dans le fichier UDF pandas.

Pour plus d’informations, consultez Databricks Runtime 5.3 ML (non pris en charge). Pour obtenir des instructions sur la création d’un cluster Databricks Runtime ML, consultez IA et apprentissage automatique sur Databricks.