Janvier 2019

Ces fonctionnalités et améliorations de la plateforme Azure Databricks ont été publiées en janvier 2019.

Notes

Les publications se font par étapes. Votre compte Azure Databricks peut ne pas être mis à jour jusqu’à une semaine après la date de publication initiale.

Modification à venir : Python 3 sera la version par défaut lors de la création de clusters

29 janvier 2019

Lors des publications de la version 2.91 de la plateforme Databricks en mi-février, la version Python par défaut des nouveaux clusters passera de Python 2 à Python 3. Évidemment, les clusters existants ne modifieront pas leurs versions Python. Toutefois, si vous avez pris l’habitude d’utiliser la version par défaut Python 2 quand vous créez des clusters, vous devez commencer à faire attention au choix de votre version Python.

Version de Python par défaut

Publication de Databricks Runtime 5.2 pour le machine learning (version bêta)

24 janvier 2019

Databricks Runtime 5.2 ML s’appuie sur Databricks Runtime 5.2 (sans support). Il contient de nombreuses bibliothèques de Machine Learning courantes, notamment TensorFlow, PyTorch, Keras et XGBoost, et fournit une formation TensorFlow distribuée à l’aide de Horovod. Outre les mises à jour de bibliothèque depuis Databricks Runtime 5.1, Databricks Runtime 5.2 ML comprend les nouvelles fonctionnalités suivantes :

  • GraphFrames prend désormais en charge l’API Pregel (Python) avec les optimisations de performances de Databricks.
  • HorovodRunner ajoute :
    • Sur un cluster GPU, les processus de formation sont mappés à des GPU plutôt qu’à des nœuds Worker afin de simplifier la prise en charge des types d’instance à plusieurs GPU. Cette prise en charge intégrée vous permet de distribuer à tous les GPU d’un ordinateur à plusieurs GPU sans code personnalisé.
    • HorovodRunner.run() renvoie désormais la valeur renvoyée du premier processus de formation.

Consultez les notes de publication complètes sur Databricks Runtime 5.2 ML (bêta). d

Publication de Databricks Runtime 5.2

24 janvier 2019

Databricks Runtime 5.2 est désormais disponible. Databricks Runtime 5.2 comprend Apache Spark 2.4.0, de nouvelles fonctionnalités et mises à niveau de Delta Lake et Structured Streaming, ainsi que des bibliothèques Python, R, Java et Scala mises à niveau. Pour plus d’informations, consultez Databricks Runtime 5.2 (non pris en charge).

Vue JSON de la configuration d’un cluster

15-22 janvier 2019

La page de configuration du cluster prend désormais en charge une vue JSON :

JSON de configuration de cluster

La vue JSON est en lecture seule. Toutefois, vous pouvez copier la vue JSON et l’utiliser pour créer et mettre à jour des clusters avec l'API de clusters 2.0.

IU de la création d’un cluster

15-22 janvier 2019 : Version 2.89

La page de création du cluster a été nettoyée et réorganisée pour une utilisation plus facile, et intègre une nouvelle option Options avancées.

Configuration des clusters

Déployer Azure Databricks dans votre propre réseau virtuel Azure (injection de réseau virtuel)

10 janvier 2019

Important

Cette fonctionnalité est disponible en préversion publique.

Le déploiement par défaut d’Azure Databricks est un service complètement managé sur Azure : toutes les ressources de plan de données, notamment un réseau virtuel (VNet) auquel tous les clusters seront associés, sont déployées sur un groupe de ressources verrouillé. Cependant, si vous devez personnaliser votre réseau, vous pouvez désormais déployer Azure Databricks dans votre propre réseau virtuel (ce qui parfois est appelé l’injection dans le réseau virtuel). Vous pouvez ainsi :

Le déploiement d’Azure Databricks vers votre propre réseau virtuel vous permet également de tirer parti des plages d’adresses CIDR flexibles (n’importe où entre /16-/24 pour le réseau virtuel et entre /18-/26 pour les sous-réseaux).

La configuration à l’aide de l’interface utilisateur du portail Azure est simple et rapide : lorsque vous créez un espace de travail, sélectionnez Déployer un espace de travail Azure Databricks dans votre Réseau virtuel, sélectionnez votre réseau virtuel et fournissez des plages CIDR pour deux sous-réseaux. Azure Databricks met à jour le réseau virtuel avec deux nouveaux sous-réseaux et des groupes de sécurité réseau à l’aide de plages d’adresses CIDR que vous fournissez, vous permet d’accéder au trafic de sous-réseau entrant et sortant, puis déploie l’espace de travail sur le réseau virtuel mis à jour.

Injection de réseau virtuel sur le déploiement de l’espace de travail

Si vous préférez configurer le réseau virtuel pour l’injection dans le réseau virtuel (par exemple, si vous souhaitez utiliser des sous-réseaux existants, utiliser des groupes de sécurité réseau existants ou créer vos propres règles de sécurité), vous pouvez utiliser des modèles ARM fournis avec Azure-Databricks au lieu de l’interface utilisateur du portail.

Notes

Cette fonctionnalité était précédemment disponible uniquement en vous inscrivant. Elle reste en préversion, mais elle est désormais entièrement en libre-service.

Pour plus d’informations, consultez Déployer Azure Databricks dans votre réseau virtuel Azure (injection dans le réseau virtuel) et Connecter votre espace de travail Azure Databricks à votre réseau local.

IU de la bibliothèque

2-9 janvier 2019 : Version 2.88

Les améliorations de l’interface utilisateur de la bibliothèque initialement publiées en novembre 2018 et rétablies peu après ont été republiées. Ces mises à jour facilitent le chargement, l’installation et la gestion des bibliothèques pour vos clusters Azure Databricks.

L’interface utilisateur d’Azure Databricks prend désormais en charge les bibliothèques d’espace de travail et les bibliothèques installées sur un cluster. Une bibliothèque d’espace de travail existe dans l’Espace de travail et peut être installée sur un ou plusieurs clusters. Une bibliothèque installée sur un cluster est une bibliothèque qui existe uniquement dans le contexte du cluster sur lequel elle est installée. De plus :

  • Vous pouvez maintenant créer une bibliothèque à partir d’un fichier chargé dans le stockage d’objets.
  • Vous pouvez maintenant installer et désinstaller des bibliothèques depuis la page de détails de la bibliothèque et de l’onglet Bibliothèques d’un cluster.
  • Les bibliothèques installées à l’aide de l’API s’affichent désormais sous l’onglet Bibliothèques d’un cluster.

Pour plus d’informations, consultez Bibliothèques.

Événements de cluster

2-9 janvier 2019 : Version 2.88

De nouveaux événements de cluster ont été ajoutés pour refléter l’état du pilote Spark. Pour plus d’informations, consultez ClusterEventType.

Gestion des versions des notebooks avec Azure DevOps Services

2-9 janvier 2019 : Version 2.88

Azure Databricks permet désormais d’utiliser facilement Azure DevOps Services (anciennement VSTS) pour contrôler la version de vos notebooks. L’authentification est automatique, le programme d’installation est simple et vous gérez les révisions de votre notebook comme vous le feriez avec notre intégration de GitHub.

Pour plus d’informations, consultez contrôle de version Git pour les notebooks (hérités).