Apache Spark sur Azure Databricks

Cet article décrit la relation entre Apache Spark, Azure Databricks et la plateforme Databricks Data Intelligence.

Apache Spark est au cœur de la plateforme Azure Databricks et constitue la technologie qui alimente les clusters de calcul et les entrepôts SQL. Azure Databricks est une plateforme optimisée pour Apache Spark, qui fournit une plateforme simple et efficace pour exécuter des charges de travail Apache Spark.

Quelle est la relation entre Apache Spark et Azure Databricks ?

La société Databricks a été fondée par les créateurs d’origine d’Apache Spark. En tant que projet logiciel open source, Apache Spark a des validateurs issus de nombreuses grandes entreprises, notamment Databricks.

Databricks continue de développer et de publier des fonctionnalités dans Apache Spark. Databricks Runtime inclut des optimisations supplémentaires et des fonctionnalités propriétaires qui s’appuient sur Apache Spark et l’étendent, notamment Photon qui est une version optimisée d’Apache Spark réécrite en C++.

Comment Apache Spark fonctionne-t-il sur Azure Databricks ?

Lorsque vous déployez un cluster de calcul ou un entrepôt SQL sur Azure Databricks, Apache Spark est configuré et déployé sur des machines virtuelles. Vous n’avez pas besoin de configurer ni d’initialiser un contexte ou une session Spark, car celles-ci sont gérées pour vous par Azure Databricks.

Puis-je utiliser Azure Databricks sans utiliser Apache Spark ?

Azure Databricks prend en charge diverses charges de travail et comprend des bibliothèques open source dans Databricks Runtime. Databricks SQL utilise Apache Spark sous le capot, mais les utilisateurs finaux utilisent la syntaxe SQL standard pour créer et interroger des objets de base de données.

Databricks Runtime pour le Machine Learning est optimisé pour les charges de travail ML et de nombreux scientifiques des données utilisent des bibliothèques open source principales comme TensorFlow et SciKit Learn quand ils utilisent Azure Databricks. Vous pouvez utiliser des workflows pour planifier des charges de travail arbitraires sur des ressources de calcul déployées et gérées par Azure Databricks.

Pourquoi utiliser Apache Spark sur Azure Databricks ?

La plateforme Databricks fournit un environnement collaboratif sécurisé pour le développement et le déploiement de solutions d’entreprise qui évoluent avec votre activité. Les employés Databricks sont parmi la plupart des utilisateurs et des chargés de maintenance Apache Spark les plus compétents au monde. L’entreprise développe et publie en permanence de nouvelles optimisations pour assurer aux utilisateurs un accès plus rapide à l’environnement pour exécuter Apache Spark.