Vue d’ensemble d’Apache Spark

Apache Spark est la technologie qui alimente les clusters de calcul et les entrepôts SQL dans Azure Databricks.

Cette page fournit une vue d’ensemble de la documentation de cette section.

Get started

Commencez à utiliser Apache Spark sur Databricks.

Sujet	Descriptif
Apache Spark sur Azure Databricks	Obtenez des réponses aux questions fréquemment posées sur Apache Spark sur Azure Databricks.
Tutoriel : charger et transformer des données en utilisant DataFrames Apache Spark	Suivez un guide pas à pas pour utiliser des DataFrames Spark en Python, R ou Scala pour le chargement et la transformation des données.
Principes de base de PySpark	Découvrez les principes de base de l’utilisation de PySpark en parcourant des exemples simples.

Explorez d’autres fonctionnalités et documentation Spark.

Sujet	Descriptif
Comparer Spark Connect à Spark Classic	Découvrez les principales différences entre Spark Connect et Spark Classic dans le comportement d’exécution et d’analyse pour éviter les problèmes inattendus de comportement et de performances lors de la migration du code.
Définir les propriétés de configuration Spark sur Azure Databricks	Définissez les propriétés de configuration Spark pour personnaliser les paramètres dans votre environnement de calcul et optimiser les performances.
Diffusion en continu structurée	Lisez une vue d’ensemble de Structured Streaming, un moteur de traitement en temps quasi réel.
Diagnostiquer des problèmes de coût et de performances à l’aide de l’interface utilisateur Spark	Apprenez à utiliser l’interface utilisateur Spark pour l’optimisation des performances, le débogage et l’optimisation des coûts des travaux Spark.
Utiliser Apache Spark MLlib sur Azure Databricks	Machine Learning distribué à l’aide de Spark MLlib et de l’intégration à des frameworks ML populaires.

Utilisez Spark à l’aide de votre langage de programmation préféré.

Sujet	Descriptif
Informations de référence sur les API Apache Spark	Vue d’ensemble de la référence d’API pour Apache Spark, y compris des liens vers des références pour les opérations Spark SQL, DataFrames et RDD dans les langages pris en charge.
PySpark	Utilisez Python avec Spark, notamment les concepts de base de PySpark, les sources de données personnalisées et les optimisations spécifiques à Python.
API Pandas sur Spark	Tirez parti de la syntaxe pandas familière avec l’extensibilité de Spark pour le traitement des données distribuées.
R pour Spark	Utilisez R et Spark à l’aide de SparkR et sparklyr pour l’informatique statistique et l’analyse des données.
Scala pour Spark	Créez des applications Spark hautes performances à l’aide de Scala avec des API Spark natives et une sécurité de type.

Cette page a-t-elle été utile ?