Bagikan melalui


Gambaran umum Apache Spark

Apache Spark adalah teknologi yang mendukung kluster komputasi dan gudang SQL di Azure Databricks.

Halaman ini menyediakan gambaran umum dokumentasi di bagian ini.

Get started

Mulai bekerja dengan Apache Spark di Databricks.

Topik Description
Apache Spark di Azure Databricks Dapatkan jawaban atas tanya jawab umum tentang Apache Spark di Azure Databricks.
Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames Ikuti panduan langkah demi langkah untuk bekerja dengan Spark DataFrames di Python, R, atau Scala untuk pemuatan dan transformasi data.
Dasar-dasar PySpark Pelajari dasar-dasar penggunaan PySpark dengan menelusuri contoh sederhana.

Sumber daya tambahan

Jelajahi kemampuan dan dokumentasi Spark lainnya.

Topik Description
Membandingkan Spark Connect dengan Spark Classic Pelajari tentang perbedaan utama antara Spark Connect dan Spark Classic dalam perilaku eksekusi dan analisis untuk menghindari masalah perilaku dan performa yang tidak terduga saat memigrasikan kode.
Mengatur properti konfigurasi Spark di Azure Databricks Atur properti konfigurasi Spark untuk menyesuaikan pengaturan di lingkungan komputasi Anda dan mengoptimalkan performa.
Streaming Terstruktur Baca gambaran umum Streaming Terstruktur, mesin pemrosesan mendekati real-time.
Mendiagnosis masalah biaya dan performa menggunakan antarmuka pengguna Spark Pelajari cara menggunakan Spark UI untuk penyetelan performa, penelusuran kesalahan, dan pengoptimalan biaya pekerjaan Spark.
Menggunakan Apache Spark MLlib di Azure Databricks Pembelajaran mesin terdistribusi menggunakan Spark MLlib dan integrasi dengan kerangka kerja ML populer.

API Spark

Bekerja dengan Spark menggunakan bahasa pemrograman pilihan Anda.

Topik Description
Referensi untuk API Apache Spark Gambaran umum referensi API untuk Apache Spark, termasuk tautan ke referensi untuk operasi Spark SQL, DataFrames, dan RDD di seluruh bahasa yang didukung.
PySpark Gunakan Python dengan Spark termasuk dasar-dasar PySpark, sumber data kustom, dan pengoptimalan khusus Python.
API Pandas di Spark Manfaatkan sintaks panda yang akrab dengan skalabilitas Spark untuk pemrosesan data terdistribusi.
R untuk Spark Bekerja dengan R dan Spark menggunakan SparkR dan sparklyr untuk komputasi statistik dan analisis data.
Scala untuk Spark Bangun aplikasi Spark berkinerja tinggi menggunakan Scala dengan API Spark asli dan keamanan jenis.