Gambaran umum Apache Spark

Apache Spark adalah teknologi yang mendukung kluster komputasi dan gudang SQL di Azure Databricks.

Halaman ini menyediakan gambaran umum dokumentasi di bagian ini.

Get started

Mulai bekerja dengan Apache Spark di Databricks.

Topik	Description
Apache Spark di Azure Databricks	Dapatkan jawaban atas tanya jawab umum tentang Apache Spark di Azure Databricks.
Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames	Ikuti panduan langkah demi langkah untuk bekerja dengan Spark DataFrames di Python, R, atau Scala untuk pemuatan dan transformasi data.
Dasar-dasar PySpark	Pelajari dasar-dasar penggunaan PySpark dengan menelusuri contoh sederhana.

Jelajahi kemampuan dan dokumentasi Spark lainnya.

Topik	Description
Membandingkan Spark Connect dengan Spark Classic	Pelajari tentang perbedaan utama antara Spark Connect dan Spark Classic dalam perilaku eksekusi dan analisis untuk menghindari masalah perilaku dan performa yang tidak terduga saat memigrasikan kode.
Mengatur properti konfigurasi Spark di Azure Databricks	Atur properti konfigurasi Spark untuk menyesuaikan pengaturan di lingkungan komputasi Anda dan mengoptimalkan performa.
Streaming Terstruktur	Baca gambaran umum Streaming Terstruktur, mesin pemrosesan mendekati real-time.
Mendiagnosis masalah biaya dan performa menggunakan antarmuka pengguna Spark	Pelajari cara menggunakan Spark UI untuk penyetelan performa, penelusuran kesalahan, dan pengoptimalan biaya pekerjaan Spark.
Menggunakan Apache Spark MLlib di Azure Databricks	Pembelajaran mesin terdistribusi menggunakan Spark MLlib dan integrasi dengan kerangka kerja ML populer.

Bekerja dengan Spark menggunakan bahasa pemrograman pilihan Anda.

Topik	Description
Referensi untuk API Apache Spark	Gambaran umum referensi API untuk Apache Spark, termasuk tautan ke referensi untuk operasi Spark SQL, DataFrames, dan RDD di seluruh bahasa yang didukung.
PySpark	Gunakan Python dengan Spark termasuk dasar-dasar PySpark, sumber data kustom, dan pengoptimalan khusus Python.
API Pandas di Spark	Manfaatkan sintaks panda yang akrab dengan skalabilitas Spark untuk pemrosesan data terdistribusi.
R untuk Spark	Bekerja dengan R dan Spark menggunakan SparkR dan sparklyr untuk komputasi statistik dan analisis data.
Scala untuk Spark	Bangun aplikasi Spark berkinerja tinggi menggunakan Scala dengan API Spark asli dan keamanan jenis.

Apakah halaman ini membantu?