Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Apache Spark adalah teknologi yang mendukung kluster komputasi dan gudang SQL di Azure Databricks.
Halaman ini menyediakan gambaran umum dokumentasi di bagian ini.
Get started
Mulai bekerja dengan Apache Spark di Databricks.
| Topik | Description |
|---|---|
| Apache Spark di Azure Databricks | Dapatkan jawaban atas tanya jawab umum tentang Apache Spark di Azure Databricks. |
| Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames | Ikuti panduan langkah demi langkah untuk bekerja dengan Spark DataFrames di Python, R, atau Scala untuk pemuatan dan transformasi data. |
| Dasar-dasar PySpark | Pelajari dasar-dasar penggunaan PySpark dengan menelusuri contoh sederhana. |
Sumber daya tambahan
Jelajahi kemampuan dan dokumentasi Spark lainnya.
| Topik | Description |
|---|---|
| Membandingkan Spark Connect dengan Spark Classic | Pelajari tentang perbedaan utama antara Spark Connect dan Spark Classic dalam perilaku eksekusi dan analisis untuk menghindari masalah perilaku dan performa yang tidak terduga saat memigrasikan kode. |
| Mengatur properti konfigurasi Spark di Azure Databricks | Atur properti konfigurasi Spark untuk menyesuaikan pengaturan di lingkungan komputasi Anda dan mengoptimalkan performa. |
| Streaming Terstruktur | Baca gambaran umum Streaming Terstruktur, mesin pemrosesan mendekati real-time. |
| Mendiagnosis masalah biaya dan performa menggunakan antarmuka pengguna Spark | Pelajari cara menggunakan Spark UI untuk penyetelan performa, penelusuran kesalahan, dan pengoptimalan biaya pekerjaan Spark. |
| Menggunakan Apache Spark MLlib di Azure Databricks | Pembelajaran mesin terdistribusi menggunakan Spark MLlib dan integrasi dengan kerangka kerja ML populer. |
API Spark
Bekerja dengan Spark menggunakan bahasa pemrograman pilihan Anda.
| Topik | Description |
|---|---|
| Referensi untuk API Apache Spark | Gambaran umum referensi API untuk Apache Spark, termasuk tautan ke referensi untuk operasi Spark SQL, DataFrames, dan RDD di seluruh bahasa yang didukung. |
| PySpark | Gunakan Python dengan Spark termasuk dasar-dasar PySpark, sumber data kustom, dan pengoptimalan khusus Python. |
| API Pandas di Spark | Manfaatkan sintaks panda yang akrab dengan skalabilitas Spark untuk pemrosesan data terdistribusi. |
| R untuk Spark | Bekerja dengan R dan Spark menggunakan SparkR dan sparklyr untuk komputasi statistik dan analisis data. |
| Scala untuk Spark | Bangun aplikasi Spark berkinerja tinggi menggunakan Scala dengan API Spark asli dan keamanan jenis. |