Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Azure Databricks dibangun di atas Apache Spark, mesin analitik terpadu untuk big data dan pembelajaran mesin. Untuk informasi selengkapnya, lihat Gambaran umum Apache Spark.
Apache Spark memiliki API DataFrame untuk beroperasi pada himpunan data besar, yang mencakup lebih dari 100 operator, dalam beberapa bahasa.
-
API PySpark untuk pengembang Python. Lihat Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames. Kelas utama meliputi:
- SparkSession - Titik masuk untuk memprogram Spark dengan Dataset dan DataFrame API.
- DataFrame - Kumpulan data terdistribusi yang dikelompokkan ke dalam kolom bernama. Lihat DataFrames dan MLlib berbasis DataFrame.
- (Tidak digunakan lagi) API SparkR untuk pengembang R. Kelas utama meliputi:
- SparkSession - SparkSession adalah titik masuk ke SparkR. Lihat Titik Awal: SparkSession.
- SparkDataFrame - Kumpulan data terdistribusi yang dikelompokkan ke dalam kolom bernama. Lihat Himpunan Data dan DataFrame, Membuat DataFrames, dan Membuat SparkDataFrames.
-
API Scala untuk pengembang Scala. Kelas utama meliputi:
- SparkSession - Titik masuk untuk memprogram Spark dengan Dataset dan DataFrame API. Lihat Titik Awal: SparkSession.
-
Himpunan data - Kumpulan objek khusus domain yang sangat ditik yang dapat diubah secara paralel menggunakan operasi fungsional atau relasional. Masing-masing
Datasetjuga memiliki tampilan yang tidak diketik yang disebut DataFrame, yang merupakanDatasetBaris. Lihat Himpunan Data dan DataFrame, Membuat Himpunan Data, Membuat DataFrame, dan fungsi DataFrame.
-
API Java untuk pengembang Java. Kelas utama meliputi:
- SparkSession - Titik masuk untuk memprogram Spark dengan Dataset dan DataFrame API. Lihat Titik Awal: SparkSession.
-
Himpunan data - Kumpulan objek khusus domain yang sangat ditik yang dapat diubah secara paralel menggunakan operasi fungsional atau relasional. Masing-masing
Datasetjuga memiliki tampilan yang tidak diketik yang disebut DataFrame, yang merupakanDatasetBaris. Lihat Himpunan Data dan DataFrame, Membuat Himpunan Data, Membuat DataFrame, dan fungsi DataFrame.
Untuk mempelajari cara menggunakan API Apache Spark di Azure Databricks, lihat:
- PySpark di Azure Databricks
- Azure Databricks untuk pengembang R
- Azure Databricks untuk pengembang Scala
- Untuk Java, Anda dapat menjalankan kode Java sebagai pekerjaan JAR.