Referensi untuk API Apache Spark
Azure Databricks dibangun di atas Apache Spark, mesin analitik terpadu untuk big data dan pembelajaran mesin. Untuk informasi selengkapnya, lihat Apache Spark di Azure Databricks.
Apache Spark memiliki API DataFrame untuk beroperasi pada himpunan data besar, yang mencakup lebih dari 100 operator, dalam beberapa bahasa.
- API PySpark untuk pengembang Python. Lihat Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames. Kelas utama meliputi:
- SparkSession - Titik masuk untuk memprogram Spark dengan Dataset dan DataFrame API.
- DataFrame - Kumpulan data terdistribusi yang dikelompokkan ke dalam kolom bernama. Lihat DataFrames dan MLlib berbasis DataFrame.
- API SparkR untuk pengembang R. Kelas utama meliputi:
- SparkSession - SparkSession adalah titik masuk ke SparkR. Lihat Titik Awal: SparkSession.
- SparkDataFrame - Kumpulan data terdistribusi yang dikelompokkan ke dalam kolom bernama. Lihat Himpunan Data dan DataFrame, Membuat DataFrames, dan Membuat SparkDataFrames.
- API Scala untuk pengembang Scala. Kelas utama meliputi:
- SparkSession - Titik masuk untuk memprogram Spark dengan Dataset dan DataFrame API. Lihat Titik Awal: SparkSession.
- Himpunan data - Kumpulan objek khusus domain yang sangat ditik yang dapat diubah secara paralel menggunakan operasi fungsional atau relasional. Masing-masing
Dataset
juga memiliki tampilan yang tidak diketik yang disebut DataFrame, yang merupakanDataset
Baris. Lihat Himpunan Data dan DataFrame, Membuat Himpunan Data, Membuat DataFrame, dan fungsi DataFrame.
- API Java untuk pengembang Java. Kelas utama meliputi:
- SparkSession - Titik masuk untuk memprogram Spark dengan Dataset dan DataFrame API. Lihat Titik Awal: SparkSession.
- Himpunan data - Kumpulan objek khusus domain yang sangat ditik yang dapat diubah secara paralel menggunakan operasi fungsional atau relasional. Masing-masing
Dataset
juga memiliki tampilan yang tidak diketik yang disebut DataFrame, yang merupakanDataset
Baris. Lihat Himpunan Data dan DataFrame, Membuat Himpunan Data, Membuat DataFrame, dan fungsi DataFrame.
Untuk mempelajari cara menggunakan API Apache Spark di Azure Databricks, lihat:
- PySpark di Azure Databricks
- Azure Databricks untuk pengembang R
- Azure Databricks untuk pengembang Scala
- Untuk Java, Anda dapat menjalankan kode Java sebagai pekerjaan JAR.