Kelas DataFrameReader

Antarmuka yang digunakan untuk memuat DataFrame dari sistem penyimpanan eksternal (misalnya sistem file, penyimpanan nilai kunci, dll).

Mendukung Spark Connect

Sintaksis

Gunakan SparkSession.read untuk mengakses antarmuka ini.

Metode

Metode	Deskripsi
`format(source)`	Menentukan format sumber data input.
`schema(schema)`	Menentukan skema input.
`option(key, value)`	Menambahkan opsi input untuk sumber data yang mendasar.
`options(**options)`	Menambahkan opsi input untuk sumber data yang mendasar.
`load(path, format, schema, **options)`	Memuat data dari sumber data dan mengembalikannya sebagai DataFrame.
`json(path, schema, ...)`	Memuat file JSON dan mengembalikan hasilnya sebagai DataFrame.
`table(tableName)`	Mengembalikan tabel yang ditentukan sebagai DataFrame.
`parquet(paths, *options)`	Memuat file Parquet, mengembalikan hasilnya sebagai DataFrame.
`text(paths, wholetext, lineSep, ...)`	Memuat file teks dan mengembalikan DataFrame yang skemanya dimulai dengan kolom string bernama "value".
`csv(path, schema, sep, encoding, ...)`	Memuat file CSV dan mengembalikan hasilnya sebagai DataFrame.
`xml(path, rowTag, schema, ...)`	Memuat file XML dan mengembalikan hasilnya sebagai DataFrame.
`excel(path, dataAddress, headerRows, ...)`	Memuat file Excel, mengembalikan hasilnya sebagai DataFrame.
`orc(path, mergeSchema, pathGlobFilter, ...)`	Memuat file ORC, mengembalikan hasilnya sebagai DataFrame.
`jdbc(url, table, column, lowerBound, upperBound, numPartitions, predicates, properties)`	Buat DataFrame yang mewakili tabel database bernama tabel yang dapat diakses melalui url URL JDBC dan properti koneksi.

Examples

Membaca dari sumber data yang berbeda

# Access DataFrameReader through SparkSession
spark.read

# Read JSON file
df = spark.read.json("path/to/file.json")

# Read CSV file with options
df = spark.read.option("header", "true").csv("path/to/file.csv")

# Read Parquet file
df = spark.read.parquet("path/to/file.parquet")

# Read from a table
df = spark.read.table("table_name")

Menggunakan format dan pemuatan

# Specify format explicitly
df = spark.read.format("json").load("path/to/file.json")

# With options
df = spark.read.format("csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .load("path/to/file.csv")

Menentukan skema

from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# Define schema
schema = StructType([
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True)
])

# Read CSV with schema
df = spark.read.schema(schema).csv("path/to/file.csv")

# Read CSV with DDL-formatted string schema
df = spark.read.schema("name STRING, age INT").csv("path/to/file.csv")

Membaca dari JDBC

# Read from database table
df = spark.read.jdbc(
    url="jdbc:postgresql://localhost:5432/mydb",
    table="users",
    properties={"user": "myuser", "password": "mypassword"}
)

# Read with partitioning for parallel loading
df = spark.read.jdbc(
    url="jdbc:postgresql://localhost:5432/mydb",
    table="users",
    column="id",
    lowerBound=1,
    upperBound=1000,
    numPartitions=10,
    properties={"user": "myuser", "password": "mypassword"}
)

Penautan metode

# Chain multiple configuration methods
df = spark.read \
    .format("csv") \
    .option("header", "true") \
    .option("inferSchema", "true") \
    .option("delimiter", ",") \
    .schema("name STRING, age INT") \
    .load("path/to/file.csv")

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-04-17