Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Antarmuka yang digunakan untuk memuat DataFrame dari sistem penyimpanan eksternal (misalnya sistem file, penyimpanan nilai kunci, dll).
Mendukung Spark Connect
Sintaksis
Gunakan SparkSession.read untuk mengakses antarmuka ini.
Metode
| Metode | Deskripsi |
|---|---|
format(source) |
Menentukan format sumber data input. |
schema(schema) |
Menentukan skema input. |
option(key, value) |
Menambahkan opsi input untuk sumber data yang mendasar. |
options(**options) |
Menambahkan opsi input untuk sumber data yang mendasar. |
load(path, format, schema, **options) |
Memuat data dari sumber data dan mengembalikannya sebagai DataFrame. |
json(path, schema, ...) |
Memuat file JSON dan mengembalikan hasilnya sebagai DataFrame. |
table(tableName) |
Mengembalikan tabel yang ditentukan sebagai DataFrame. |
parquet(*paths, **options) |
Memuat file Parquet, mengembalikan hasilnya sebagai DataFrame. |
text(paths, wholetext, lineSep, ...) |
Memuat file teks dan mengembalikan DataFrame yang skemanya dimulai dengan kolom string bernama "value". |
csv(path, schema, sep, encoding, ...) |
Memuat file CSV dan mengembalikan hasilnya sebagai DataFrame. |
xml(path, rowTag, schema, ...) |
Memuat file XML dan mengembalikan hasilnya sebagai DataFrame. |
excel(path, dataAddress, headerRows, ...) |
Memuat file Excel, mengembalikan hasilnya sebagai DataFrame. |
orc(path, mergeSchema, pathGlobFilter, ...) |
Memuat file ORC, mengembalikan hasilnya sebagai DataFrame. |
jdbc(url, table, column, lowerBound, upperBound, numPartitions, predicates, properties) |
Buat DataFrame yang mewakili tabel database bernama tabel yang dapat diakses melalui url URL JDBC dan properti koneksi. |
Examples
Membaca dari sumber data yang berbeda
# Access DataFrameReader through SparkSession
spark.read
# Read JSON file
df = spark.read.json("path/to/file.json")
# Read CSV file with options
df = spark.read.option("header", "true").csv("path/to/file.csv")
# Read Parquet file
df = spark.read.parquet("path/to/file.parquet")
# Read from a table
df = spark.read.table("table_name")
Menggunakan format dan pemuatan
# Specify format explicitly
df = spark.read.format("json").load("path/to/file.json")
# With options
df = spark.read.format("csv") \
.option("header", "true") \
.option("inferSchema", "true") \
.load("path/to/file.csv")
Menentukan skema
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
# Define schema
schema = StructType([
StructField("name", StringType(), True),
StructField("age", IntegerType(), True)
])
# Read CSV with schema
df = spark.read.schema(schema).csv("path/to/file.csv")
# Read CSV with DDL-formatted string schema
df = spark.read.schema("name STRING, age INT").csv("path/to/file.csv")
Membaca dari JDBC
# Read from database table
df = spark.read.jdbc(
url="jdbc:postgresql://localhost:5432/mydb",
table="users",
properties={"user": "myuser", "password": "mypassword"}
)
# Read with partitioning for parallel loading
df = spark.read.jdbc(
url="jdbc:postgresql://localhost:5432/mydb",
table="users",
column="id",
lowerBound=1,
upperBound=1000,
numPartitions=10,
properties={"user": "myuser", "password": "mypassword"}
)
Penautan metode
# Chain multiple configuration methods
df = spark.read \
.format("csv") \
.option("header", "true") \
.option("inferSchema", "true") \
.option("delimiter", ",") \
.schema("name STRING, age INT") \
.load("path/to/file.csv")