스키마(DataStreamReader)

입력 스키마를 지정합니다. 일부 데이터 원본(예: JSON)은 데이터에서 입력 스키마를 자동으로 유추할 수 있습니다. 여기에 스키마를 지정하면 데이터 원본이 스키마 유추를 건너뛰고 데이터 로드 속도를 높일 수 있습니다.

문법

schema(schema)

매개 변수

매개 변수	유형	설명
`schema`	StructType 또는 str	StructType 개체 또는 DDL 형식 문자열(예: `col0 INT, col1 DOUBLE`)입니다.

Returns

DataStreamReader

예제

from pyspark.sql.types import StructField, StructType, StringType
spark.readStream.schema(StructType([StructField("data", StringType(), True)]))
# <...streaming.readwriter.DataStreamReader object ...>
spark.readStream.schema("col0 INT, col1 DOUBLE")
# <...streaming.readwriter.DataStreamReader object ...>

CSV 파일에 대해 다른 스키마를 지정합니다.

import tempfile
with tempfile.TemporaryDirectory(prefix="schema") as d:
    spark.readStream.schema("col0 INT, col1 STRING").format("csv").load(d).printSchema()
    # root
    #  |-- col0: integer (nullable = true)
    #  |-- col1: string (nullable = true)

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-19

스키마(DataStreamReader)

문법

매개 변수

Returns

예제

피드백

추가 리소스