回傳一個新的 DataFrame,包含此 DataFrame 與另一個 DataFrame 中列的聯集。
語法
union(other: "DataFrame")
參數
| 參數 | 類型 | 說明 |
|---|---|---|
other |
資料框架 | 另一個需要合併的 DataFrame。 |
退貨
DataFrame:一個包含合併後列及對應欄位的新資料框架。
Notes
此方法執行 SQL 風格的集合合併,將兩個 DataFrame 物件的列合併,且不會自動刪除元素。
使用此 distinct() 方法來執行行的去重。
此方法依位置(而非名稱)解析欄位,遵循 SQL 的標準行為。
Examples
df1 = spark.createDataFrame([(1, 'A'), (2, 'B')], ['id', 'value'])
df2 = spark.createDataFrame([(3, 'C'), (4, 'D')], ['id', 'value'])
df3 = df1.union(df2)
df3.show()
# +---+-----+
# | id|value|
# +---+-----+
# | 1| A|
# | 2| B|
# | 3| C|
# | 4| D|
# +---+-----+
df1 = spark.createDataFrame([(1, 'A'), (2, 'B'), (3, 'C')], ['id', 'value'])
df2 = spark.createDataFrame([(3, 'C'), (4, 'D')], ['id', 'value'])
df3 = df1.union(df2).distinct().sort("id")
df3.show()
# +---+-----+
# | id|value|
# +---+-----+
# | 1| A|
# | 2| B|
# | 3| C|
# | 4| D|
# +---+-----+