已閱讀(DataSourceStreamReader)

為給定分割產生資料,並回傳一個元組或列的迭代器。

此方法在每個分割區中被呼叫一次以讀取資料。 實作此方法是串流讀取器所必須的。 你可以在這個方法中初始化任何非序列化資源,以讀取資料來源資料。

新增於 Databricks Runtime 15.2

語法

read(partition: InputPartition)

參數

參數 類型 說明
partition 輸入分割 要讀取的分割區。 它必須是 所 partitions()回傳的分割值之一。

退貨

Iterator[Tuple]Iterator[RecordBatch]

一個由元組或列組成的迭代器。 每個元組或列都會在最終資料框架中轉換成一列。 如果資料來源支援,它也能回傳 PyArrow RecordBatch 物件的迭代器。

Notes

此方法為靜態且無狀態。 請勿存取可變類別成員,或在不同呼叫 read()間保持記憶體狀態。