Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Zwraca najnowsze przesunięcie dostępne, biorąc pod uwagę limit odczytu.
Przesunięcie start może służyć do określenia, ile nowych danych należy odczytać, biorąc pod uwagę limit. W przypadku pierwszej mikrobatchu start wartość zwracana initialOffset()jest z wartości . W przypadku kolejnych mikrobajtów kontynuuje od ostatniego mikrobajtu. Źródło może zwrócić to samo przesunięcie co przesunięcie początkowe, jeśli nie ma danych do przetworzenia.
ReadLimit może być używany przez źródło, aby ograniczyć ilość zwracanych danych. Zaimplementuj getDefaultReadLimit() , aby zapewnić prawidłowe ReadLimit , jeśli źródło może ograniczyć dane na podstawie opcji źródła.
Aparat nadal może wywołać metodę latestOffset()ReadAllAvailable , nawet jeśli źródło generuje inny limit odczytu z getDefaultReadLimit(). Źródło musi zawsze przestrzegać podanego ReadLimit przez silnik.
Dodano w środowisku Databricks Runtime 15.2
Składnia
latestOffset(start: dict, limit: ReadLimit)
Parametry
| Parameter | Typ | Opis |
|---|---|---|
start |
słownik | Przesunięcie początkowe mikrobajtu w celu kontynuowania czytania. |
limit |
ReadLimit | Limit ilości danych zwracanych przez to wywołanie. |
Zwroty
dict
Dykt lub cykliczny dykt, którego klucz i wartość są typami pierwotnymi, w tym liczba całkowita, ciąg i wartość logiczna.
Examples
from pyspark.sql.streaming.datasource import ReadAllAvailable, ReadMaxRows
def latestOffset(self, start, limit):
# Assume the source has 10 new records between start and latest offset
if isinstance(limit, ReadAllAvailable):
return {"index": start["index"] + 10}
else: # e.g., limit is ReadMaxRows(5)
return {"index": start["index"] + min(10, limit.maxRows)}