TabularDataset Osztály
Az Azure Machine Learningben használandó táblázatos adatkészletet jelöli.
A TabularDataset szakaszosan kiértékelt, nem módosítható műveletek sorozatát határozza meg az adatforrásból származó adatok táblázatos ábrázolására való betöltéséhez. A rendszer addig nem tölti be az adatokat a forrásból, amíg a TabularDataset nem kéri az adatok továbbítását.
A TabularDataset a osztályhoz TabularDatasetFactory hasonló from_delimited_files metódusokkal jön létre.
További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A táblázatos adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook.
TabularDataset objektum inicializálása.
Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával TabularDatasetFactory kell létrehozni.
- Öröklődés
-
TabularDataset
Konstruktor
TabularDataset()
Megjegyzések
A TabularDataset a osztály metódusainak TabularDatasetFactory használatával from_*
létrehozható CSV-, TSV-, Parquet-fájlokból vagy SQL-lekérdezésekből. A tabularDataseten albeállítási műveleteket hajthat végre, például a rekordok felosztását, kihagyását és szűrését.
Az albeállítás eredménye mindig egy vagy több új TabularDataset objektum.
A TabularDataset formátumot más formátumokra is konvertálhatja, például pandas DataFrame-ekre. A tényleges adatbetöltés akkor történik, ha a Rendszer felkéri a TabularDatasetet, hogy az adatokat egy másik tárolási mechanizmusba (például Pandas Dataframe-be vagy CSV-fájlba) kézbesítse.
A TabularDataset egy kísérletfuttatás bemeneteként használható. A munkaterületen is regisztrálható egy megadott névvel, és később lekérhető a név alapján.
Metódusok
download |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Töltse le az adathalmaz által definiált fájlstreameket a helyi elérési útra. |
drop_columns |
A megadott oszlopok elvetése az adathalmazból. Ha egy idősoroszlopot elvet, a visszaadott adathalmaz megfelelő képességei is elvesznek. |
filter |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Szűrje az adatokat, és csak a megadott kifejezésnek megfelelő rekordokat hagyja meg. |
get_profile |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Kérje le az adatprofilt az ehhez vagy a munkaterületen található adatkészlethez beküldött legújabb profilfuttatásból. |
get_profile_runs |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Korábbi profilfuttatásokat ad vissza, amelyek ehhez vagy a munkaterületen lévő adatkészlethez kapcsolódnak. |
keep_columns |
Tartsa meg a megadott oszlopokat, és elveti az összes többit az adathalmazból. Ha egy idősoroszlopot elvet, a visszaadott adathalmaz megfelelő képességei is elvesznek. |
mount |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Hozzon létre egy környezetkezelőt az adathalmaz által helyi fájlként definiált fájlstreamek csatlakoztatásához. |
partition_by |
A particionált adatok másolása és kimenete a cél által megadott célhelyre kerül. hozza létre az adatkészletet a kimeneti adatútvonalból partícióformátummal, regisztrálja az adathalmazt, ha a név meg van adva, adja vissza az új adatútvonal adathalmazát partíciókkal
|
random_split |
Az adathalmaz rekordjainak felosztása két részre véletlenszerűen és körülbelül a megadott százalékkal. Az első adatkészlet körülbelül |
skip |
Hagyja ki a rekordokat az adathalmaz tetejéről a megadott szám alapján. |
submit_profile_run |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Küldjön be egy kísérletfuttatást az adatprofil kiszámításához. Az adatprofilok nagyon hasznosak lehetnek a bemeneti adatok megértéséhez, az anomáliák és a hiányzó értékek azonosításához, ha hasznos információkat nyújtanak az adatokról, például az oszloptípusról, a hiányzó értékekről stb. |
take |
Vegyünk egy rekordmintát az adathalmaz tetejéről a megadott szám szerint. |
take_sample |
Vegyen egy véletlenszerű rekordmintát az adathalmazban a megadott valószínűség szerint. |
time_after |
A TabularDataset szűrése időbélyegoszlopokkal egy megadott kezdési időpont után. |
time_before |
A TabularDataset szűrése időbélyeg-oszlopokkal egy megadott befejezési időpont előtt. |
time_between |
A TabularDataset szűrése egy megadott kezdési és befejezési időpont között. |
time_recent |
Szűrje a TabularDataset szűrőt, hogy csak a legutóbbi adatok megadott időtartamát (mennyiségét) tartalmazza. |
to_csv_files |
Alakítsa át az aktuális adatkészletet CSV-fájlokat tartalmazó FileDataset-fájllá. Az eredményül kapott adathalmaz egy vagy több CSV-fájlt tartalmaz, amelyek mindegyike az aktuális adatkészletből származó adatok partíciójának felel meg. Ezek a fájlok mindaddig nem lesznek materializálva, amíg le nem töltik vagy be nem olvassák őket. |
to_dask_dataframe |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Olyan Dask DataFrame-et ad vissza, amely lustán beolvassa az adathalmazban lévő adatokat. |
to_pandas_dataframe |
Töltse be az adathalmaz összes rekordjait egy pandas DataFrame-be. |
to_parquet_files |
Konvertálja az aktuális adatkészletet Parquet-fájlokat tartalmazó FileDataset-fájllá. Az eredményként kapott adathalmaz egy vagy több Parquet-fájlt tartalmaz, amelyek mindegyike az aktuális adatkészletből származó adatok partíciójának felel meg. Ezek a fájlok mindaddig nem lesznek materializálva, amíg le nem töltik vagy be nem olvassák őket. |
to_spark_dataframe |
Töltse be az adathalmaz összes rekordjait egy Spark DataFrame-be. |
with_timestamp_columns |
Időbélyegoszlopok definiálása az adathalmazhoz. |
download
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Töltse le az adathalmaz által definiált fájlstreameket a helyi elérési útra.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Paraméterek
Name | Description |
---|---|
stream_column
Kötelező
|
A letölteni kívánt streamoszlop. |
target_path
Kötelező
|
A helyi könyvtár, amelyre a fájlokat le szeretné tölteni. Ha nincs, az adatok egy ideiglenes könyvtárba lesznek letöltve. |
overwrite
Kötelező
|
Azt jelzi, hogy felülírja-e a meglévő fájlokat. Az alapértelmezett érték a Hamis. A meglévő fájlok felülíródnak, ha a felülírás értéke Igaz; ellenkező esetben kivétel lép fel. |
ignore_not_found
Kötelező
|
Azt jelzi, hogy sikertelen-e a letöltés, ha az adathalmaz által mutatott egyes fájlok nem találhatók. Az alapértelmezett érték az Igaz. A letöltés sikertelen lesz, ha a fájlletöltés bármilyen okból meghiúsul, ha ignore_not_found False (Hamis) értékre van állítva; ellenkező esetben a rendszer naplózza a nem talált hibákat, és a dowload mindaddig sikeres lesz, amíg más hibatípusok nem fordulnak elő. |
Válaszok
Típus | Description |
---|---|
Az egyes letöltött fájlok elérési útjainak tömbje. |
drop_columns
A megadott oszlopok elvetése az adathalmazból.
Ha egy idősoroszlopot elvet, a visszaadott adathalmaz megfelelő képességei is elvesznek.
drop_columns(columns)
Paraméterek
Name | Description |
---|---|
columns
Kötelező
|
Az elvetendő oszlopok neve vagy neveinek listája. |
Válaszok
Típus | Description |
---|---|
Egy új TabularDataset objektumot ad vissza a megadott oszlopok elvetése mellett. |
filter
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Szűrje az adatokat, és csak a megadott kifejezésnek megfelelő rekordokat hagyja meg.
filter(expression)
Paraméterek
Name | Description |
---|---|
expression
Kötelező
|
A kiértékelendő kifejezés. |
Válaszok
Típus | Description |
---|---|
A módosított adatkészlet (nincs regisztrálva). |
Megjegyzések
A kifejezések első lépéseként indexeljük az Adathalmazt egy oszlop nevével. Számos függvényt és operátort támogatnak, és logikai operátorokkal kombinálhatók. Az eredményül kapott kifejezés lazán lesz kiértékelve minden rekordhoz adat lekéréskor, és nem ott, ahol meg van határozva.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Kérje le az adatprofilt az ehhez vagy a munkaterületen található adatkészlethez beküldött legújabb profilfuttatásból.
get_profile(workspace=None)
Paraméterek
Name | Description |
---|---|
workspace
Kötelező
|
A munkaterület, ahol a profilfuttatás el lett küldve. Az adathalmaz munkaterületének alapértelmezett értéke. Kötelező, ha az adatkészlet nincs munkaterülethez társítva. További https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace információt a munkaterületekről talál. |
Válaszok
Típus | Description |
---|---|
A profil eredménye a DatasetProfile típusú legújabb profilfuttatásból származik. |
get_profile_runs
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Korábbi profilfuttatásokat ad vissza, amelyek ehhez vagy a munkaterületen lévő adatkészlethez kapcsolódnak.
get_profile_runs(workspace=None)
Paraméterek
Name | Description |
---|---|
workspace
Kötelező
|
A munkaterület, ahol a profilfuttatás el lett küldve. Az adathalmaz munkaterületének alapértelmezett értéke. Kötelező, ha az adatkészlet nincs munkaterülethez társítva. További https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace információt a munkaterületekről talál. |
Válaszok
Típus | Description |
---|---|
az azureml.core.Run típusú iterátorobjektum. |
keep_columns
Tartsa meg a megadott oszlopokat, és elveti az összes többit az adathalmazból.
Ha egy idősoroszlopot elvet, a visszaadott adathalmaz megfelelő képességei is elvesznek.
keep_columns(columns, validate=False)
Paraméterek
Name | Description |
---|---|
columns
Kötelező
|
A megtartandó oszlopok neve vagy neveinek listája. |
validate
Kötelező
|
Azt jelzi, hogy ellenőrizni szeretné-e, hogy az adatok betölthetők-e a visszaadott adatkészletből. Az alapértelmezett érték a Hamis. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
Válaszok
Típus | Description |
---|---|
Egy új TabularDataset objektumot ad vissza, amely csak a megadott oszlopokat tartalmazza. |
mount
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Hozzon létre egy környezetkezelőt az adathalmaz által helyi fájlként definiált fájlstreamek csatlakoztatásához.
mount(stream_column, mount_point=None)
Paraméterek
Name | Description |
---|---|
stream_column
Kötelező
|
A csatlakoztatni kívánt streamoszlop. |
mount_point
Kötelező
|
A helyi könyvtár, amelybe a fájlokat csatlakoztatni szeretné. Ha nincs, az adatok egy ideiglenes könyvtárba lesznek csatlakoztatva, amelyet a MountContext.mount_point-példány metódusának meghívásával talál meg. |
Válaszok
Típus | Description |
---|---|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
Egy környezetkezelőt ad vissza a csatlakoztatás életciklusának kezeléséhez. |
partition_by
A particionált adatok másolása és kimenete a cél által megadott célhelyre kerül.
hozza létre az adatkészletet a kimeneti adatútvonalból partícióformátummal, regisztrálja az adathalmazt, ha a név meg van adva, adja vissza az új adatútvonal adathalmazát partíciókkal
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Paraméterek
Name | Description |
---|---|
partition_keys
Kötelező
|
Kötelező, partíciókulcsok |
target
Kötelező
|
Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében. |
name
Kötelező
|
Nem kötelező, A regisztrációs név. |
show_progress
Kötelező
|
Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz. |
partition_as_file_dataset
Kötelező
|
Nem kötelező, azt jelzi, hogy egy fájladatkészletet ad-e vissza. Az alapértelmezett érték a False (Hamis). |
Válaszok
Típus | Description |
---|---|
A mentett vagy regisztrált adatkészlet. |
random_split
Az adathalmaz rekordjainak felosztása két részre véletlenszerűen és körülbelül a megadott százalékkal.
Az első adatkészlet körülbelül percentage
az összes rekordot, a második pedig a többi rekordot tartalmazza.
random_split(percentage, seed=None)
Paraméterek
Name | Description |
---|---|
percentage
Kötelező
|
Az adathalmaz felosztásának hozzávetőleges százaléka. Ennek 0,0 és 1,0 közötti számnak kell lennie. |
seed
Kötelező
|
A véletlenszerű generátorhoz nem kötelező vetőmagot használni. |
Válaszok
Típus | Description |
---|---|
A felosztás után a két adathalmazt képviselő új TabularDataset-objektumok rekordját adja vissza. |
skip
Hagyja ki a rekordokat az adathalmaz tetejéről a megadott szám alapján.
skip(count)
Paraméterek
Name | Description |
---|---|
count
Kötelező
|
A kihagyandó rekordok száma. |
Válaszok
Típus | Description |
---|---|
Egy új TabularDataset objektumot ad vissza, amely egy kihagyott rekordokat tartalmazó adathalmazt jelöl. |
submit_profile_run
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Küldjön be egy kísérletfuttatást az adatprofil kiszámításához.
Az adatprofilok nagyon hasznosak lehetnek a bemeneti adatok megértéséhez, az anomáliák és a hiányzó értékek azonosításához, ha hasznos információkat nyújtanak az adatokról, például az oszloptípusról, a hiányzó értékekről stb.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Paraméterek
Name | Description |
---|---|
compute_target
Kötelező
|
A profilszámítási kísérlet futtatására szolgáló számítási cél. A helyi számítás használatához adja meg a "local" értéket. További https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget információ a számítási célokról. |
experiment
Kötelező
|
A kísérletobjektum. További https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment információ a kísérletekről. |
cache_datastore_name
Kötelező
|
a profilgyorsítótár tárolására szolgáló adattár neve, ha nincs, akkor az alapértelmezett adattár lesz használva |
Válaszok
Típus | Description |
---|---|
DatasetProfileRun osztály típusú objektum. |
take
Vegyünk egy rekordmintát az adathalmaz tetejéről a megadott szám szerint.
take(count)
Paraméterek
Name | Description |
---|---|
count
Kötelező
|
A rekordszám. |
Válaszok
Típus | Description |
---|---|
A mintaadatkészletet képviselő új TabularDataset objektumot ad vissza. |
take_sample
Vegyen egy véletlenszerű rekordmintát az adathalmazban a megadott valószínűség szerint.
take_sample(probability, seed=None)
Paraméterek
Name | Description |
---|---|
probability
Kötelező
|
Annak a valószínűsége, hogy egy rekord szerepel a mintában. |
seed
Kötelező
|
A véletlenszerű generátorhoz nem kötelező vetőmagot használni. |
Válaszok
Típus | Description |
---|---|
A mintaadatkészletet képviselő új TabularDataset objektumot ad vissza. |
time_after
A TabularDataset szűrése időbélyegoszlopokkal egy megadott kezdési időpont után.
time_after(start_time, include_boundary=True, validate=True)
Paraméterek
Name | Description |
---|---|
start_time
Kötelező
|
Az adatok szűrésének alsó határa. |
include_boundary
Kötelező
|
Adja meg, hogy a határidőhöz ( |
validate
Kötelező
|
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
Válaszok
Típus | Description |
---|---|
TabularDataset az új szűrt adatkészlettel. |
time_before
A TabularDataset szűrése időbélyeg-oszlopokkal egy megadott befejezési időpont előtt.
time_before(end_time, include_boundary=True, validate=True)
Paraméterek
Name | Description |
---|---|
end_time
Kötelező
|
Adatszűrés felső határa. |
include_boundary
Kötelező
|
Adja meg, hogy a határidőhöz ( |
validate
Kötelező
|
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
Válaszok
Típus | Description |
---|---|
TabularDataset az új szűrt adatkészlettel. |
time_between
A TabularDataset szűrése egy megadott kezdési és befejezési időpont között.
time_between(start_time, end_time, include_boundary=True, validate=True)
Paraméterek
Name | Description |
---|---|
start_time
Kötelező
|
Az adatok szűrésének alsó határa. |
end_time
Kötelező
|
Az adatok szűrésének felső határa. |
include_boundary
Kötelező
|
Adja meg, hogy a határidőhöz ( |
validate
Kötelező
|
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
Válaszok
Típus | Description |
---|---|
TabularDataset az új szűrt adatkészlettel. |
time_recent
Szűrje a TabularDataset szűrőt, hogy csak a legutóbbi adatok megadott időtartamát (mennyiségét) tartalmazza.
time_recent(time_delta, include_boundary=True, validate=True)
Paraméterek
Name | Description |
---|---|
time_delta
Kötelező
|
A lekérendő legutóbbi adatok időtartama (összege). |
include_boundary
Kötelező
|
Adja meg, hogy a határidőhöz ( |
validate
Kötelező
|
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
Válaszok
Típus | Description |
---|---|
TabularDataset az új szűrt adatkészlettel. |
to_csv_files
Alakítsa át az aktuális adatkészletet CSV-fájlokat tartalmazó FileDataset-fájllá.
Az eredményül kapott adathalmaz egy vagy több CSV-fájlt tartalmaz, amelyek mindegyike az aktuális adatkészletből származó adatok partíciójának felel meg. Ezek a fájlok mindaddig nem lesznek materializálva, amíg le nem töltik vagy be nem olvassák őket.
to_csv_files(separator=',')
Paraméterek
Name | Description |
---|---|
separator
Kötelező
|
Az eredményül kapott fájl értékeinek elválasztására használható elválasztó. |
Válaszok
Típus | Description |
---|---|
Egy új FileDataset objektumot ad vissza, amelyben csv-fájlok találhatók, amelyek az adathalmazban lévő adatokat tartalmazzák. |
to_dask_dataframe
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Olyan Dask DataFrame-et ad vissza, amely lustán beolvassa az adathalmazban lévő adatokat.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Paraméterek
Name | Description |
---|---|
sample_size
Kötelező
|
A séma és a típus meghatározásához beolvasandó rekordok száma. |
dtypes
Kötelező
|
Választható diktálás, amely megadja a várt oszlopokat és azok dtype-jait. sample_size a rendszer figyelmen kívül hagyja, ha ez meg van adva. |
on_error
Kötelező
|
Hogyan kezelhetők az adathalmazban található hibaértékek, például az értékek elemzése során hiba által generált értékek. Az érvényes értékek "null" értékűek, amelyek a null értékre cserélik őket; és a "fail" (sikertelen) lehetőséget, amely kivételt eredményez. |
out_of_range_datetime
Kötelező
|
A Pandas által támogatott tartományon kívüli dátum-idő értékek kezelése. Az érvényes értékek "null" értékűek, amelyek a null értékre cserélik őket; és a "fail" (sikertelen) lehetőséget, amely kivételt eredményez. |
Válaszok
Típus | Description |
---|---|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
Töltse be az adathalmaz összes rekordjait egy pandas DataFrame-be.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Paraméterek
Name | Description |
---|---|
on_error
Kötelező
|
Hogyan kezelhetők az adathalmazban található hibaértékek, például az értékek elemzése során hiba által generált értékek. Az érvényes értékek "null" értékűek, amelyek a null értékre cserélik őket; és a "fail" (sikertelen) lehetőséget, amely kivételt eredményez. |
out_of_range_datetime
Kötelező
|
A Pandas által támogatott tartományon kívüli dátum-idő értékek kezelése. Az érvényes értékek "null" értékűek, amelyek a null értékre cserélik őket; és a "fail" (sikertelen) lehetőséget, amely kivételt eredményez. |
Válaszok
Típus | Description |
---|---|
Pandas DataFrame-et ad vissza. |
to_parquet_files
Konvertálja az aktuális adatkészletet Parquet-fájlokat tartalmazó FileDataset-fájllá.
Az eredményként kapott adathalmaz egy vagy több Parquet-fájlt tartalmaz, amelyek mindegyike az aktuális adatkészletből származó adatok partíciójának felel meg. Ezek a fájlok mindaddig nem lesznek materializálva, amíg le nem töltik vagy be nem olvassák őket.
to_parquet_files()
Válaszok
Típus | Description |
---|---|
Egy új FileDataset objektumot ad vissza, amely parquet-fájlokat tartalmaz, amelyek az adatkészlet adatait tartalmazzák. |
to_spark_dataframe
Töltse be az adathalmaz összes rekordjait egy Spark DataFrame-be.
to_spark_dataframe()
Válaszok
Típus | Description |
---|---|
Spark DataFrame-et ad vissza. |
with_timestamp_columns
Időbélyegoszlopok definiálása az adathalmazhoz.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Paraméterek
Name | Description |
---|---|
timestamp
Kötelező
|
Az oszlop neve időbélyegként (más néven fine_grain_timestamp) (nem kötelező). Az alapértelmezett érték a Nincs(clear). |
partition_timestamp
Kötelező
|
A partition_timestamp oszlop neve (amelyet durva szemcsés időbélyegnek neveznek) (nem kötelező). Az alapértelmezett érték a Nincs(clear). |
validate
Kötelező
|
Azt jelzi, hogy ellenőrizni szeretné-e, hogy a megadott oszlopok léteznek-e az adathalmazban. Az alapértelmezett érték Hamis. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
Válaszok
Típus | Description |
---|---|
Egy új TabularDataset értéket ad vissza, amely definiált időbélyeg-oszlopokat tartalmaz. |
Megjegyzések
A metódus időbélyegként használandó oszlopokat határoz meg. Az adathalmaz időbélyegző oszlopai lehetővé teszik az adatok idősoros adatokként való kezelését és további képességek engedélyezését. Ha egy adathalmaz rendelkezik és partition_timestamp (used to be referred as coarse grain timestamp)
meg van timestamp (used to be referred as fine_grain_timestamp)
adva, a két oszlopnak ugyanazt az ütemtervet kell jelölnie.