TabularDataset Třída
Představuje tabulkovou datovou sadu, která se má použít ve službě Azure Machine Learning.
TabularDataset definuje řadu líně vyhodnocených, neměnných operací pro načtení dat ze zdroje dat do tabulkové reprezentace. Data se nenačtou ze zdroje, dokud se nepožádá o doručení dat TabularDataset.
TabularDataset se vytvoří pomocí metod, jako from_delimited_files je třída TabularDatasetFactory .
Další informace najdete v článku Přidání & registračních datových sad. Pokud chcete začít pracovat s tabulkovou datovou sadou, přečtěte si téma https://aka.ms/tabulardataset-samplenotebook.
Inicializuje objekt TabularDataset.
Tento konstruktor by neměl být vyvolán přímo. Datová sada se má vytvořit pomocí TabularDatasetFactory třídy.
- Dědičnost
-
TabularDataset
Konstruktor
TabularDataset()
Poznámky
TabularDataset lze vytvořit ze souborů CSV, TSV, Parquet souborů nebo dotazu SQL pomocí from_*
metod TabularDatasetFactory třídy. Se sadou TabularDataset můžete provádět operace podnastavení, jako je rozdělení, přeskočení a filtrování záznamů.
Výsledkem podnastavení je vždy jeden nebo více nových objektů TabularDataset.
Tabulkovou datovou sadu můžete také převést do jiných formátů, jako je datový rámec pandas. Ke skutečnému načtení dat dochází, když je objekt TabularDataset požádán o doručení dat do jiného mechanismu úložiště (např. datového rámce Pandas nebo souboru CSV).
TabularDataset lze použít jako vstup spuštění experimentu. Můžete ho také zaregistrovat do pracovního prostoru se zadaným názvem a později ho načíst.
Metody
download |
Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Stáhněte datové proudy souborů definované datovou sadou do místní cesty. |
drop_columns |
Vypusťte zadané sloupce z datové sady. Pokud je sloupec timeseries vyřazen, odpovídající funkce se zahodí i pro vrácenou datovou sadu. |
filter |
Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Vyfiltrujte data a ponechte jenom záznamy, které odpovídají zadanému výrazu. |
get_profile |
Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Získejte profil dat z nejnovějšího spuštění profilu odeslaného pro tuto nebo stejnou datovou sadu v pracovním prostoru. |
get_profile_runs |
Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Vrátit předchozí spuštění profilu přidružená k této nebo stejné datové sadě v pracovním prostoru. |
keep_columns |
Ponechte zadané sloupce a vyhodí všechny ostatní z datové sady. Pokud je sloupec timeseries vyřazen, odpovídající funkce se zahodí i pro vrácenou datovou sadu. |
mount |
Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Vytvořte kontextový správce pro připojení datových proudů souborů definovaných datovou sadou jako místní soubory. |
partition_by |
Dělená data se zkopírují a vydají do cíle určeného cílem. vytvoření datové sady z výstupní cesty k datům ve formátu oddílu, registrace datové sady, pokud je zadaný název, vrácení datové sady pro novou cestu k datům s oddíly
|
random_split |
Rozdělte záznamy v datové sadě na dvě části náhodně a přibližně podle zadaného procenta. První datová sada obsahuje přibližně |
skip |
Přeskočí záznamy z horní části datové sady podle zadaného počtu. |
submit_profile_run |
Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Odešlete spuštění experimentování pro výpočet profilu dat. Profil dat může být velmi užitečný pro pochopení vstupních dat, identifikaci anomálií a chybějících hodnot poskytnutím užitečných informací o datech, jako je typ sloupce, chybějící hodnoty atd. |
take |
Vezměte vzorek záznamů z horní části datové sady podle zadaného počtu. |
take_sample |
Vezměte náhodný vzorek záznamů v datové sadě přibližně podle zadané pravděpodobnosti. |
time_after |
Vyfiltrujte tabulkovou datovou sadu se sloupci časového razítka po zadaném čase zahájení. |
time_before |
Filtrování tabulkových dat se sloupci s časovým razítkem před zadaným koncovým časem. |
time_between |
Filtrování TabularDataset mezi zadaným počátečním a koncovým časem. |
time_recent |
Filtr TabularDataset tak, aby obsahoval pouze zadanou dobu trvání (množství) posledních dat. |
to_csv_files |
Převeďte aktuální datovou sadu na FileDataset obsahující soubory CSV. Výsledná datová sada bude obsahovat jeden nebo více souborů CSV, z nichž každý odpovídá oddílu dat z aktuální datové sady. Tyto soubory nejsou materializovány, dokud nejsou staženy nebo přečteny z. |
to_dask_dataframe |
Poznámka Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental. Vrátí datový rámec Dask, který může líně číst data v datové sadě. |
to_pandas_dataframe |
Načtěte všechny záznamy z datové sady do datového rámce pandas. |
to_parquet_files |
Převeďte aktuální datovou sadu na FileDataset obsahující soubory Parquet. Výsledná datová sada bude obsahovat jeden nebo více souborů Parquet, z nichž každý odpovídá oddílu dat z aktuální datové sady. Tyto soubory nejsou materializovány, dokud nejsou staženy nebo přečteny z. |
to_spark_dataframe |
Načtěte všechny záznamy z datové sady do datového rámce Sparku. |
with_timestamp_columns |
Definujte sloupce časového razítka pro datovou sadu. |
download
Poznámka
Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.
Stáhněte datové proudy souborů definované datovou sadou do místní cesty.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parametry
- target_path
- str
Místní adresář, do který chcete soubory stáhnout. Pokud žádné, data se stáhnou do dočasného adresáře.
- overwrite
- bool
Určuje, jestli se mají přepsat existující soubory. Výchozí hodnota je Nepravda. Existující soubory budou přepsány, pokud je přepsání nastaveno na Hodnotu True; jinak bude vyvolána výjimka.
- ignore_not_found
- bool
Označuje, jestli se stahování nezdaří, pokud nejsou nalezeny některé soubory, na které datová sada odkazuje. Výchozí hodnota je Pravda. Stahování selže, pokud stahování souboru z nějakého důvodu selže, pokud je ignore_not_found nastavena na Hodnotu False; v opačném případě bude protokolován waring pro nenalezené chyby a dowload bude úspěšné, pokud nejsou nalezeny žádné jiné typy chyb.
Návraty
Vrátí pole cest k souborům pro každý stažený soubor.
Návratový typ
drop_columns
Vypusťte zadané sloupce z datové sady.
Pokud je sloupec timeseries vyřazen, odpovídající funkce se zahodí i pro vrácenou datovou sadu.
drop_columns(columns)
Parametry
Návraty
Vrátí nový objekt TabularDataset se zadanými sloupci.
Návratový typ
filter
Poznámka
Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.
Vyfiltrujte data a ponechte jenom záznamy, které odpovídají zadanému výrazu.
filter(expression)
Parametry
Návraty
Upravená datová sada (registrace se zrušila).
Návratový typ
Poznámky
Výrazy se spouští indexováním datové sady s názvem sloupce. Podporují různé funkce a operátory a dají se kombinovat pomocí logických operátorů. Výsledný výraz bude líně vyhodnocen pro každý záznam, když dojde k načtení dat, a ne tam, kde je definován.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Poznámka
Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.
Získejte profil dat z nejnovějšího spuštění profilu odeslaného pro tuto nebo stejnou datovou sadu v pracovním prostoru.
get_profile(workspace=None)
Parametry
- workspace
- Workspace
Pracovní prostor, do kterého bylo odesláno spuštění profilu. Výchozí hodnota je pracovní prostor této datové sady. Vyžaduje se, pokud datová sada není přidružená k pracovnímu prostoru. Další informace o pracovních prostorech najdete v tématu https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .
Návraty
Výsledek profilu z nejnovějšího spuštění profilu typu DatasetProfile.
Návratový typ
get_profile_runs
Poznámka
Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.
Vrátit předchozí spuštění profilu přidružená k této nebo stejné datové sadě v pracovním prostoru.
get_profile_runs(workspace=None)
Parametry
- workspace
- Workspace
Pracovní prostor, do kterého bylo odesláno spuštění profilu. Výchozí hodnota je pracovní prostor této datové sady. Vyžaduje se, pokud datová sada není přidružená k pracovnímu prostoru. Další informace o pracovních prostorech najdete v tématu https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .
Návraty
objekt iterator typu azureml.core.Run.
Návratový typ
keep_columns
Ponechte zadané sloupce a vyhodí všechny ostatní z datové sady.
Pokud je sloupec timeseries vyřazen, odpovídající funkce se zahodí i pro vrácenou datovou sadu.
keep_columns(columns, validate=False)
Parametry
- validate
- bool
Určuje, jestli se mají ověřit, jestli je možné načíst data z vrácené datové sady. Výchozí hodnota je Nepravda. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálních výpočetních prostředků.
Návraty
Vrátí nový objekt TabularDataset s pouze zadanými sloupci.
Návratový typ
mount
Poznámka
Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.
Vytvořte kontextový správce pro připojení datových proudů souborů definovaných datovou sadou jako místní soubory.
mount(stream_column, mount_point=None)
Parametry
- mount_point
- str
Místní adresář, ke který chcete soubory připojit. Pokud žádné, data se připojí k dočasnému adresáři, který najdete voláním metody instance MountContext.mount_point .
Návraty
Vrátí správce kontextu pro správu životního cyklu připojení.
Návratový typ
partition_by
Dělená data se zkopírují a vydají do cíle určeného cílem.
vytvoření datové sady z výstupní cesty k datům ve formátu oddílu, registrace datové sady, pokud je zadaný název, vrácení datové sady pro novou cestu k datům s oddíly
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parametry
Vyžaduje se cesta úložiště dat, do které se data parquet datového rámce nahrají. Složka guid se vygeneruje pod cílovou cestou, aby se zabránilo konfliktu.
- show_progress
- bool
Volitelné– označuje, jestli se má v konzole zobrazit průběh nahrávání. Výchozí hodnota je Pravda.
- partition_as_file_dataset
Volitelné, označuje, jestli vrací filedataset nebo ne. Výchozí hodnota je False.
Návraty
Uložená nebo registrovaná datová sada.
Návratový typ
random_split
Rozdělte záznamy v datové sadě na dvě části náhodně a přibližně podle zadaného procenta.
První datová sada obsahuje přibližně percentage
celkový počet záznamů a druhá datová sada zbývající záznamy.
random_split(percentage, seed=None)
Parametry
- percentage
- float
Přibližné procento, podle které se má datová sada rozdělit. Musí to být číslo mezi 0,0 a 1,0.
Návraty
Vrátí řazenou kolekci členů nových objektů TabularDataset, které představují dvě datové sady po rozdělení.
Návratový typ
skip
Přeskočí záznamy z horní části datové sady podle zadaného počtu.
skip(count)
Parametry
Návraty
Vrátí nový objekt TabularDataset představující datovou sadu se záznamy vynechanými.
Návratový typ
submit_profile_run
Poznámka
Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.
Odešlete spuštění experimentování pro výpočet profilu dat.
Profil dat může být velmi užitečný pro pochopení vstupních dat, identifikaci anomálií a chybějících hodnot poskytnutím užitečných informací o datech, jako je typ sloupce, chybějící hodnoty atd.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parametry
- compute_target
- Union[str, ComputeTarget]
Cílový výpočetní objekt, na který se má spustit experiment výpočtu profilu. Pokud chcete použít místní výpočetní prostředky, zadejte "local". Další informace o cílových výpočetních objektech najdete v tématu https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget .
- experiment
- Experiment
Objekt experimentu. Další informace o experimentech najdete v tématu https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment .
- cache_datastore_name
- str
název úložiště dat pro uložení mezipaměti profilu, pokud žádné, použije se výchozí úložiště dat.
Návraty
Objekt typu DatasetProfileRun třídy.
Návratový typ
take
Vezměte vzorek záznamů z horní části datové sady podle zadaného počtu.
take(count)
Parametry
Návraty
Vrátí nový objekt TabularDataset představující vzorkovanou datovou sadu.
Návratový typ
take_sample
Vezměte náhodný vzorek záznamů v datové sadě přibližně podle zadané pravděpodobnosti.
take_sample(probability, seed=None)
Parametry
Návraty
Vrátí nový objekt TabularDataset představující vzorkovanou datovou sadu.
Návratový typ
time_after
Vyfiltrujte tabulkovou datovou sadu se sloupci časového razítka po zadaném čase zahájení.
time_after(start_time, include_boundary=True, validate=True)
Parametry
- include_boundary
- bool
Určuje, jestli má být zahrnut řádek přidružený k hraničnímu času (start_time
).
- validate
- bool
Určuje, jestli se má ověřit, jestli v datové sadě existují zadané sloupce. Výchozí hodnota je True. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.
Návraty
A TabularDataset s novou filtrovanou datovou sadou.
Návratový typ
time_before
Filtrování tabulkových dat se sloupci s časovým razítkem před zadaným koncovým časem.
time_before(end_time, include_boundary=True, validate=True)
Parametry
- include_boundary
- bool
Určuje, jestli má být zahrnut řádek přidružený k hraničnímu času (end_time
).
- validate
- bool
Určuje, jestli se má ověřit, jestli v datové sadě existují zadané sloupce. Výchozí hodnota je True. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.
Návraty
A TabularDataset s novou filtrovanou datovou sadou.
Návratový typ
time_between
Filtrování TabularDataset mezi zadaným počátečním a koncovým časem.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parametry
- include_boundary
- bool
Určuje, jestli má být zahrnut řádek přidružený k hraničnímu času (start_end
a end_time
).
- validate
- bool
Určuje, jestli se má ověřit, jestli v datové sadě existují zadané sloupce. Výchozí hodnota je True. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.
Návraty
A TabularDataset s novou filtrovanou datovou sadou.
Návratový typ
time_recent
Filtr TabularDataset tak, aby obsahoval pouze zadanou dobu trvání (množství) posledních dat.
time_recent(time_delta, include_boundary=True, validate=True)
Parametry
- include_boundary
- bool
Určuje, jestli má být zahrnut řádek přidružený k hraničnímu času (time_delta
).
- validate
- bool
Určuje, jestli se má ověřit, jestli v datové sadě existují zadané sloupce. Výchozí hodnota je True. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.
Návraty
A TabularDataset s novou filtrovanou datovou sadou.
Návratový typ
to_csv_files
Převeďte aktuální datovou sadu na FileDataset obsahující soubory CSV.
Výsledná datová sada bude obsahovat jeden nebo více souborů CSV, z nichž každý odpovídá oddílu dat z aktuální datové sady. Tyto soubory nejsou materializovány, dokud nejsou staženy nebo přečteny z.
to_csv_files(separator=',')
Parametry
Návraty
Vrátí nový objekt FileDataset se sadou souborů CSV obsahujících data v této datové sadě.
Návratový typ
to_dask_dataframe
Poznámka
Jedná se o experimentální metodu, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.
Vrátí datový rámec Dask, který může líně číst data v datové sadě.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parametry
- sample_size
Počet záznamů, které se mají přečíst pro určení schématu a typů.
- dtypes
Volitelný dikt, který určuje očekávané sloupce a jejich typy dtype. sample_size se ignoruje, pokud je tato možnost zadaná.
- on_error
Zpracování chybových hodnot v datové sadě, například chybových hodnot vytvořených chybou při analýze hodnot Platné hodnoty jsou null, které je nahradí hodnotou null; a "fail", což bude mít za následek výjimku.
- out_of_range_datetime
Jak zpracovávat hodnoty data a času, které jsou mimo rozsah podporovaný knihovnou Pandas. Platné hodnoty jsou null, které je nahradí hodnotou null; a "fail", což bude mít za následek výjimku.
Návraty
dask.dataframe.core.DataFrame
to_pandas_dataframe
Načtěte všechny záznamy z datové sady do datového rámce pandas.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parametry
- on_error
Zpracování chybových hodnot v datové sadě, například chybových hodnot vytvořených chybou při analýze hodnot Platné hodnoty jsou null, které je nahradí hodnotou null; a "fail", což bude mít za následek výjimku.
- out_of_range_datetime
Jak zpracovávat hodnoty data a času, které jsou mimo rozsah podporovaný knihovnou Pandas. Platné hodnoty jsou null, které je nahradí hodnotou null; a "fail", což bude mít za následek výjimku.
Návraty
Vrátí datový rámec pandas.
Návratový typ
to_parquet_files
Převeďte aktuální datovou sadu na FileDataset obsahující soubory Parquet.
Výsledná datová sada bude obsahovat jeden nebo více souborů Parquet, z nichž každý odpovídá oddílu dat z aktuální datové sady. Tyto soubory nejsou materializovány, dokud nejsou staženy nebo přečteny z.
to_parquet_files()
Návraty
Vrátí nový FileDataset objekt se sadou souborů Parquet obsahující data v této datové sadě.
Návratový typ
to_spark_dataframe
Načtěte všechny záznamy z datové sady do datového rámce Sparku.
to_spark_dataframe()
Návraty
Vrátí datový rámec Sparku.
Návratový typ
with_timestamp_columns
Definujte sloupce časového razítka pro datovou sadu.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parametry
- timestamp
- str
Název sloupce jako časové razítko (označuje se jako fine_grain_timestamp) (volitelné). Výchozí hodnota je None(clear).
- partition_timestamp
- str
Název partition_timestamp sloupce (označuje se jako hrubé časové razítko agregačního intervalu) (volitelné). Výchozí hodnota je None(clear).
- validate
- bool
Určuje, jestli se má ověřit, jestli v datové sadě existují zadané sloupce. Výchozí hodnota je Nepravda. Ověření vyžaduje, aby byl zdroj dat přístupný z aktuálního výpočetního prostředí.
Návraty
Vrátí novou tabulkovou datovou sadu s definovanými sloupci časového razítka.
Návratový typ
Poznámky
Metoda definuje sloupce, které se mají použít jako časová razítka. Sloupce časového razítka v datové sadě umožňují zacházet s daty jako s daty časových řad a povolit další možnosti. Pokud datová sada obsahuje obojí timestamp (used to be referred as fine_grain_timestamp)
a partition_timestamp (used to be referred as coarse grain timestamp)
zadané, měly by tyto dva sloupce představovat stejnou časovou osu.
Atributy
timestamp_columns
Váš názor
Odeslat a zobrazit názory pro