Dataset Třída

Reference

Představuje prostředek pro zkoumání, transformaci a správu dat ve službě Azure Machine Learning.

Datová sada je odkaz na data ve Datastore veřejných webových adresách URL nebo za veřejnými webovými adresami URL.

V případě zastaralých metod v této třídě zkontrolujte AbstractDataset třídu pro vylepšená rozhraní API.

Podporují se následující typy datových sad:

Objekt TabularDataset reprezentuje data v tabulkovém formátu vytvořeném parsováním zadaného souboru nebo seznamu souborů.
Objekt FileDataset odkazuje na jeden nebo několik souborů v úložištích dat nebo z veřejných adres URL.

Pokud chcete začít pracovat s datovými sadami, přečtěte si článek Přidání & registrace datových sad nebo si projděte poznámkové bloky https://aka.ms/tabulardataset-samplenotebook a https://aka.ms/filedataset-samplenotebook.

Inicializuje objekt Dataset.

Pokud chcete získat datovou sadu, která už je zaregistrovaná v pracovním prostoru, použijte metodu get.

Dědičnost: builtins.object

Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Parametry

definition: <xref:azureml.data.DatasetDefinition>

Vyžadováno

Definice datové sady

workspace: Workspace

Vyžadováno

Pracovní prostor, ve kterém datová sada existuje.

name: str

Vyžadováno

Název datové sady.

id: str

Vyžadováno

Jedinečný identifikátor datové sady.

Poznámky

Třída Dataset zveřejňuje dva atributy třídy pohodlí (File a Tabular), které můžete použít k vytvoření datové sady bez práce s odpovídajícími metodami továrny. Pokud například chcete vytvořit datovou sadu pomocí těchto atributů:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Můžete také vytvořit novou TabularDataset nebo FileDataset přímým voláním odpovídajících metod továrny třídy definované v TabularDatasetFactory a FileDatasetFactory.

Následující příklad ukazuje, jak vytvořit objekt TabularDataset odkazující na jednu cestu v úložišti dat.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Úplná ukázka je k dispozici od https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Proměnné

azureml.core.Dataset.File

Atribut třídy, který poskytuje přístup k FileDatasetFactory metody pro vytváření nových FileDataset objektů. Použití: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Atribut třídy, který poskytuje přístup k TabularDatasetFactory metody pro vytváření nových TabularDataset objektů. Použití: Dataset.Tabular.from_delimited_files().

Metody

archive	Archivace aktivní nebo zastaralé datové sady Poznámka Tato metoda je zastaralá a již nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
auto_read_files	Analyzuje soubory na zadané cestě a vrátí novou datovou sadu. Poznámka Tato metoda je zastaralá a už nebude podporována. Ke čtení souborů doporučujeme používat metody Dataset.Tabular.from_*. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
compare_profiles	Porovnejte profil aktuální datové sady s jiným profilem datové sady. To ukazuje rozdíly v souhrnných statistikách mezi dvěma datovými sadami. Parametr "rhs_dataset" je zkratka pro "pravá strana" a je jednoduše druhou datovou sadou. První datová sada (aktuální objekt datové sady) se považuje za "levou stranu". Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
create_snapshot	Vytvořte snímek registrované datové sady. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
delete_snapshot	Odstraňte snímek datové sady podle názvu. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
deprecate	Vyřazení aktivní datové sady v pracovním prostoru jinou datovou sadou Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
diff	Rozdělte aktuální datovou sadu pomocí rhs_dataset. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
from_binary_files	Vytvořte neregistrovanou datovou sadu v paměti z binárních souborů. Poznámka Tato metoda je zastaralá a už nebude podporována. Doporučujeme místo toho použít Dataset.File.from_files. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
from_delimited_files	Vytvořte neregistrovanou datovou sadu v paměti ze souborů s oddělovači. Poznámka Tato metoda je zastaralá a už nebude podporována. Doporučujeme místo toho použít Dataset.Tabular.from_delimited_files. Další informace naleznete v tématu https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Vytvořte neregistrovanou datovou sadu v paměti z excelových souborů. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
from_json_files	Vytvořte neregistrovanou datovou sadu v paměti ze souborů JSON. Poznámka Tato metoda je zastaralá a už nebude podporována. Doporučujeme místo toho použít Dataset.Tabular.from_json_lines_files ke čtení ze souboru řádků JSON. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Vytvořte neregistrovanou datovou sadu v paměti z datového rámce pandas. Poznámka Tato metoda je zastaralá a už nebude podporována. Doporučujeme místo toho používat Dataset.Tabular.register_pandas_dataframe. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
from_parquet_files	Vytvořte neregistrovanou datovou sadu v paměti ze souborů parquet. Poznámka Tato metoda je zastaralá a už nebude podporována. Doporučujeme místo toho použít Dataset.Tabular.from_parquet_files. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
from_sql_query	Vytvořte neregistrovanou datovou sadu v paměti z dotazu SQL. Poznámka Tato metoda je zastaralá a už nebude podporována. Doporučujeme místo toho použít Dataset.Tabular.from_sql_query. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
generate_profile	Vygenerujte nový profil pro datovou sadu. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
get	Získejte datovou sadu, která už v pracovním prostoru existuje, zadáním jejího názvu nebo ID. Poznámka Tato metoda je zastaralá a už nebude podporována. Doporučujeme použít get_by_name a get_by_id místo toho. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
get_all	Získejte všechny registrované datové sady v pracovním prostoru.
get_all_snapshots	Získejte všechny snímky datové sady. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
get_by_id	Získejte datovou sadu, která se uloží do pracovního prostoru.
get_by_name	Získejte zaregistrovanou datovou sadu z pracovního prostoru podle názvu registrace.
get_definition	Získejte konkrétní definici datové sady. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
get_definitions	Získejte všechny definice datové sady. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
get_profile	Získejte souhrnné statistiky o datové sadě vypočítané dříve. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
get_snapshot	Získejte snímek datové sady podle názvu. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
head	Načítejte zadaný počet záznamů zadaných z této datové sady a vrátí je jako datový rámec. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
list	Vypište všechny datové sady v pracovním prostoru, včetně těch, které mají `is_visible` vlastnost rovnající se false. Poznámka Tato metoda je zastaralá a už nebude podporována. Doporučujeme místo toho použít get_all . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
reactivate	Opětovná aktivace archivované nebo zastaralé datové sady Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
register	Zaregistrujte datovou sadu v pracovním prostoru a zpřístupníte ji ostatním uživatelům pracovního prostoru. Poznámka Tato metoda je zastaralá a už nebude podporována. Doporučujeme místo toho použít register . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
sample	Vygenerujte novou ukázku ze zdrojové datové sady pomocí strategie vzorkování a zadaných parametrů. Poznámka Tato metoda je zastaralá a už nebude podporována. Vytvořte metodu TabularDataset voláním statických metod na Dataset.Tabular a použijte metodu tam take_sample . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady. Poznámka Tato metoda je zastaralá a už nebude podporována. Vytvořte metodu TabularDataset voláním statických metod na Dataset.Tabular a použijte metodu tam to_pandas_dataframe . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
to_spark_dataframe	Vytvořte datový rámec Sparku, který může spustit transformační kanál definovaný touto definicí datové sady. Poznámka Tato metoda je zastaralá a už nebude podporována. Vytvořte metodu TabularDataset voláním statických metod na Dataset.Tabular a použijte metodu tam to_spark_dataframe . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
update	Aktualizujte atributy proměnlivé datové sady v pracovním prostoru a vraťte aktualizovanou datovou sadu z pracovního prostoru. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.
update_definition	Aktualizujte definici datové sady. Poznámka Tato metoda je zastaralá a už nebude podporována. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

auto_read_files

Analyzuje soubory na zadané cestě a vrátí novou datovou sadu.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Ke čtení souborů doporučujeme používat metody Dataset.Tabular.from_*. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parametry

path: DataReference nebo str

Vyžadováno

Cesta k datům v registrovaném úložišti dat, místní cesta nebo adresa URL protokolu HTTP (CSV/TSV).

include_path: bool

Vyžadováno

Určuje, jestli se má zahrnout sloupec obsahující cestu k souboru, ze kterého byla data načtena. Užitečné při čtení více souborů a chcete vědět, ze kterého souboru konkrétní záznam pochází. Je to užitečné také v případě, že jsou v cestě k souboru nebo názvu požadované informace ve sloupci.

partition_format: str

Vyžadováno

Zadejte formát oddílu v cestě a vytvořte sloupce řetězců z formátu {x} a sloupce datetime z formátu {x:yyyy/MM/dd/HH/mm/ss}, kde se yyyy, MM, dd, HH, mm a ss pro typ datetime používají k extratu roku, měsíce, dne, hodiny, minuty a sekundy. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě k souboru '.. /Accounts/2019/01/01/data.csv' kde jsou data rozdělená na oddíly podle názvu a času oddělení, můžeme definovat /{Department}/{PartitionDate:yyyy/MM/dd}/data.csv a vytvořit sloupce Department typu string a PartitionDate typu datetime.

Návraty

Objekt datové sady.

Návratový typ

Dataset

Poznámky

Tuto metodu použijte, pokud chcete, aby se automaticky detekovaly formáty souborů a oddělovače.

Po vytvoření datové sady byste měli použít get_profile k výpisu zjištěných typů sloupců a souhrnné statistiky pro každý sloupec.

Vrácená datová sada není zaregistrovaná v pracovním prostoru.

compare_profiles

Porovnejte profil aktuální datové sady s jiným profilem datové sady.

To ukazuje rozdíly v souhrnných statistikách mezi dvěma datovými sadami. Parametr "rhs_dataset" je zkratka pro "pravá strana" a je jednoduše druhou datovou sadou. První datová sada (aktuální objekt datové sady) se považuje za "levou stranu".

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametry

rhs_dataset: Dataset

Vyžadováno

Druhá datová sada, označovaná také jako "pravá" datová sada pro porovnání.

profile_arguments: dict

Vyžadováno

Argumenty pro retrivní konkrétní profil.

include_columns: list[str]

Vyžadováno

Seznam názvů sloupců, které se mají zahrnout do porovnání

exclude_columns: list[str]

Vyžadováno

Seznam názvů sloupců, které se mají při porovnávání vyloučit

histogram_compare_method: HistogramCompareMethod

Vyžadováno

Výčet popisující metodu porovnání, například: Wasserstein nebo Energy

Návraty

Rozdíl mezi dvěma profily datové sady

Návratový typ

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Poznámky

Týká se to jenom registrovaných datových sad. Vyvolá výjimku, pokud profil aktuální datové sady neexistuje. Pro neregistrované datové sady použijte metodu profile.compare.

create_snapshot

Vytvořte snímek registrované datové sady.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametry

snapshot_name: str

Vyžadováno

Název snímku. Názvy snímků by měly být v rámci datové sady jedinečné.

compute_target: Union[ComputeTarget, str]

Vyžadováno

Volitelný cílový výpočetní objekt pro vytvoření profilu snímku Pokud je vynechán, použije se místní výpočetní prostředí.

create_data_snapshot: bool

Vyžadováno

Pokud je true, vytvoří se materializovaná kopie dat.

target_datastore: Union[AbstractAzureStorageDatastore, str]

Vyžadováno

Zacílit úložiště dat pro uložení snímku. Pokud tento parametr vynecháte, vytvoří se snímek ve výchozím úložišti pracovního prostoru.

Návraty

Objekt snímku datové sady.

Návratový typ

DatasetSnapshot

Poznámky

Snímky zaznamenávají souhrnné statistiky podkladových dat k určitému bodu v čase a volitelnou kopii samotných dat. Další informace o vytváření snímků najdete v tématu https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Odstraňte snímek datové sady podle názvu.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parametry

snapshot_name: str

Vyžadováno

Název snímku.

Návraty

Žádné

Návratový typ

None

Poznámky

Tato možnost slouží k uvolnění úložiště spotřebovaného daty uloženými ve snímcích, které už nepotřebujete.

deprecate

Vyřazení aktivní datové sady v pracovním prostoru jinou datovou sadou

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parametry

deprecate_by_dataset_id: str

Vyžadováno

ID datové sady, které je zamýšlenou náhradou za tuto datovou sadu.

Návraty

Žádné

Návratový typ

None

Poznámky

Zastaralé datové sady budou zaznamenávat upozornění, když jsou spotřebovány. Vyřazení datové sady zastará všechny její definice.

Zastaralé datové sady je stále možné využívat. Pokud chcete úplně zablokovat využívání datové sady, archivujte ji.

Pokud se omylem přestane používat, aktivuje se opětovná aktivace.

diff

Rozdělte aktuální datovou sadu pomocí rhs_dataset.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parametry

rhs_dataset: Dataset

Vyžadováno

Další datová sada označovaná také jako datová sada na pravé straně pro porovnání

compute_target: Union[ComputeTarget, str]

Vyžadováno

cílový výpočetních prostředků k provedení rozdílu. Pokud je vynechán, použije se místní výpočetní prostředí.

columns: list[str]

Vyžadováno

Seznam názvů sloupců, které se mají zahrnout do rozdílu.

Návraty

Objekt spuštění akce datové sady

Návratový typ

DatasetActionRun

from_binary_files

Vytvořte neregistrovanou datovou sadu v paměti z binárních souborů.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Doporučujeme místo toho použít Dataset.File.from_files. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parametry

path: DataReference nebo str

Vyžadováno

Cesta k datům v registrovaném úložišti dat nebo místní cesta.

Návraty

Objekt Dataset.

Návratový typ

Dataset

Poznámky

Tato metoda slouží ke čtení souborů jako datových proudů binárních dat. Vrátí jeden objekt datového proudu souboru na každý přečtený soubor. Tuto metodu použijte při čtení obrázků, videí, zvukových nebo jiných binárních dat.

get_profile a create_snapshot nebude fungovat podle očekávání pro datovou sadu vytvořenou touto metodou.

Vrácená datová sada není zaregistrovaná v pracovním prostoru.

from_delimited_files

Vytvořte neregistrovanou datovou sadu v paměti ze souborů s oddělovači.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Doporučujeme místo toho použít Dataset.Tabular.from_delimited_files. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parametry

path: DataReference nebo str

Vyžadováno

Cesta k datům v registrovaném úložišti dat, místní cesta nebo adresa URL HTTP.

separator: str

Vyžadováno

Oddělovač použitý k rozdělení sloupců.

header: PromoteHeadersBehavior

Vyžadováno

Řídí způsob zvýšení úrovně záhlaví sloupců při čtení ze souborů.

encoding: FileEncoding

Vyžadováno

Kódování přečtených souborů.

quoting: bool

Vyžadováno

Určete, jak se mají zpracovávat nové znaky řádků v uvozovkách. Výchozí hodnota (Nepravda) je interpretovat znaky nového řádku jako počáteční nové řádky bez ohledu na to, zda jsou znaky nového řádku v uvozovkách nebo ne. Pokud je nastavená hodnota Pravda, nové znaky řádků v uvozovkách nebudou mít za následek nové řádky a rychlost čtení souborů se zpomalí.

infer_column_types: bool

Vyžadováno

Určuje, zda jsou datové typy sloupců odvozeny.

skip_rows: int

Vyžadováno

Počet řádků, které se mají přeskočit ve čtecích souborech

skip_mode: SkipLinesBehavior

Vyžadováno

Určuje, jak se při čtení ze souborů přeskočí řádky.

comment: str

Vyžadováno

Znak používaný k označení řádků komentáře ve čtených souborech. Řádky začínající tímto řetězcem budou přeskočeny.

include_path: bool

Vyžadováno

Zda se má zahrnout sloupec obsahující cestu k souboru, ze kterého byla data načtena. To je užitečné, když čtete více souborů a chcete zjistit, ze kterého souboru konkrétní záznam pochází, nebo chcete mít v cestě k souboru užitečné informace.

archive_options: <xref:azureml.dataprep.ArchiveOptions>

Vyžadováno

Možnosti archivního souboru, včetně typu archivu a vzoru vstupního globu. Zip v tuto chvíli podporujeme jenom jako typ archivu. Například zadání


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

přečte všechny soubory s názvem končícím na "10-20.csv" v souboru ZIP.

partition_format: str

Vyžadováno

Zadejte formát oddílu v cestě a vytvořte sloupce řetězců z formátu {x} a sloupce datetime z formátu {x:yyyy/MM/dd/HH/mm/ss}, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají pro extrat rok, měsíc, den, hodinu, minutu a sekundu pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě k souboru '.. /Accounts/2019/01/01/data.csv, kde jsou data rozdělená podle názvu a času oddělení, můžeme definovat /{Department}/{PartitionDate:yyyy/MM/dd}/data.csv a vytvořit tak sloupce "Oddělení" typu řetězec a 'PartitionDate' typu datetime.

Návraty

Objekt datové sady.

Návratový typ

Dataset

Poznámky

Tuto metodu použijte ke čtení textových souborů s oddělovači, pokud chcete řídit použité možnosti.

Po vytvoření datové sady byste měli použít get_profile seznam rozpoznaných typů sloupců a souhrnné statistiky pro každý sloupec.

Vrácená datová sada není zaregistrovaná v pracovním prostoru.

from_excel_files

Vytvořte neregistrovanou datovou sadu v paměti z excelových souborů.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parametry

path: DataReference nebo str

Vyžadováno

Cesta k datům v registrovaném úložišti dat nebo místní cesta.

sheet_name: str

Vyžadováno

Název excelového listu, který se má načíst. Ve výchozím nastavení čteme první list z každého excelového souboru.

use_column_headers: bool

Vyžadováno

Určuje, jestli se má první řádek použít jako záhlaví sloupců.

skip_rows: int

Vyžadováno

Počet řádků, které se mají přeskočit ve čtecích souborech

include_path: bool

Vyžadováno

infer_column_types: bool

Vyžadováno

Pokud je true, datové typy sloupců budou odvozeny.

partition_format: str

Vyžadováno

Zadejte formát oddílu v cestě a vytvořte sloupce řetězců z formátu {x} a sloupce datetime z formátu {x:yyyy/MM/dd/HH/mm/ss}, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají pro extrat rok, měsíc, den, hodinu, minutu a sekundu pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě k souboru '.. /Accounts/2019/01/01/data.xlsx, kde jsou data rozdělená podle názvu a času oddělení, můžeme definovat /{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx a vytvořit tak sloupce "Oddělení" typu řetězec a 'PartitionDate' typu datetime.

Návraty

Objekt datové sady.

Návratový typ

Dataset

Poznámky

Tato metoda slouží ke čtení excelových souborů ve formátu .xlsx. Data se dají číst z jednoho listu v každém excelovém souboru. Po vytvoření datové sady byste měli použít get_profile seznam rozpoznaných typů sloupců a souhrnné statistiky pro každý sloupec. Vrácená datová sada není zaregistrovaná v pracovním prostoru.

from_json_files

Vytvořte neregistrovanou datovou sadu v paměti ze souborů JSON.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Doporučujeme místo toho použít Dataset.Tabular.from_json_lines_files ke čtení ze souboru řádků JSON. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parametry

path: DataReference nebo str

Vyžadováno

Cesta k souborům nebo složkám, které chcete načíst a analyzovat. Může to být buď místní cesta, nebo adresa URL objektu blob Azure. Podporuje se globbing. Můžete například použít cestu = "./data*" ke čtení všech souborů s názvem začínajícím na "data".

encoding: FileEncoding

Vyžadováno

Kódování přečtených souborů.

flatten_nested_arrays: bool

Vyžadováno

Řízení vlastností programu při zpracování vnořených polí Pokud se rozhodnete zploštět vnořená pole JSON, může to mít za následek mnohem větší počet řádků.

include_path: bool

Vyžadováno

Zda se má zahrnout sloupec obsahující cestu, ze které byla data načtena. To je užitečné, když čtete více souborů a možná budete chtít vědět, ze kterého souboru konkrétní záznam pochází, nebo chcete mít v cestě k souboru užitečné informace.

partition_format: str

Vyžadováno

Zadejte formát oddílu v cestě a vytvořte sloupce řetězců z formátu {x} a sloupce datetime z formátu {x:yyyy/MM/dd/HH/mm/ss}, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají pro extrat rok, měsíc, den, hodinu, minutu a sekundu pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě k souboru '.. /Accounts/2019/01/01/data.json' a data jsou rozdělená podle názvu a času oddělení. Můžeme definovat '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' a vytvořit sloupce "Oddělení" typu řetězec a 'PartitionDate' typu datetime.

Návraty

Objekt místní datové sady.

Návratový typ

Dataset

from_pandas_dataframe

Vytvořte neregistrovanou datovou sadu v paměti z datového rámce pandas.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Doporučujeme místo toho používat Dataset.Tabular.register_pandas_dataframe. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parametry

dataframe: DataFrame

Vyžadováno

Datový rámec Pandas.

path: Union[DataReference, str]

Vyžadováno

Cesta k datům v registrovaném úložišti dat nebo cestě k místní složce.

in_memory: bool

Vyžadováno

Zda se má datový rámec číst z paměti místo uchování na disk.

Návraty

Objekt datové sady.

Návratový typ

Dataset

Poznámky

Tato metoda slouží k převodu datového rámce Pandas na objekt Dataset. Datovou sadu vytvořenou touto metodou nelze zaregistrovat, protože data pocházejí z paměti.

Pokud in_memory je hodnota False, datový rámec Pandas se místně převede na soubor CSV. Pokud pat je typu DataReference, pak se rámec Pandas nahraje do úložiště dat a datová sada bude založená na DataReference. Pokud je cesta místní složkou, datová sada se vytvoří z místního souboru, který nelze odstranit.

Vyvolá výjimku, pokud aktuální dataReference není cesta ke složce.

from_parquet_files

Vytvořte neregistrovanou datovou sadu v paměti ze souborů parquet.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Doporučujeme místo toho použít Dataset.Tabular.from_parquet_files. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parametry

path: DataReference nebo str

Vyžadováno

Cesta k datům v registrovaném úložišti dat nebo místní cesta.

include_path: bool

Vyžadováno

partition_format: str

Vyžadováno

Zadejte formát oddílu v cestě a vytvořte sloupce řetězců z formátu {x} a sloupce datetime z formátu {x:yyyy/MM/dd/HH/mm/ss}, kde 'yyyy', 'MM', 'dd', 'HH', 'mm' a 'ss' se používají pro extrat rok, měsíc, den, hodinu, minutu a sekundu pro typ datetime. Formát by měl začínat od pozice prvního klíče oddílu až do konce cesty k souboru. Například vzhledem k cestě k souboru '.. /Accounts/2019/01/01/data.parquet' kde jsou data rozdělená podle názvu a času oddělení, můžeme definovat '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' a vytvořit sloupce 'Department' typu řetězec a 'PartitionDate' typu datetime.

Návraty

Objekt datové sady.

Návratový typ

Dataset

Poznámky

Tuto metodu použijte ke čtení souborů Parquet.

Po vytvoření datové sady byste měli použít get_profile seznam rozpoznaných typů sloupců a souhrnné statistiky pro každý sloupec.

Vrácená datová sada není zaregistrovaná v pracovním prostoru.

from_sql_query

Vytvořte neregistrovanou datovou sadu v paměti z dotazu SQL.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Doporučujeme místo toho použít Dataset.Tabular.from_sql_query. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parametry

data_source: AzureSqlDatabaseDatastore

Vyžadováno

Podrobnosti o Azure SQL úložiště dat.

query: str

Vyžadováno

Dotaz, který se má spustit pro čtení dat.

Návraty

Objekt místní datové sady.

Návratový typ

Dataset

generate_profile

Vygenerujte nový profil pro datovou sadu.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parametry

compute_target: Union[ComputeTarget, str]

Vyžadováno

Volitelný cílový výpočetní objekt pro vytvoření profilu snímku. Pokud je vynechán, použije se místní výpočetní prostředí.

workspace: Workspace

Vyžadováno

Pracovní prostor, vyžadovaný pro přechodné (neregistrované) datové sady.

arguments: dict[str, object]

Vyžadováno

Argumenty profilu. Platné argumenty jsou:

"include_stype_counts" typu bool. Zkontrolujte, jestli hodnoty vypadají jako některé dobře známé sémantické typy, jako jsou e-mailová adresa, IP adresa (V4/V6), telefonní číslo v USA, PSČ USA, zeměpisná šířka/zeměpisná délka. Povolení tohoto nastavení má vliv na výkon.
"number_of_histogram_bins" typu int. Představuje počet intervalů histogramu, které se mají použít pro číselná data. Výchozí hodnota je 10.

Návraty

Objekt spuštění akce datové sady

Návratový typ

DatasetActionRun

Poznámky

Synchronní volání bude blokovat, dokud se nedokoní. Voláním get_result získáte výsledek akce.

get

Získejte datovou sadu, která už v pracovním prostoru existuje, zadáním jejího názvu nebo ID.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Doporučujeme použít get_by_name a get_by_id místo toho. Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parametry

workspace: Workspace

Vyžadováno

Existující pracovní prostor AzureML, ve kterém se datová sada vytvořila.

name: str

Vyžadováno

Název datové sady, která se má načíst.

id: str

Vyžadováno

Jedinečný identifikátor datové sady v pracovním prostoru.

Návraty

Datová sada se zadaným názvem nebo ID.

Návratový typ

Dataset

Poznámky

Můžete zadat nebo nameid. Výjimka se vyvolá v následujících případech:

id jsou zadané iname, ale neshodují se.
datovou sadu se zadaným name nebo id nelze najít v pracovním prostoru.

get_all

Získejte všechny registrované datové sady v pracovním prostoru.

get_all()

Parametry

workspace: Workspace

Vyžadováno

Existující pracovní prostor AzureML, ve kterém byly datové sady zaregistrované.

Návraty

Slovník objektů TabularDataset a FileDataset s klíči podle názvu registrace.

Návratový typ

dict[str, Union[TabularDataset, FileDataset]]

get_all_snapshots

Získejte všechny snímky datové sady.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

get_all_snapshots()

Návraty

Seznam snímků datových sad

Návratový typ

list[DatasetSnapshot]

get_by_id

Získejte datovou sadu, která se uloží do pracovního prostoru.

get_by_id(id, **kwargs)

Parametry

workspace: Workspace

Vyžadováno

Existující pracovní prostor AzureML, ve kterém je datová sada uložená.

id: str

Vyžadováno

ID datové sady.

Návraty

Objekt datové sady. Pokud je datová sada zaregistrovaná, vrátí se také její registrační název a verze.

Návratový typ

Union[TabularDataset, FileDataset]

get_by_name

Získejte zaregistrovanou datovou sadu z pracovního prostoru podle názvu registrace.

get_by_name(name, version='latest', **kwargs)

Parametry

workspace: Workspace

Vyžadováno

Existující pracovní prostor AzureML, ve kterém byla datová sada zaregistrovaná.

name: str

Vyžadováno

Název registrace.

version: int

Vyžadováno

Verze registrace. Výchozí hodnota je nejnovější.

Návraty

Zaregistrovaný objekt datové sady.

Návratový typ

Union[TabularDataset, FileDataset]

get_definition

Získejte konkrétní definici datové sady.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parametry

version_id: str

Vyžadováno

ID verze definice datové sady

Návraty

Definice datové sady.

Návratový typ

DatasetDefinition

Poznámky

Pokud version_id je k dispozici, azure Machine Learning se pokusí získat definici odpovídající dané verzi. Pokud tato verze neexistuje, vyvolá se výjimka. Pokud version_id je vynechán, načte se nejnovější verze.

get_definitions

Získejte všechny definice datové sady.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

get_definitions()

Návraty

Slovník definic datových sad.

Návratový typ

dict[str, DatasetDefinition]

Poznámky

Datová sada zaregistrovaná v pracovním prostoru AzureML může mít více definic, z nichž každá se vytvoří voláním update_definition. Každá definice má jedinečný identifikátor. Aktuální definice je nejnovější vytvořená definice.

U neregistrovaných datových sad existuje pouze jedna definice.

get_profile

Získejte souhrnné statistiky o datové sadě vypočítané dříve.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parametry

arguments: dict[str, object]

Vyžadováno

Argumenty profilu.

generate_if_not_exist: bool

Vyžadováno

Určuje, jestli se má vygenerovat profil, pokud neexistuje.

workspace: Workspace

Vyžadováno

Pracovní prostor, vyžadovaný pro přechodné (neregistrované) datové sady.

compute_target: Union[ComputeTarget, str]

Vyžadováno

Cílový výpočetní objekt pro spuštění akce profilu.

Návraty

DataProfile datové sady.

Návratový typ

<xref:azureml.dataprep.DataProfile>

Poznámky

Pro datovou sadu zaregistrovanou v pracovním prostoru Služby Azure Machine Learning tato metoda načte existující profil vytvořený dříve voláním get_profile , pokud je stále platný. Profily se zruší, když se v datové sadě zjistí změněná data nebo se argumenty, které se get_profile mají lišit od těch, které se použily při generování profilu. Pokud profil neexistuje nebo je neplatný, určí, generate_if_not_exist jestli se vygeneruje nový profil.

U datové sady, která není zaregistrovaná v pracovním prostoru Azure Machine Learning, tato metoda vždy spustí generate_profile a vrátí výsledek.

get_snapshot

Získejte snímek datové sady podle názvu.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parametry

snapshot_name: str

Vyžadováno

Název snímku.

Návraty

Objekt snímku datové sady.

Návratový typ

DatasetSnapshot

head

Načítejte zadaný počet záznamů zadaných z této datové sady a vrátí je jako datový rámec.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

head(count)

Parametry

count: int

Vyžadováno

Počet záznamů, které se mají vyžádat.

Návraty

Datový rámec Pandas.

Návratový typ

DataFrame

list

Vypište všechny datové sady v pracovním prostoru, včetně těch, které mají is_visible vlastnost rovnající se false.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Doporučujeme místo toho použít get_all . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

static list(workspace)

Parametry

workspace: Workspace

Vyžadováno

Pracovní prostor, pro který chcete načíst seznam datových sad.

Návraty

Seznam objektů datové sady.

Návratový typ

list[Dataset]

reactivate

Opětovná aktivace archivované nebo zastaralé datové sady

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

reactivate()

Návraty

Žádné

Návratový typ

None

register

Zaregistrujte datovou sadu v pracovním prostoru a zpřístupníte ji ostatním uživatelům pracovního prostoru.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Doporučujeme místo toho použít register . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parametry

workspace: Workspace

Vyžadováno

Pracovní prostor AzureML, ve kterém se datová sada má zaregistrovat.

name: str

Vyžadováno

Název datové sady v pracovním prostoru.

description: str

Vyžadováno

Popis datové sady.

tags: dict[str, str]

Vyžadováno

Značky, které chcete přidružit k datové sadě.

visible: bool

Vyžadováno

Označuje, jestli je datová sada viditelná v uživatelském rozhraní. Pokud je false, datová sada je v uživatelském rozhraní skrytá a dostupná prostřednictvím sady SDK.

exist_ok: bool

Vyžadováno

Pokud je true, vrátí metoda datovou sadu, pokud již v daném pracovním prostoru existuje, jinak chyba.

update_if_exist: bool

Vyžadováno

Pokud exist_ok je true a update_if_exist true, tato metoda aktualizuje definici a vrátí aktualizovanou datovou sadu.

Návraty

Zaregistrovaný objekt Datové sady v pracovním prostoru.

Návratový typ

Dataset

sample

Vygenerujte novou ukázku ze zdrojové datové sady pomocí strategie vzorkování a zadaných parametrů.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Vytvořte metodu TabularDataset voláním statických metod na Dataset.Tabular a použijte metodu tam take_sample . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parametry

sample_strategy: str

Vyžadováno

Ukázková strategie, která se má použít. Akceptované hodnoty jsou "top_n", "simple_random" nebo "stratified".

arguments: dict[str, object]

Vyžadováno

Slovník s klíči z volitelného argumentu v seznamu uvedeném výše a hodnotami ze sloupce Typ. Lze použít pouze argumenty z odpovídající metody vzorkování. Například pro typ vzorku "simple_random" můžete zadat pouze slovník s klíči "pravděpodobnost" a "počáteční".

Návraty

Objekt datové sady jako ukázka původní datové sady.

Návratový typ

Dataset

Poznámky

Ukázky se vygenerují spuštěním transformačního kanálu definovaného touto datovou sadou a následným použitím strategie vzorkování a parametrů na výstupní data. Každá metoda vzorkování podporuje následující volitelné argumenty:

top_n
- Volitelné argumenty
  - n, zadejte celé číslo. Jako ukázku vyberte prvních N řádků.
simple_random
- Volitelné argumenty
  - pravděpodobnost, typ float. Jednoduchý náhodný vzorkování, kde každý řádek má stejnou pravděpodobnost výběru. Pravděpodobnost by měla být číslo mezi 0 a 1.
  - seed, napište float. Používá se generátorem náhodných čísel. Použijte pro opakovatelnost.
Rozvrstvené
- Volitelné argumenty
  - columns, type list[str]. Seznam sloupců vrstev v datech
  - seed, napište float. Používá se generátorem náhodných čísel. Použijte pro opakovatelnost.
  - zlomky, typ dict[řazená kolekce členů, float]. Řazená kolekce členů: Hodnoty sloupců, které definují vrstvu, musí být ve stejném pořadí jako názvy sloupců. Float: hmotnost připevněná k vrstvě během vzorkování.

Následující fragmenty kódu jsou příkladem vzorů návrhu pro různé ukázkové metody.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Vytvořte datový rámec Pandas spuštěním transformačního kanálu definovaného touto definicí datové sady.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Vytvořte metodu TabularDataset voláním statických metod na Dataset.Tabular a použijte metodu tam to_pandas_dataframe . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Návraty

Datový rámec Pandas.

Návratový typ

DataFrame

Poznámky

Vrátí plně materializovaný datový rámec Pandas v paměti.

to_spark_dataframe

Vytvořte datový rámec Sparku, který může spustit transformační kanál definovaný touto definicí datové sady.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Vytvořte metodu TabularDataset voláním statických metod na Dataset.Tabular a použijte metodu tam to_spark_dataframe . Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Návraty

Datový rámec Sparku.

Návratový typ

DataFrame

Poznámky

Vrácený datový rámec Sparku je pouze plán provádění a ve skutečnosti neobsahuje žádná data, protože datové rámce Sparku se líně vyhodnocují.

update

Aktualizujte atributy proměnlivé datové sady v pracovním prostoru a vraťte aktualizovanou datovou sadu z pracovního prostoru.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parametry

name: str

Vyžadováno

Název datové sady v pracovním prostoru.

description: str

Vyžadováno

Popis dat.

tags: dict[str, str]

Vyžadováno

Značky, ke kterým chcete datovou sadu přidružit.

visible: bool

Vyžadováno

Označuje, jestli je datová sada viditelná v uživatelském rozhraní.

Návraty

Aktualizovaný objekt Datové sady z pracovního prostoru.

Návratový typ

Dataset

update_definition

Aktualizujte definici datové sady.

Poznámka

Tato metoda je zastaralá a už nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parametry

definition: DatasetDefinition

Vyžadováno

Nová definice této datové sady.

definition_update_message: str

Vyžadováno

Zpráva o aktualizaci definice

Návraty

Aktualizovaný objekt Datové sady z pracovního prostoru.

Návratový typ

Dataset

Poznámky

Pokud chcete využívat aktualizovanou datovou sadu, použijte objekt vrácený touto metodou.

Atributy

definition

Vrátí aktuální definici datové sady.

Poznámka

Tato metoda je zastaralá a již nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

Návraty

Definice datové sady

Návratový typ

DatasetDefinition

Poznámky

Definice datové sady je řada kroků, které určují, jak číst a transformovat data.

Datová sada zaregistrovaná v pracovním prostoru AzureML může mít několik definic vytvořených voláním update_definition. Každá definice má jedinečný identifikátor. Více definic vám umožní provádět změny v existujících datových sadách, aniž byste museli narušovat modely a kanály, které závisí na starší definici.

Pro neregistrované datové sady existuje pouze jedna definice.

definition_version

Vrátí verzi aktuální definice datové sady.

Poznámka

Tato metoda je zastaralá a již nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

Návraty

Verze definice datové sady.

Návratový typ

str

Poznámky

Definice datové sady je řada kroků, které určují, jak číst a transformovat data.

Datová sada zaregistrovaná v pracovním prostoru AzureML může mít několik definic vytvořených voláním update_definition. Každá definice má jedinečný identifikátor. Aktuální definice je poslední vytvořená definice, jejíž ID se vrátí.

Pro neregistrované datové sady existuje pouze jedna definice.

description

Vrátí popis datové sady.

Návraty

Popis datové sady.

Návratový typ

str

Poznámky

Zadání popisu dat v datové sadě umožní uživatelům pracovního prostoru pochopit, co data představují a jak je můžou používat.

id

Pokud byla datová sada zaregistrovaná v pracovním prostoru, vraťte ID datové sady. V opačném případě vrátí hodnotu None(Žádný).

Návraty

ID datové sady.

Návratový typ

str

is_visible

Řízení viditelnosti registrované datové sady v uživatelském rozhraní pracovního prostoru Azure ML

Poznámka

Tato metoda je zastaralá a již nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

Návraty

Viditelnost datové sady.

Návratový typ

bool

Poznámky

Vrácené hodnoty:

True: Datová sada je viditelná v uživatelském rozhraní pracovního prostoru. Default (Výchozí).
Nepravda: Datová sada je v uživatelském rozhraní pracovního prostoru skrytá.

Nemá žádný vliv na neregistrované datové sady.

name

Vrátí název datové sady.

Návraty

Název datové sady.

Návratový typ

str

state

Vrátí stav datové sady.

Poznámka

Tato metoda je zastaralá a již nebude podporována.

Další informace naleznete v tématu https://aka.ms/dataset-deprecation.

Návraty

Stav datové sady.

Návratový typ

str

Poznámky

Význam a účinek stavů jsou následující:

Aktivní. Aktivní definice jsou přesně to, co zní. Všechny akce se dají provádět s aktivními definicemi.
Zastaralé je možné použít definici, ale při každém přístupu k podkladovým datům se do protokolů zaprotokoluje upozornění.
Archivované. Archivovanou definici nelze použít k provedení žádné akce. Pokud chcete s archivovanou definicí provádět akce, musí se znovu aktivovat.

workspace

Pokud byla datová sada zaregistrovaná v pracovním prostoru, vraťte ji. V opačném případě vrátí hodnotu None(Žádný).

Návraty

Pracovní prostor.

Návratový typ

Workspace

Tabular

Objekt pro vytváření FileDataset

alias pro TabularDatasetFactory

Sdílet prostřednictvím

Dataset Třída

Konstruktor

Parametry

Poznámky

Proměnné

Metody

archive

Návraty

Návratový typ

Poznámky

auto_read_files

Parametry

Návraty

Návratový typ

Poznámky

compare_profiles

Parametry

Návraty

Návratový typ

Poznámky

create_snapshot

Parametry

Návraty

Návratový typ

Poznámky

delete_snapshot

Parametry

Návraty

Návratový typ

Poznámky

deprecate

Parametry

Návraty

Návratový typ

Poznámky

diff

Parametry

Návraty

Návratový typ

from_binary_files

Parametry

Návraty

Návratový typ

Poznámky

from_delimited_files

Parametry

Návraty

Návratový typ

Poznámky

from_excel_files

Parametry

Návraty

Návratový typ

Poznámky

from_json_files

Parametry

Návraty

Návratový typ

from_pandas_dataframe

Parametry

Návraty

Návratový typ

Poznámky

from_parquet_files

Parametry

Návraty

Návratový typ

Poznámky

from_sql_query

Parametry

Návraty

Návratový typ

generate_profile

Parametry

Návraty

Návratový typ

Poznámky

get

Parametry