TabularDataset Klas

Vertegenwoordigt een tabellaire gegevensset die moet worden gebruikt in Azure Machine Learning.

Een TabularDataset definieert een reeks lazily-geëvalueerde, onveranderbare bewerkingen om gegevens uit de gegevensbron in tabelvorm te laden. Gegevens worden pas vanuit de bron geladen als TabularDataset wordt gevraagd om gegevens te leveren.

TabularDataset wordt gemaakt met behulp van methoden zoals from_delimited_files uit de TabularDatasetFactory klasse.

Zie het artikel Gegevenssets toevoegen en registreren voor meer informatie. Als u aan de slag wilt gaan met een gegevensset in tabelvorm, raadpleegt https://aka.ms/tabulardataset-samplenotebooku .

Initialiseer een TabularDataset-object.

Deze constructor mag niet rechtstreeks worden aangeroepen. De gegevensset is bedoeld om te worden gemaakt met behulp van TabularDatasetFactory klasse.

Constructor

TabularDataset()

Opmerkingen

Een TabularDataset kan worden gemaakt op basis van CSV-, TSV-, Parquet-bestanden of SQL-query's met behulp van de from_* methoden van de TabularDatasetFactory klasse. U kunt subsetbewerkingen uitvoeren op een TabularDataset, zoals splitsen, overslaan en filteren van records. Het resultaat van subsetting is altijd een of meer nieuwe TabularDataset-objecten.

U kunt een TabularDataset ook converteren naar andere indelingen, zoals een Pandas DataFrame. De werkelijke gegevens worden geladen wanneer TabularDataset wordt gevraagd om de gegevens in een ander opslagmechanisme te leveren (bijvoorbeeld een Pandas Dataframe of een CSV-bestand).

TabularDataset kan worden gebruikt als invoer van een experimentuitvoering. Het kan ook worden geregistreerd bij de werkruimte met een opgegeven naam en later worden opgehaald door die naam.

Methoden

download	Opmerking Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie. Download bestandsstromen die zijn gedefinieerd door de gegevensset naar het lokale pad.
drop_columns	Verwijder de opgegeven kolommen uit de gegevensset. Als een tijdreekskolom wordt verwijderd, worden de bijbehorende mogelijkheden ook verwijderd voor de geretourneerde gegevensset.
filter	Opmerking Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie. Filter de gegevens en laat alleen de records die overeenkomen met de opgegeven expressie.
get_profile	Opmerking Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie. Gegevensprofiel ophalen uit de meest recente profieluitvoering die is ingediend voor deze of dezelfde gegevensset in de werkruimte.
get_profile_runs	Opmerking Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie. Retourneer vorige profieluitvoeringen die zijn gekoppeld aan deze of dezelfde gegevensset in de werkruimte.
keep_columns	Behoud de opgegeven kolommen en laat alle andere kolommen uit de gegevensset vallen. Als een tijdreekskolom wordt verwijderd, worden de bijbehorende mogelijkheden ook verwijderd voor de geretourneerde gegevensset.
mount	Opmerking Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie. Maak een contextbeheer voor het koppelen van bestandsstromen die door de gegevensset zijn gedefinieerd als lokale bestanden.
partition_by	Gepartitioneerde gegevens worden gekopieerd en uitgevoerd naar het doel dat is opgegeven door het doel. maak de gegevensset op basis van het uitvoergegevenspad met partitieindeling, registreer de gegevensset als de naam is opgegeven, retourneer de gegevensset voor het nieuwe gegevenspad met partities `ds = Dataset.get_by_name('test') # indexed by country, state, partition_date # #1: call partition_by locally new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition")) partition_keys = newds.partition_keys # ['country'] # new_ds can be passed to PRS as input dataset`
random_split	Splits records in de gegevensset willekeurig en ongeveer op basis van het opgegeven percentage. De eerste gegevensset bevat ongeveer `percentage` van de totale records en de tweede gegevensset de resterende records.
skip	Sla records over van boven aan de gegevensset op basis van het opgegeven aantal.
submit_profile_run	Opmerking Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie. Verzend een experimenteeruitvoering om het gegevensprofiel te berekenen. Een gegevensprofiel kan zeer nuttig zijn om inzicht te hebben in de invoergegevens, afwijkingen en ontbrekende waarden te identificeren door nuttige informatie te verstrekken over de gegevens zoals het kolomtype, ontbrekende waarden, enzovoort.
take	Neem een voorbeeld van records boven aan de gegevensset op basis van het opgegeven aantal.
take_sample	Neem een willekeurige steekproef van records in de gegevensset op ongeveer basis van de opgegeven waarschijnlijkheid.
time_after	Filter TabularDataset met tijdstempelkolommen na een opgegeven begintijd.
time_before	Filter TabularDataset met tijdstempelkolommen vóór een opgegeven eindtijd.
time_between	Filter TabularDataset tussen een opgegeven begin- en eindtijd.
time_recent	Filter TabularDataset om alleen de opgegeven duur (hoeveelheid) recente gegevens te bevatten.
to_csv_files	Converteer de huidige gegevensset naar een FileDataset met CSV-bestanden. De resulterende gegevensset bevat een of meer CSV-bestanden, die elk overeenkomen met een partitie met gegevens uit de huidige gegevensset. Deze bestanden worden pas gerealiseerd als ze worden gedownload of gelezen.
to_dask_dataframe	Opmerking Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie. Retourneert een Dask DataFrame dat de gegevens in de gegevensset lazily kan lezen.
to_pandas_dataframe	Laad alle records uit de gegevensset in een Pandas DataFrame.
to_parquet_files	Converteer de huidige gegevensset naar een FileDataset die Parquet-bestanden bevat. De resulterende gegevensset bevat een of meer Parquet-bestanden, die elk overeenkomen met een partitie met gegevens uit de huidige gegevensset. Deze bestanden worden pas gerealiseerd als ze worden gedownload of gelezen.
to_spark_dataframe	Laad alle records uit de gegevensset in een Spark DataFrame.
with_timestamp_columns	Definieer tijdstempelkolommen voor de gegevensset.

download

Opmerking

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie.

Download bestandsstromen die zijn gedefinieerd door de gegevensset naar het lokale pad.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parameters

Name	Description
stream_column Vereist	str De streamkolom die moet worden gedownload.
target_path Vereist	str De lokale map waarin u de bestanden wilt downloaden. Als geen, worden de gegevens gedownload naar een tijdelijke map.
overwrite Vereist	bool Hiermee wordt aangegeven of bestaande bestanden moeten worden overschreven. De standaardwaarde is Onwaar. Bestaande bestanden worden overschreven als overschrijven is ingesteld op True; anders wordt er een uitzondering gegenereerd.
ignore_not_found Vereist	bool Hiermee wordt aangegeven of het downloaden mislukt als sommige bestanden die door de gegevensset worden verwezen, niet worden gevonden. De standaardwaarde is Waar. Downloaden mislukt als het downloaden van bestanden om welke reden dan ook mislukt als ignore_not_found is ingesteld op False; anders wordt een waring geregistreerd voor niet-gevonden fouten en dowload slaagt zolang er geen andere fouttypen worden aangetroffen.

Retouren

Type	Description
ndarray	Retourneert een matrix met bestandspaden voor elk gedownload bestand.

drop_columns

Verwijder de opgegeven kolommen uit de gegevensset.

Als een tijdreekskolom wordt verwijderd, worden de bijbehorende mogelijkheden ook verwijderd voor de geretourneerde gegevensset.

drop_columns(columns)

Parameters

Name	Description
columns Vereist	Union[str, list[str]] De naam of een lijst met namen voor de kolommen die moeten worden verwijderd.

Retouren

Type	Description
TabularDataset	Retourneert een nieuw TabularDataset-object waarbij de opgegeven kolommen zijn verwijderd.

filter

Opmerking

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie.

Filter de gegevens en laat alleen de records die overeenkomen met de opgegeven expressie.

filter(expression)

Parameters

Name	Description
expression Vereist	any De expressie die moet worden geëvalueerd.

Retouren

Type	Description
TabularDataset	De gewijzigde gegevensset (niet geregistreerd).

Opmerkingen

Expressies worden gestart door de gegevensset te indexeren met de naam van een kolom. Ze ondersteunen diverse functies en operators en kunnen worden gecombineerd met logische operators. De resulterende expressie wordt lazily geëvalueerd voor elke record wanneer een gegevens pull plaatsvindt en niet waar deze is gedefinieerd.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Opmerking

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie.

Gegevensprofiel ophalen uit de meest recente profieluitvoering die is ingediend voor deze of dezelfde gegevensset in de werkruimte.

get_profile(workspace=None)

Parameters

Name	Description
workspace Vereist	Workspace De werkruimte waarin het profiel is uitgevoerd, is ingediend. De standaardinstelling is de werkruimte van deze gegevensset. Vereist als de gegevensset niet is gekoppeld aan een werkruimte. Zie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace voor meer informatie over werkruimten.

Retouren

Type	Description
DatasetProfile	Profielresultaat van de meest recente profieluitvoering van het type DatasetProfile.

get_profile_runs

Opmerking

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie.

Retourneer vorige profieluitvoeringen die zijn gekoppeld aan deze of dezelfde gegevensset in de werkruimte.

get_profile_runs(workspace=None)

Parameters

Name	Description
workspace Vereist	Workspace De werkruimte waarin het profiel is uitgevoerd, is ingediend. De standaardinstelling is de werkruimte van deze gegevensset. Vereist als de gegevensset niet is gekoppeld aan een werkruimte. Zie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace voor meer informatie over werkruimten.

Retouren

Type	Description
iter(Run)	iterator-object van het type azureml.core.Run.

keep_columns

Behoud de opgegeven kolommen en laat alle andere kolommen uit de gegevensset vallen.

Als een tijdreekskolom wordt verwijderd, worden de bijbehorende mogelijkheden ook verwijderd voor de geretourneerde gegevensset.

keep_columns(columns, validate=False)

Parameters

Name	Description
columns Vereist	Union[str, list[str]] De naam of een lijst met namen voor de kolommen die u wilt behouden.
validate Vereist	bool Hiermee wordt aangegeven of er gegevens uit de geretourneerde gegevensset kunnen worden geladen. De standaardwaarde is Onwaar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanaf de huidige berekening.

Retouren

Type	Description
TabularDataset	Retourneert een nieuw TabularDataset-object met alleen de opgegeven kolommen.

mount

Opmerking

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie.

Maak een contextbeheer voor het koppelen van bestandsstromen die door de gegevensset zijn gedefinieerd als lokale bestanden.

mount(stream_column, mount_point=None)

Parameters

Name	Description
stream_column Vereist	str De stroomkolom die moet worden gekoppeld.
mount_point Vereist	str De lokale map waaraan de bestanden moeten worden gekoppeld. Als geen, worden de gegevens gekoppeld aan een tijdelijke map, die u kunt vinden door de MountContext.mount_point instantiemethode aan te roepen.

Retouren

Type	Description
<xref:azureml.dataprep.fuse.daemon.MountContext>	Retourneert een contextbeheerder voor het beheren van de levenscyclus van de koppeling.

partition_by

Gepartitioneerde gegevens worden gekopieerd en uitgevoerd naar het doel dat is opgegeven door het doel.

maak de gegevensset op basis van het uitvoergegevenspad met partitieindeling, registreer de gegevensset als de naam is opgegeven, retourneer de gegevensset voor het nieuwe gegevenspad met partities


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset

partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parameters

Name	Description
partition_keys Vereist	list[str] Vereiste partitiesleutels
target Vereist	DataPath, Datastore of tuple(Datastore, str) object Vereist, het gegevensarchiefpad waarnaar de parquet-gegevens van het dataframe worden geüpload. Er wordt een GUID-map gegenereerd onder het doelpad om conflicten te voorkomen.
name Vereist	str Optioneel, de registratienaam.
show_progress Vereist	bool Optioneel, geeft aan of de voortgang van de upload in de console moet worden weergegeven. De standaardwaarde is Waar.
partition_as_file_dataset Vereist	Optioneel, geeft aan of een filedataset wel of niet wordt geretourneerd. De standaardwaarde is Onwaar.

Retouren

Type	Description
TabularDataset	De opgeslagen of geregistreerde gegevensset.

random_split

Splits records in de gegevensset willekeurig en ongeveer op basis van het opgegeven percentage.

De eerste gegevensset bevat ongeveer percentage van de totale records en de tweede gegevensset de resterende records.

random_split(percentage, seed=None)

Parameters

Name	Description
percentage Vereist	float Het geschatte percentage waarop de gegevensset moet worden gesplitst. Dit moet een getal tussen 0,0 en 1,0 zijn.
seed Vereist	int Optioneel zaad dat moet worden gebruikt voor de willekeurige generator.

Retouren

Type	Description
(TabularDataset, TabularDataset)	Retourneert een tuple van nieuwe TabularDataset-objecten die de twee gegevenssets na de splitsing vertegenwoordigen.

skip

Sla records over van boven aan de gegevensset op basis van het opgegeven aantal.

skip(count)

Parameters

Name	Description
count Vereist	int Het aantal records dat moet worden overgeslagen.

Retouren

Type	Description
TabularDataset	Retourneert een nieuw TabularDataset-object dat een gegevensset vertegenwoordigt met records die zijn overgeslagen.

submit_profile_run

Opmerking

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie.

Verzend een experimenteeruitvoering om het gegevensprofiel te berekenen.

Een gegevensprofiel kan zeer nuttig zijn om inzicht te hebben in de invoergegevens, afwijkingen en ontbrekende waarden te identificeren door nuttige informatie te verstrekken over de gegevens zoals het kolomtype, ontbrekende waarden, enzovoort.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parameters

Name	Description
compute_target Vereist	Union[str, ComputeTarget] Het rekendoel waarop het profielberekeningsexperiment moet worden uitgevoerd. Geef 'lokaal' op voor het gebruik van lokale rekenkracht. Zie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget voor meer informatie over rekendoelen.
experiment Vereist	Experiment Het experimentobject. Zie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment voor meer informatie over experimenten.
cache_datastore_name Vereist	str de naam van het gegevensarchief voor het opslaan van de profielcache, als geen, standaardgegevensarchief wordt gebruikt

Retouren

Type	Description
DatasetProfileRun	Een object van het type DatasetProfileRun-klasse.

take

Neem een voorbeeld van records boven aan de gegevensset op basis van het opgegeven aantal.

take(count)

Parameters

Name	Description
count Vereist	int Het aantal records dat moet worden opgenomen.

Retouren

Type	Description
TabularDataset	Retourneert een nieuw TabularDataset-object dat de voorbeeldgegevensset vertegenwoordigt.

take_sample

Neem een willekeurige steekproef van records in de gegevensset op ongeveer basis van de opgegeven waarschijnlijkheid.

take_sample(probability, seed=None)

Parameters

Name	Description
probability Vereist	float De kans dat een record in de steekproef wordt opgenomen.
seed Vereist	int Optioneel zaad dat moet worden gebruikt voor de willekeurige generator.

Retouren

Type	Description
TabularDataset	Retourneert een nieuw TabularDataset-object dat de voorbeeldgegevensset vertegenwoordigt.

time_after

Filter TabularDataset met tijdstempelkolommen na een opgegeven begintijd.

time_after(start_time, include_boundary=True, validate=True)

Parameters

Name	Description
start_time Vereist	datetime De ondergrens voor het filteren van gegevens.
include_boundary Vereist	bool Geef aan of de rij die is gekoppeld aan de grenstijd (`start_time`) moet worden opgenomen.
validate Vereist	bool Hiermee wordt aangegeven of er kolommen moeten worden gevalideerd in de gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

Retouren

Type	Description
TabularDataset	Een TabularDataset met de nieuwe gefilterde gegevensset.

time_before

Filter TabularDataset met tijdstempelkolommen vóór een opgegeven eindtijd.

time_before(end_time, include_boundary=True, validate=True)

Parameters

Name	Description
end_time Vereist	datetime Bovengrens voor het filteren van gegevens.
include_boundary Vereist	bool Geef aan of de rij die is gekoppeld aan de grenstijd (`end_time`) moet worden opgenomen.
validate Vereist	bool Hiermee wordt aangegeven of er kolommen moeten worden gevalideerd in de gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

Retouren

Type	Description
TabularDataset	Een TabularDataset met de nieuwe gefilterde gegevensset.

time_between

Filter TabularDataset tussen een opgegeven begin- en eindtijd.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parameters

Name	Description
start_time Vereist	datetime De ondergrens voor het filteren van gegevens.
end_time Vereist	datetime De bovengrens voor het filteren van gegevens.
include_boundary Vereist	bool Geef aan of de rij die is gekoppeld aan de grenstijd (`start_end` en `end_time`) moet worden opgenomen.
validate Vereist	bool Hiermee wordt aangegeven of er kolommen moeten worden gevalideerd in de gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

Retouren

Type	Description
TabularDataset	Een TabularDataset met de nieuwe gefilterde gegevensset.

time_recent

Filter TabularDataset om alleen de opgegeven duur (hoeveelheid) recente gegevens te bevatten.

time_recent(time_delta, include_boundary=True, validate=True)

Parameters

Name	Description
time_delta Vereist	timedelta De duur (hoeveelheid) van recente gegevens die moeten worden opgehaald.
include_boundary Vereist	bool Geef aan of de rij die is gekoppeld aan de grenstijd (`time_delta`) moet worden opgenomen.
validate Vereist	bool Hiermee wordt aangegeven of er kolommen moeten worden gevalideerd in de gegevensset. De standaardwaarde is Waar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

Retouren

Type	Description
TabularDataset	Een TabularDataset met de nieuwe gefilterde gegevensset.

to_csv_files

Converteer de huidige gegevensset naar een FileDataset met CSV-bestanden.

De resulterende gegevensset bevat een of meer CSV-bestanden, die elk overeenkomen met een partitie met gegevens uit de huidige gegevensset. Deze bestanden worden pas gerealiseerd als ze worden gedownload of gelezen.

to_csv_files(separator=',')

Parameters

Name	Description
separator Vereist	str Het scheidingsteken dat moet worden gebruikt om waarden in het resulterende bestand te scheiden.

Retouren

Type	Description
FileDataset	Retourneert een nieuw FileDataset-object met een set CSV-bestanden die de gegevens in deze gegevensset bevatten.

to_dask_dataframe

Opmerking

Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie.

Retourneert een Dask DataFrame dat de gegevens in de gegevensset lazily kan lezen.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parameters

Name	Description
sample_size Vereist	Het aantal records dat moet worden gelezen om het schema en de typen te bepalen.
dtypes Vereist	Een optioneel dicteren waarin de verwachte kolommen en de bijbehorende dtypes worden opgegeven. sample_size wordt genegeerd als dit wordt opgegeven.
on_error Vereist	Hoe u eventuele foutwaarden in de gegevensset afhandelt, zoals die worden geproduceerd door een fout tijdens het parseren van waarden. Geldige waarden zijn 'null' die ze vervangen door null; en 'mislukken', wat resulteert in een uitzondering.
out_of_range_datetime Vereist	Datum/tijd-waarden verwerken die buiten het bereik vallen dat wordt ondersteund door Pandas. Geldige waarden zijn 'null' die ze vervangen door null; en 'mislukken', wat resulteert in een uitzondering.

Retouren

Type	Description
	dask.dataframe.core.DataFrame

to_pandas_dataframe

Laad alle records uit de gegevensset in een Pandas DataFrame.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parameters

Name	Description
on_error Vereist	Hoe u eventuele foutwaarden in de gegevensset afhandelt, zoals die worden geproduceerd door een fout tijdens het parseren van waarden. Geldige waarden zijn 'null' die ze vervangen door null; en 'mislukken', wat resulteert in een uitzondering.
out_of_range_datetime Vereist	Datum/tijd-waarden verwerken die buiten het bereik vallen dat wordt ondersteund door Pandas. Geldige waarden zijn 'null' die ze vervangen door null; en 'mislukken', wat resulteert in een uitzondering.

Retouren

Type	Description
DataFrame	Hiermee wordt een Pandas DataFrame geretourneerd.

to_parquet_files

Converteer de huidige gegevensset naar een FileDataset die Parquet-bestanden bevat.

De resulterende gegevensset bevat een of meer Parquet-bestanden, die elk overeenkomen met een partitie met gegevens uit de huidige gegevensset. Deze bestanden worden pas gerealiseerd als ze worden gedownload of gelezen.

to_parquet_files()

Retouren

Type	Description
FileDataset	Retourneert een nieuw FileDataset-object met een set Parquet-bestanden die de gegevens in deze gegevensset bevatten.

to_spark_dataframe

Laad alle records uit de gegevensset in een Spark DataFrame.

to_spark_dataframe()

Retouren

Type	Description
DataFrame	Hiermee wordt een Spark DataFrame geretourneerd.

with_timestamp_columns

Definieer tijdstempelkolommen voor de gegevensset.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parameters

Name	Description
timestamp Vereist	str De naam van kolom als tijdstempel (voorheen fine_grain_timestamp genoemd) (optioneel). De standaardwaarde is None(clear).
partition_timestamp Vereist	str De naam van kolom partition_timestamp (voorheen coarse grain timestamp genoemd) (optioneel). De standaardwaarde is None(clear).
validate Vereist	bool Hiermee wordt aangegeven of er kolommen moeten worden gevalideerd in de gegevensset. De standaardwaarde is Onwaar. Voor validatie is vereist dat de gegevensbron toegankelijk is vanuit de huidige berekening.

Retouren

Type	Description
TabularDataset	Hiermee wordt een nieuwe TabularDataset geretourneerd met tijdstempelkolommen gedefinieerd.

Opmerkingen

De methode definieert kolommen die moeten worden gebruikt als tijdstempels. Tijdstempelkolommen op een gegevensset maken het mogelijk om de gegevens als tijdreeksgegevens te behandelen en extra mogelijkheden in te schakelen. Wanneer een gegevensset beide timestamp (used to be referred as fine_grain_timestamp) en partition_timestamp (used to be referred as coarse grain timestamp) opgegeven heeft, moeten de twee kolommen dezelfde tijdlijn vertegenwoordigen.

Kenmerken

timestamp_columns

Retourneer de tijdstempelkolommen.

Retouren

Type	Description
(str, str)	De kolomnamen voor de tijdstempel (voorheen fine_grain_timestamp genoemd) en partition_timestamp (ook wel coarse grain timestamp genoemd) die zijn gedefinieerd voor de gegevensset.

Delen via

TabularDataset Klas

Constructor

Opmerkingen

Methoden

download

Parameters

Retouren

drop_columns

Parameters

Retouren

filter

Parameters

Retouren

Opmerkingen

get_profile

Parameters

Retouren

get_profile_runs

Parameters

Retouren

keep_columns

Parameters

Retouren

mount

Parameters

Retouren

partition_by

Parameters

Retouren

random_split

Parameters

Retouren

skip

Parameters

Retouren

submit_profile_run

Parameters

Retouren

take

Parameters

Retouren

take_sample

Parameters

Retouren

time_after

Parameters

Retouren

time_before

Parameters

Retouren

time_between

Parameters

Retouren

time_recent

Parameters

Retouren

to_csv_files

Parameters

Retouren

to_dask_dataframe

Parameters

Retouren

to_pandas_dataframe

Parameters

Retouren

to_parquet_files

Retouren

to_spark_dataframe

Retouren

with_timestamp_columns

Parameters

Retouren

Opmerkingen

Kenmerken

timestamp_columns

Retouren

Feedback