TabularDataset Klasse

Stellt ein tabellarisches Dataset dar, das in Azure Machine Learning verwendet werden soll.

Ein TabularDataset definiert eine Reihe von lazily ausgewerteten, unveränderlichen Vorgängen, um Daten aus der Datenquelle in tabellarische Darstellung zu laden. Daten werden erst aus der Quelle geladen, wenn TabularDataset zur Übermittlung von Daten aufgefordert wird.

TabularDataset wird mithilfe von Methoden wie from_delimited_files aus der TabularDatasetFactory Klasse erstellt.

Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook.

Initialisieren eines TabularDataset-Objekts.

Dieser Konstruktor soll nicht direkt aufgerufen werden. Das Dataset soll mithilfe der TabularDatasetFactory Klasse erstellt werden.

Konstruktor

TabularDataset()

Hinweise

Ein TabularDataset kann mithilfe from_* der Methoden der TabularDatasetFactory Klasse aus CSV, TSV, Parkettdateien oder SQL-Abfragen erstellt werden. Sie können Teileinstellungsvorgänge für ein TabularDataset ausführen, z. B. Teilen, Überspringen und Filtern von Datensätzen. Das Ergebnis der Untereinstellung ist immer ein oder mehrere neue TabularDataset-Objekte.

Sie können ein TabularDataset auch in andere Formate wie einen Pandas DataFrame konvertieren. Das tatsächliche Laden von Daten erfolgt, wenn TabularDataset aufgefordert wird, die Daten in einen anderen Speichermechanismus (z. B. einen Pandas Dataframe oder eine CSV-Datei) zu übermitteln.

TabularDataset kann als Eingabe einer Experimentausführung verwendet werden. Sie kann auch für den Arbeitsbereich mit einem angegebenen Namen registriert und später mit diesem Namen abgerufen werden.

Methoden

download	Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Laden Sie Dateidatenströme herunter, die vom Dataset definiert wurden, in den lokalen Pfad.
drop_columns	Legen Sie die angegebenen Spalten aus dem Dataset ab. Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.
filter	Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Filtern Sie die Daten, und lassen Sie nur die Datensätze zurück, die mit dem angegebenen Ausdruck übereinstimmen.
get_profile	Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Abrufen des Datenprofils aus der neuesten Profilausführung, die für dieses oder dasselbe Dataset im Arbeitsbereich übermittelt wurde.
get_profile_runs	Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Zurückgeben vorheriger Profilausführungen, die diesem oder demselben Dataset im Arbeitsbereich zugeordnet sind.
keep_columns	Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab. Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.
mount	Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Erstellen Sie einen Kontext-Manager für die Bereitstellung von Dateistreams, die vom Dataset als lokale Dateien definiert sind.
partition_by	Partitionierte Daten werden kopiert und an das ziel angegebene Ziel ausgegeben. erstellen Sie das Dataset aus dem ausgegebenen Datenpfad mit Partitionsformat, registrieren Sie das Dataset, falls Name angegeben wird, geben Sie das Dataset für den neuen Datenpfad mit Partitionen zurück. `ds = Dataset.get_by_name('test') # indexed by country, state, partition_date # #1: call partition_by locally new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'], target=DataPath(datastore, "repartition")) partition_keys = newds.partition_keys # ['country'] # new_ds can be passed to PRS as input dataset`
random_split	Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz. Das erste Dataset enthält ungefähr `percentage` die Gesamtdatensätze und das zweite Dataset, die verbleibenden Datensätze.
skip	Überspringen Sie Datensätze vom Anfang des Datasets durch die angegebene Anzahl.
submit_profile_run	Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Senden Sie eine Experimentierausführung zum Berechnen des Datenprofils. Ein Datenprofil kann sehr nützlich sein, um die Eingabedaten zu verstehen, Anomalien und fehlende Werte zu identifizieren, indem nützliche Informationen zu den Daten wie Spaltentyp, fehlenden Werten usw. bereitgestellt werden.
take	Nehmen Sie ein Beispiel von Datensätzen vom Anfang des Datasets durch die angegebene Anzahl.
take_sample	Nehmen Sie eine zufällige Stichprobe von Datensätzen im Dataset ungefähr nach der angegebenen Wahrscheinlichkeit.
time_after	Filter TabularDataset mit Zeitstempelspalten nach einer angegebenen Startzeit.
time_before	Filter TabularDataset mit Zeitstempelspalten vor einer angegebenen Endzeit.
time_between	Filter TabularDataset zwischen einer angegebenen Start- und Endzeit.
time_recent	Filter TabularDataset, um nur die angegebene Dauer (Menge) der zuletzt verwendeten Daten zu enthalten.
to_csv_files	Konvertieren Sie das aktuelle Dataset in ein FileDataset, das CSV-Dateien enthält. Das resultierende Dataset enthält eine oder mehrere CSV-Dateien, die jeweils einer Partition von Daten aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.
to_dask_dataframe	Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Gibt einen Dask DataFrame zurück, der die Daten im Dataset lazily lesen kann.
to_pandas_dataframe	Laden Sie alle Datensätze aus dem Dataset in einen Pandas DataFrame.
to_parquet_files	Konvertieren Sie das aktuelle Dataset in ein FileDataset mit Parkettdateien. Das resultierende Dataset enthält eine oder mehrere Parkettdateien, die jeweils einer Datenpartition aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.
to_spark_dataframe	Laden Sie alle Datensätze aus dem Dataset in einen Spark DataFrame.
with_timestamp_columns	Definieren Sie Zeitstempelspalten für das Dataset.

download

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Laden Sie Dateidatenströme herunter, die vom Dataset definiert wurden, in den lokalen Pfad.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parameter

Name	Beschreibung
stream_column Erforderlich	str Die herunterzuladende Datenstromspalte.
target_path Erforderlich	str Das lokale Verzeichnis, in das die Dateien heruntergeladen werden sollen. Wenn keine, werden die Daten in ein temporäres Verzeichnis heruntergeladen.
overwrite Erforderlich	bool Gibt an, ob vorhandene Dateien überschrieben werden sollen. Der Standardwert ist False. Vorhandene Dateien werden überschrieben, wenn "Überschreiben" auf "True" festgelegt ist. andernfalls wird eine Ausnahme ausgelöst.
ignore_not_found Erforderlich	bool Gibt an, ob das Herunterladen fehlschlägt, wenn einige Dateien, auf die das Dataset verweist, nicht gefunden werden. Der Standardwert ist True. Der Download schlägt fehl, wenn ein Dateidownload aus irgendeinem Grund fehlschlägt, wenn ignore_not_found auf "False" festgelegt ist. andernfalls wird eine Warnung für nicht gefundene Fehler protokolliert, und das Dowload wird erfolgreich ausgeführt, solange keine anderen Fehlertypen aufgetreten sind.

Gibt zurück

Typ	Beschreibung
ndarray	Gibt ein Array von Dateipfaden für jede heruntergeladene Datei zurück.

drop_columns

Legen Sie die angegebenen Spalten aus dem Dataset ab.

Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.

drop_columns(columns)

Parameter

Name	Beschreibung
columns Erforderlich	Union[str, list[str]] Der Name oder eine Liste mit Namen für die spalten, die gelöscht werden sollen.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset -Objekt zurück, wobei die angegebenen Spalten gelöscht wurden.

filter

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Filtern Sie die Daten, und lassen Sie nur die Datensätze zurück, die mit dem angegebenen Ausdruck übereinstimmen.

filter(expression)

Parameter

Name	Beschreibung
expression Erforderlich	any Der auszuwertende Ausdruck.

Gibt zurück

Typ	Beschreibung
TabularDataset	Das geänderte Dataset (nicht registriert).

Hinweise

Ausdrücke werden durch Indizieren des Datasets mit dem Namen einer Spalte gestartet. Sie unterstützen eine Vielzahl von Funktionen und Operatoren und können mit logischen Operatoren kombiniert werden. Der resultierende Ausdruck wird für jeden Datensatz lazis ausgewertet, wenn ein Datenziehen auftritt und nicht, wo er definiert ist.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Abrufen des Datenprofils aus der neuesten Profilausführung, die für dieses oder dasselbe Dataset im Arbeitsbereich übermittelt wurde.

get_profile(workspace=None)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der Arbeitsbereich, in dem die Profilausführung übermittelt wurde. Standardmäßig wird der Arbeitsbereich dieses Datasets verwendet. Erforderlich, wenn das Dataset keinem Arbeitsbereich zugeordnet ist. Weitere Informationen zu Arbeitsbereichen finden Sie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace unter.

Gibt zurück

Typ	Beschreibung
DatasetProfile	Profilergebnis aus der neuesten Profilausführung vom Typ "DatasetProfile".

get_profile_runs

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Zurückgeben vorheriger Profilausführungen, die diesem oder demselben Dataset im Arbeitsbereich zugeordnet sind.

get_profile_runs(workspace=None)

Parameter

Name	Beschreibung
workspace Erforderlich	Workspace Der Arbeitsbereich, in dem die Profilausführung übermittelt wurde. Standardmäßig wird der Arbeitsbereich dieses Datasets verwendet. Erforderlich, wenn das Dataset keinem Arbeitsbereich zugeordnet ist. Weitere Informationen zu Arbeitsbereichen finden Sie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace unter.

Gibt zurück

Typ	Beschreibung
iter(Run)	iterator-Objekt vom Typ "azureml.core.Run".

keep_columns

Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab.

Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.

keep_columns(columns, validate=False)

Parameter

Name	Beschreibung
columns Erforderlich	Union[str, list[str]] Der Name oder eine Liste mit Namen für die spalten, die beibehalten werden sollen.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist False. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset -Objekt zurück, wobei nur die angegebenen Spalten beibehalten werden.

mount

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Erstellen Sie einen Kontext-Manager für die Bereitstellung von Dateistreams, die vom Dataset als lokale Dateien definiert sind.

mount(stream_column, mount_point=None)

Parameter

Name	Beschreibung
stream_column Erforderlich	str Die Streamspalte, die bereitgestellt werden soll.
mount_point Erforderlich	str Das lokale Verzeichnis, in das die Dateien bereitgestellt werden sollen. If None, the data will be mounted into a temporary directory, which you can find by calling the MountContext.mount_point instance method.

Gibt zurück

Typ	Beschreibung
<xref:azureml.dataprep.fuse.daemon.MountContext>	Gibt einen Kontext-Manager zum Verwalten des Lebenszyklus der Bereitstellung zurück.

partition_by

Partitionierte Daten werden kopiert und an das ziel angegebene Ziel ausgegeben.

erstellen Sie das Dataset aus dem ausgegebenen Datenpfad mit Partitionsformat, registrieren Sie das Dataset, falls Name angegeben wird, geben Sie das Dataset für den neuen Datenpfad mit Partitionen zurück.


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset

partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parameter

Name	Beschreibung
partition_keys Erforderlich	list[str] Erforderlich, Partitionsschlüssel
target Erforderlich	DataPath, Datastore oder tuple(Datastore, str) object Erforderlich, der Datenspeicherpfad, in den die Datenrahmen-Parkettdaten hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.
name Erforderlich	str Optional, Der Registrierungsname.
show_progress Erforderlich	bool Optional, gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Standardwert ist "True".
partition_as_file_dataset Erforderlich	Optional, gibt an, ob ein Filedataset zurückgegeben wird oder nicht. Standardwert ist "False".

Gibt zurück

Typ	Beschreibung
TabularDataset	Das gespeicherte oder registrierte Dataset.

random_split

Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz.

Das erste Dataset enthält ungefähr percentage die Gesamtdatensätze und das zweite Dataset, die verbleibenden Datensätze.

random_split(percentage, seed=None)

Parameter

Name	Beschreibung
percentage Erforderlich	float Der ungefähre Prozentsatz, um das Dataset aufzuteilen nach. Dies muss eine Zahl zwischen 0,0 und 1,0 sein.
seed Erforderlich	int Optionaler Startwert, der für den Zufallsgenerator verwendet werden soll.

Gibt zurück

Typ	Beschreibung
(TabularDataset, TabularDataset)	Gibt ein Tupel neuer TabularDataset -Objekte zurück, die die beiden Datasets nach der Aufteilung darstellen.

skip

Überspringen Sie Datensätze vom Anfang des Datasets durch die angegebene Anzahl.

skip(count)

Parameter

Name	Beschreibung
count Erforderlich	int Die Anzahl der zu überspringenden Datensätze.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset -Objekt zurück, das ein Dataset mit übersprungenen Datensätzen darstellt.

submit_profile_run

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Senden Sie eine Experimentierausführung zum Berechnen des Datenprofils.

Ein Datenprofil kann sehr nützlich sein, um die Eingabedaten zu verstehen, Anomalien und fehlende Werte zu identifizieren, indem nützliche Informationen zu den Daten wie Spaltentyp, fehlenden Werten usw. bereitgestellt werden.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parameter

Name	Beschreibung
compute_target Erforderlich	Union[str, ComputeTarget] Das Computeziel zum Ausführen des Profilberechnungsexperiments. Geben Sie "local" an, um die lokale Berechnung zu verwenden. Weitere Informationen zu Computezielen finden Sie unter.See https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget for more information on compute targets.
experiment Erforderlich	Experiment Das Experimentobjekt. Weitere Informationen zu Experimenten finden Sie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment unter.
cache_datastore_name Erforderlich	str der Name des Datenspeichers zum Speichern des Profilcaches, wenn keine, der Standarddatenspeicher verwendet wird.

Gibt zurück

Typ	Beschreibung
DatasetProfileRun	Ein Objekt vom Typ "DatasetProfileRun".

take

Nehmen Sie ein Beispiel von Datensätzen vom Anfang des Datasets durch die angegebene Anzahl.

take(count)

Parameter

Name	Beschreibung
count Erforderlich	int Die Anzahl der zu übernehmenden Datensätze.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset -Objekt zurück, das das beispielierte Dataset darstellt.

take_sample

Nehmen Sie eine zufällige Stichprobe von Datensätzen im Dataset ungefähr nach der angegebenen Wahrscheinlichkeit.

take_sample(probability, seed=None)

Parameter

Name	Beschreibung
probability Erforderlich	float Die Wahrscheinlichkeit eines Datensatzes, der in die Stichprobe einbezogen wird.
seed Erforderlich	int Optionaler Startwert, der für den Zufallsgenerator verwendet werden soll.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset -Objekt zurück, das das beispielierte Dataset darstellt.

time_after

Filter TabularDataset mit Zeitstempelspalten nach einer angegebenen Startzeit.

time_after(start_time, include_boundary=True, validate=True)

Parameter

Name	Beschreibung
start_time Erforderlich	datetime Die untere Grenze zum Filtern von Daten.
include_boundary Erforderlich	bool Geben Sie an, ob die Zeile, die der Begrenzungszeit (`start_time`) zugeordnet ist, enthalten sein soll.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Ein TabularDataset mit dem neuen gefilterten Dataset.

time_before

Filter TabularDataset mit Zeitstempelspalten vor einer angegebenen Endzeit.

time_before(end_time, include_boundary=True, validate=True)

Parameter

Name	Beschreibung
end_time Erforderlich	datetime Obere Grenze zum Filtern von Daten.
include_boundary Erforderlich	bool Geben Sie an, ob die Zeile, die der Begrenzungszeit (`end_time`) zugeordnet ist, enthalten sein soll.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Ein TabularDataset mit dem neuen gefilterten Dataset.

time_between

Filter TabularDataset zwischen einer angegebenen Start- und Endzeit.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parameter

Name	Beschreibung
start_time Erforderlich	datetime Die untere Grenze zum Filtern von Daten.
end_time Erforderlich	datetime Die obere Grenze zum Filtern von Daten.
include_boundary Erforderlich	bool Geben Sie an, ob die Zeile, die der Begrenzungszeit (`start_end` und `end_time`) zugeordnet ist, eingeschlossen werden soll.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Ein TabularDataset mit dem neuen gefilterten Dataset.

time_recent

Filter TabularDataset, um nur die angegebene Dauer (Menge) der zuletzt verwendeten Daten zu enthalten.

time_recent(time_delta, include_boundary=True, validate=True)

Parameter

Name	Beschreibung
time_delta Erforderlich	timedelta Die Dauer (Menge) der zuletzt abzurufenden Daten.
include_boundary Erforderlich	bool Geben Sie an, ob die Zeile, die der Begrenzungszeit (`time_delta`) zugeordnet ist, enthalten sein soll.
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Ein TabularDataset mit dem neuen gefilterten Dataset.

to_csv_files

Konvertieren Sie das aktuelle Dataset in ein FileDataset, das CSV-Dateien enthält.

Das resultierende Dataset enthält eine oder mehrere CSV-Dateien, die jeweils einer Partition von Daten aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.

to_csv_files(separator=',')

Parameter

Name	Beschreibung
separator Erforderlich	str Das Trennzeichen, das zum Trennen von Werten in der resultierenden Datei verwendet werden soll.

Gibt zurück

Typ	Beschreibung
FileDataset	Gibt ein neues FileDataset -Objekt mit einer Gruppe von CSV-Dateien zurück, die die Daten in diesem Dataset enthalten.

to_dask_dataframe

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Gibt einen Dask DataFrame zurück, der die Daten im Dataset lazily lesen kann.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parameter

Name	Beschreibung
sample_size Erforderlich	Die Anzahl der zu lesenden Datensätze, um Schema und Typen zu bestimmen.
dtypes Erforderlich	Ein optionales Diktat, das die erwarteten Spalten und deren Dtypes angibt. sample_size wird ignoriert, wenn dies angegeben wird.
on_error Erforderlich	Behandeln von Fehlerwerten im Dataset, z. B. von Fehlern beim Analysieren von Werten. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt.
out_of_range_datetime Erforderlich	Behandeln von Datums-/Uhrzeitwerten außerhalb des bereichs, der von Pandas unterstützt wird. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt.

Gibt zurück

Typ	Beschreibung
	dask.dataframe.core.DataFrame

to_pandas_dataframe

Laden Sie alle Datensätze aus dem Dataset in einen Pandas DataFrame.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parameter

Name	Beschreibung
on_error Erforderlich	Behandeln von Fehlerwerten im Dataset, z. B. von Fehlern beim Analysieren von Werten. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt.
out_of_range_datetime Erforderlich	Behandeln von Datums-/Uhrzeitwerten außerhalb des bereichs, der von Pandas unterstützt wird. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt.

Gibt zurück

Typ	Beschreibung
DataFrame	Gibt einen Pandas DataFrame zurück.

to_parquet_files

Konvertieren Sie das aktuelle Dataset in ein FileDataset mit Parkettdateien.

Das resultierende Dataset enthält eine oder mehrere Parkettdateien, die jeweils einer Datenpartition aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.

to_parquet_files()

Gibt zurück

Typ	Beschreibung
FileDataset	Gibt ein neues FileDataset -Objekt mit einer Reihe von Parkettdateien zurück, die die Daten in diesem Dataset enthalten.

to_spark_dataframe

Laden Sie alle Datensätze aus dem Dataset in einen Spark DataFrame.

to_spark_dataframe()

Gibt zurück

Typ	Beschreibung
DataFrame	Gibt einen Spark DataFrame zurück.

with_timestamp_columns

Definieren Sie Zeitstempelspalten für das Dataset.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parameter

Name	Beschreibung
timestamp Erforderlich	str Der Name der Spalte als Zeitstempel (wird als fine_grain_timestamp bezeichnet) (optional). Der Standardwert ist None(clear).
partition_timestamp Erforderlich	str Der Name der Spalte partition_timestamp (wird als grobkörniger Zeitstempel bezeichnet) (optional). Der Standardwert ist None(clear).
validate Erforderlich	bool Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist False. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ	Beschreibung
TabularDataset	Gibt ein neues TabularDataset mit definierten Zeitstempelspalten zurück.

Hinweise

Die Methode definiert Spalten, die als Zeitstempel verwendet werden sollen. Zeitstempelspalten in einem Dataset ermöglichen es, die Daten als Datenreihendaten zu behandeln und zusätzliche Funktionen zu ermöglichen. Wenn ein Dataset sowohl als timestamp (used to be referred as fine_grain_timestamp) auch partition_timestamp (used to be referred as coarse grain timestamp) angegeben ist, sollten die beiden Spalten die gleiche Zeitachse darstellen.

Attribute

timestamp_columns

Gibt die Zeitstempelspalten zurück.

Gibt zurück

Typ	Beschreibung
(str, str)	Die Spaltennamen für den Zeitstempel (wird als fine_grain_timestamp bezeichnet) und partition_timestamp (wird für das Dataset als grobkörniger Zeitstempel bezeichnet) definiert.

Freigeben über

TabularDataset Klasse

Konstruktor

Hinweise

Methoden

download

Parameter

Gibt zurück

drop_columns

Parameter

Gibt zurück

filter

Parameter

Gibt zurück

Hinweise

get_profile

Parameter

Gibt zurück

get_profile_runs

Parameter

Gibt zurück

keep_columns

Parameter

Gibt zurück

mount

Parameter

Gibt zurück

partition_by

Parameter

Gibt zurück

random_split

Parameter

Gibt zurück

skip

Parameter

Gibt zurück

submit_profile_run

Parameter

Gibt zurück

take

Parameter

Gibt zurück

take_sample

Parameter

Gibt zurück

time_after

Parameter

Gibt zurück

time_before

Parameter

Gibt zurück

time_between

Parameter

Gibt zurück

time_recent

Parameter

Gibt zurück

to_csv_files

Parameter

Gibt zurück

to_dask_dataframe

Parameter

Gibt zurück

to_pandas_dataframe

Parameter

Gibt zurück

to_parquet_files

Gibt zurück

to_spark_dataframe

Gibt zurück

with_timestamp_columns

Parameter

Gibt zurück

Hinweise

Attribute

timestamp_columns

Gibt zurück

Feedback