Freigeben über


TabularDataset Klasse

Stellt ein tabellarisches Dataset dar, das in Azure Machine Learning verwendet werden soll.

Ein TabularDataset definiert eine Reihe von lazily ausgewerteten, unveränderlichen Vorgängen, um Daten aus der Datenquelle in tabellarische Darstellung zu laden. Daten werden erst aus der Quelle geladen, wenn TabularDataset zur Übermittlung von Daten aufgefordert wird.

TabularDataset wird mithilfe von Methoden wie from_delimited_files aus der TabularDatasetFactory Klasse erstellt.

Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook.

Initialisieren eines TabularDataset-Objekts.

Dieser Konstruktor soll nicht direkt aufgerufen werden. Das Dataset soll mithilfe der TabularDatasetFactory Klasse erstellt werden.

Konstruktor

TabularDataset()

Hinweise

Ein TabularDataset kann mithilfe from_* der Methoden der TabularDatasetFactory Klasse aus CSV, TSV, Parkettdateien oder SQL-Abfragen erstellt werden. Sie können Teileinstellungsvorgänge für ein TabularDataset ausführen, z. B. Teilen, Überspringen und Filtern von Datensätzen. Das Ergebnis der Untereinstellung ist immer ein oder mehrere neue TabularDataset-Objekte.

Sie können ein TabularDataset auch in andere Formate wie einen Pandas DataFrame konvertieren. Das tatsächliche Laden von Daten erfolgt, wenn TabularDataset aufgefordert wird, die Daten in einen anderen Speichermechanismus (z. B. einen Pandas Dataframe oder eine CSV-Datei) zu übermitteln.

TabularDataset kann als Eingabe einer Experimentausführung verwendet werden. Sie kann auch für den Arbeitsbereich mit einem angegebenen Namen registriert und später mit diesem Namen abgerufen werden.

Methoden

download

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Laden Sie Dateidatenströme herunter, die vom Dataset definiert wurden, in den lokalen Pfad.

drop_columns

Legen Sie die angegebenen Spalten aus dem Dataset ab.

Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.

filter

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Filtern Sie die Daten, und lassen Sie nur die Datensätze zurück, die mit dem angegebenen Ausdruck übereinstimmen.

get_profile

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Abrufen des Datenprofils aus der neuesten Profilausführung, die für dieses oder dasselbe Dataset im Arbeitsbereich übermittelt wurde.

get_profile_runs

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Zurückgeben vorheriger Profilausführungen, die diesem oder demselben Dataset im Arbeitsbereich zugeordnet sind.

keep_columns

Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab.

Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.

mount

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Erstellen Sie einen Kontext-Manager für die Bereitstellung von Dateistreams, die vom Dataset als lokale Dateien definiert sind.

partition_by

Partitionierte Daten werden kopiert und an das ziel angegebene Ziel ausgegeben.

erstellen Sie das Dataset aus dem ausgegebenen Datenpfad mit Partitionsformat, registrieren Sie das Dataset, falls Name angegeben wird, geben Sie das Dataset für den neuen Datenpfad mit Partitionen zurück.


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
random_split

Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz.

Das erste Dataset enthält ungefähr percentage die Gesamtdatensätze und das zweite Dataset, die verbleibenden Datensätze.

skip

Überspringen Sie Datensätze vom Anfang des Datasets durch die angegebene Anzahl.

submit_profile_run

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Senden Sie eine Experimentierausführung zum Berechnen des Datenprofils.

Ein Datenprofil kann sehr nützlich sein, um die Eingabedaten zu verstehen, Anomalien und fehlende Werte zu identifizieren, indem nützliche Informationen zu den Daten wie Spaltentyp, fehlenden Werten usw. bereitgestellt werden.

take

Nehmen Sie ein Beispiel von Datensätzen vom Anfang des Datasets durch die angegebene Anzahl.

take_sample

Nehmen Sie eine zufällige Stichprobe von Datensätzen im Dataset ungefähr nach der angegebenen Wahrscheinlichkeit.

time_after

Filter TabularDataset mit Zeitstempelspalten nach einer angegebenen Startzeit.

time_before

Filter TabularDataset mit Zeitstempelspalten vor einer angegebenen Endzeit.

time_between

Filter TabularDataset zwischen einer angegebenen Start- und Endzeit.

time_recent

Filter TabularDataset, um nur die angegebene Dauer (Menge) der zuletzt verwendeten Daten zu enthalten.

to_csv_files

Konvertieren Sie das aktuelle Dataset in ein FileDataset, das CSV-Dateien enthält.

Das resultierende Dataset enthält eine oder mehrere CSV-Dateien, die jeweils einer Partition von Daten aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.

to_dask_dataframe

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Gibt einen Dask DataFrame zurück, der die Daten im Dataset lazily lesen kann.

to_pandas_dataframe

Laden Sie alle Datensätze aus dem Dataset in einen Pandas DataFrame.

to_parquet_files

Konvertieren Sie das aktuelle Dataset in ein FileDataset mit Parkettdateien.

Das resultierende Dataset enthält eine oder mehrere Parkettdateien, die jeweils einer Datenpartition aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.

to_spark_dataframe

Laden Sie alle Datensätze aus dem Dataset in einen Spark DataFrame.

with_timestamp_columns

Definieren Sie Zeitstempelspalten für das Dataset.

download

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Laden Sie Dateidatenströme herunter, die vom Dataset definiert wurden, in den lokalen Pfad.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parameter

Name Beschreibung
stream_column
Erforderlich
str

Die herunterzuladende Datenstromspalte.

target_path
Erforderlich
str

Das lokale Verzeichnis, in das die Dateien heruntergeladen werden sollen. Wenn keine, werden die Daten in ein temporäres Verzeichnis heruntergeladen.

overwrite
Erforderlich

Gibt an, ob vorhandene Dateien überschrieben werden sollen. Der Standardwert ist False. Vorhandene Dateien werden überschrieben, wenn "Überschreiben" auf "True" festgelegt ist. andernfalls wird eine Ausnahme ausgelöst.

ignore_not_found
Erforderlich

Gibt an, ob das Herunterladen fehlschlägt, wenn einige Dateien, auf die das Dataset verweist, nicht gefunden werden. Der Standardwert ist True. Der Download schlägt fehl, wenn ein Dateidownload aus irgendeinem Grund fehlschlägt, wenn ignore_not_found auf "False" festgelegt ist. andernfalls wird eine Warnung für nicht gefundene Fehler protokolliert, und das Dowload wird erfolgreich ausgeführt, solange keine anderen Fehlertypen aufgetreten sind.

Gibt zurück

Typ Beschreibung

Gibt ein Array von Dateipfaden für jede heruntergeladene Datei zurück.

drop_columns

Legen Sie die angegebenen Spalten aus dem Dataset ab.

Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.

drop_columns(columns)

Parameter

Name Beschreibung
columns
Erforderlich

Der Name oder eine Liste mit Namen für die spalten, die gelöscht werden sollen.

Gibt zurück

Typ Beschreibung

Gibt ein neues TabularDataset -Objekt zurück, wobei die angegebenen Spalten gelöscht wurden.

filter

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Filtern Sie die Daten, und lassen Sie nur die Datensätze zurück, die mit dem angegebenen Ausdruck übereinstimmen.

filter(expression)

Parameter

Name Beschreibung
expression
Erforderlich
any

Der auszuwertende Ausdruck.

Gibt zurück

Typ Beschreibung

Das geänderte Dataset (nicht registriert).

Hinweise

Ausdrücke werden durch Indizieren des Datasets mit dem Namen einer Spalte gestartet. Sie unterstützen eine Vielzahl von Funktionen und Operatoren und können mit logischen Operatoren kombiniert werden. Der resultierende Ausdruck wird für jeden Datensatz lazis ausgewertet, wenn ein Datenziehen auftritt und nicht, wo er definiert ist.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Abrufen des Datenprofils aus der neuesten Profilausführung, die für dieses oder dasselbe Dataset im Arbeitsbereich übermittelt wurde.

get_profile(workspace=None)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, in dem die Profilausführung übermittelt wurde. Standardmäßig wird der Arbeitsbereich dieses Datasets verwendet. Erforderlich, wenn das Dataset keinem Arbeitsbereich zugeordnet ist. Weitere Informationen zu Arbeitsbereichen finden Sie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace unter.

Gibt zurück

Typ Beschreibung

Profilergebnis aus der neuesten Profilausführung vom Typ "DatasetProfile".

get_profile_runs

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Zurückgeben vorheriger Profilausführungen, die diesem oder demselben Dataset im Arbeitsbereich zugeordnet sind.

get_profile_runs(workspace=None)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, in dem die Profilausführung übermittelt wurde. Standardmäßig wird der Arbeitsbereich dieses Datasets verwendet. Erforderlich, wenn das Dataset keinem Arbeitsbereich zugeordnet ist. Weitere Informationen zu Arbeitsbereichen finden Sie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace unter.

Gibt zurück

Typ Beschreibung

iterator-Objekt vom Typ "azureml.core.Run".

keep_columns

Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab.

Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.

keep_columns(columns, validate=False)

Parameter

Name Beschreibung
columns
Erforderlich

Der Name oder eine Liste mit Namen für die spalten, die beibehalten werden sollen.

validate
Erforderlich

Gibt an, ob überprüft werden soll, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist False. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ Beschreibung

Gibt ein neues TabularDataset -Objekt zurück, wobei nur die angegebenen Spalten beibehalten werden.

mount

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Erstellen Sie einen Kontext-Manager für die Bereitstellung von Dateistreams, die vom Dataset als lokale Dateien definiert sind.

mount(stream_column, mount_point=None)

Parameter

Name Beschreibung
stream_column
Erforderlich
str

Die Streamspalte, die bereitgestellt werden soll.

mount_point
Erforderlich
str

Das lokale Verzeichnis, in das die Dateien bereitgestellt werden sollen. If None, the data will be mounted into a temporary directory, which you can find by calling the MountContext.mount_point instance method.

Gibt zurück

Typ Beschreibung
<xref:azureml.dataprep.fuse.daemon.MountContext>

Gibt einen Kontext-Manager zum Verwalten des Lebenszyklus der Bereitstellung zurück.

partition_by

Partitionierte Daten werden kopiert und an das ziel angegebene Ziel ausgegeben.

erstellen Sie das Dataset aus dem ausgegebenen Datenpfad mit Partitionsformat, registrieren Sie das Dataset, falls Name angegeben wird, geben Sie das Dataset für den neuen Datenpfad mit Partitionen zurück.


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parameter

Name Beschreibung
partition_keys
Erforderlich

Erforderlich, Partitionsschlüssel

target
Erforderlich

Erforderlich, der Datenspeicherpfad, in den die Datenrahmen-Parkettdaten hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.

name
Erforderlich
str

Optional, Der Registrierungsname.

show_progress
Erforderlich

Optional, gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Standardwert ist "True".

partition_as_file_dataset
Erforderlich

Optional, gibt an, ob ein Filedataset zurückgegeben wird oder nicht. Standardwert ist "False".

Gibt zurück

Typ Beschreibung

Das gespeicherte oder registrierte Dataset.

random_split

Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz.

Das erste Dataset enthält ungefähr percentage die Gesamtdatensätze und das zweite Dataset, die verbleibenden Datensätze.

random_split(percentage, seed=None)

Parameter

Name Beschreibung
percentage
Erforderlich

Der ungefähre Prozentsatz, um das Dataset aufzuteilen nach. Dies muss eine Zahl zwischen 0,0 und 1,0 sein.

seed
Erforderlich
int

Optionaler Startwert, der für den Zufallsgenerator verwendet werden soll.

Gibt zurück

Typ Beschreibung

Gibt ein Tupel neuer TabularDataset -Objekte zurück, die die beiden Datasets nach der Aufteilung darstellen.

skip

Überspringen Sie Datensätze vom Anfang des Datasets durch die angegebene Anzahl.

skip(count)

Parameter

Name Beschreibung
count
Erforderlich
int

Die Anzahl der zu überspringenden Datensätze.

Gibt zurück

Typ Beschreibung

Gibt ein neues TabularDataset -Objekt zurück, das ein Dataset mit übersprungenen Datensätzen darstellt.

submit_profile_run

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Senden Sie eine Experimentierausführung zum Berechnen des Datenprofils.

Ein Datenprofil kann sehr nützlich sein, um die Eingabedaten zu verstehen, Anomalien und fehlende Werte zu identifizieren, indem nützliche Informationen zu den Daten wie Spaltentyp, fehlenden Werten usw. bereitgestellt werden.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parameter

Name Beschreibung
compute_target
Erforderlich

Das Computeziel zum Ausführen des Profilberechnungsexperiments. Geben Sie "local" an, um die lokale Berechnung zu verwenden. Weitere Informationen zu Computezielen finden Sie unter.See https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget for more information on compute targets.

experiment
Erforderlich

Das Experimentobjekt. Weitere Informationen zu Experimenten finden Sie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment unter.

cache_datastore_name
Erforderlich
str

der Name des Datenspeichers zum Speichern des Profilcaches, wenn keine, der Standarddatenspeicher verwendet wird.

Gibt zurück

Typ Beschreibung

Ein Objekt vom Typ "DatasetProfileRun".

take

Nehmen Sie ein Beispiel von Datensätzen vom Anfang des Datasets durch die angegebene Anzahl.

take(count)

Parameter

Name Beschreibung
count
Erforderlich
int

Die Anzahl der zu übernehmenden Datensätze.

Gibt zurück

Typ Beschreibung

Gibt ein neues TabularDataset -Objekt zurück, das das beispielierte Dataset darstellt.

take_sample

Nehmen Sie eine zufällige Stichprobe von Datensätzen im Dataset ungefähr nach der angegebenen Wahrscheinlichkeit.

take_sample(probability, seed=None)

Parameter

Name Beschreibung
probability
Erforderlich

Die Wahrscheinlichkeit eines Datensatzes, der in die Stichprobe einbezogen wird.

seed
Erforderlich
int

Optionaler Startwert, der für den Zufallsgenerator verwendet werden soll.

Gibt zurück

Typ Beschreibung

Gibt ein neues TabularDataset -Objekt zurück, das das beispielierte Dataset darstellt.

time_after

Filter TabularDataset mit Zeitstempelspalten nach einer angegebenen Startzeit.

time_after(start_time, include_boundary=True, validate=True)

Parameter

Name Beschreibung
start_time
Erforderlich

Die untere Grenze zum Filtern von Daten.

include_boundary
Erforderlich

Geben Sie an, ob die Zeile, die der Begrenzungszeit (start_time) zugeordnet ist, enthalten sein soll.

validate
Erforderlich

Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ Beschreibung

Ein TabularDataset mit dem neuen gefilterten Dataset.

time_before

Filter TabularDataset mit Zeitstempelspalten vor einer angegebenen Endzeit.

time_before(end_time, include_boundary=True, validate=True)

Parameter

Name Beschreibung
end_time
Erforderlich

Obere Grenze zum Filtern von Daten.

include_boundary
Erforderlich

Geben Sie an, ob die Zeile, die der Begrenzungszeit (end_time) zugeordnet ist, enthalten sein soll.

validate
Erforderlich

Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ Beschreibung

Ein TabularDataset mit dem neuen gefilterten Dataset.

time_between

Filter TabularDataset zwischen einer angegebenen Start- und Endzeit.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parameter

Name Beschreibung
start_time
Erforderlich

Die untere Grenze zum Filtern von Daten.

end_time
Erforderlich

Die obere Grenze zum Filtern von Daten.

include_boundary
Erforderlich

Geben Sie an, ob die Zeile, die der Begrenzungszeit (start_end und end_time) zugeordnet ist, eingeschlossen werden soll.

validate
Erforderlich

Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ Beschreibung

Ein TabularDataset mit dem neuen gefilterten Dataset.

time_recent

Filter TabularDataset, um nur die angegebene Dauer (Menge) der zuletzt verwendeten Daten zu enthalten.

time_recent(time_delta, include_boundary=True, validate=True)

Parameter

Name Beschreibung
time_delta
Erforderlich

Die Dauer (Menge) der zuletzt abzurufenden Daten.

include_boundary
Erforderlich

Geben Sie an, ob die Zeile, die der Begrenzungszeit (time_delta) zugeordnet ist, enthalten sein soll.

validate
Erforderlich

Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ Beschreibung

Ein TabularDataset mit dem neuen gefilterten Dataset.

to_csv_files

Konvertieren Sie das aktuelle Dataset in ein FileDataset, das CSV-Dateien enthält.

Das resultierende Dataset enthält eine oder mehrere CSV-Dateien, die jeweils einer Partition von Daten aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.

to_csv_files(separator=',')

Parameter

Name Beschreibung
separator
Erforderlich
str

Das Trennzeichen, das zum Trennen von Werten in der resultierenden Datei verwendet werden soll.

Gibt zurück

Typ Beschreibung

Gibt ein neues FileDataset -Objekt mit einer Gruppe von CSV-Dateien zurück, die die Daten in diesem Dataset enthalten.

to_dask_dataframe

Hinweis

Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.

Gibt einen Dask DataFrame zurück, der die Daten im Dataset lazily lesen kann.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parameter

Name Beschreibung
sample_size
Erforderlich

Die Anzahl der zu lesenden Datensätze, um Schema und Typen zu bestimmen.

dtypes
Erforderlich

Ein optionales Diktat, das die erwarteten Spalten und deren Dtypes angibt. sample_size wird ignoriert, wenn dies angegeben wird.

on_error
Erforderlich

Behandeln von Fehlerwerten im Dataset, z. B. von Fehlern beim Analysieren von Werten. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt.

out_of_range_datetime
Erforderlich

Behandeln von Datums-/Uhrzeitwerten außerhalb des bereichs, der von Pandas unterstützt wird. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt.

Gibt zurück

Typ Beschreibung

dask.dataframe.core.DataFrame

to_pandas_dataframe

Laden Sie alle Datensätze aus dem Dataset in einen Pandas DataFrame.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parameter

Name Beschreibung
on_error
Erforderlich

Behandeln von Fehlerwerten im Dataset, z. B. von Fehlern beim Analysieren von Werten. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt.

out_of_range_datetime
Erforderlich

Behandeln von Datums-/Uhrzeitwerten außerhalb des bereichs, der von Pandas unterstützt wird. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt.

Gibt zurück

Typ Beschreibung

Gibt einen Pandas DataFrame zurück.

to_parquet_files

Konvertieren Sie das aktuelle Dataset in ein FileDataset mit Parkettdateien.

Das resultierende Dataset enthält eine oder mehrere Parkettdateien, die jeweils einer Datenpartition aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.

to_parquet_files()

Gibt zurück

Typ Beschreibung

Gibt ein neues FileDataset -Objekt mit einer Reihe von Parkettdateien zurück, die die Daten in diesem Dataset enthalten.

to_spark_dataframe

Laden Sie alle Datensätze aus dem Dataset in einen Spark DataFrame.

to_spark_dataframe()

Gibt zurück

Typ Beschreibung

Gibt einen Spark DataFrame zurück.

with_timestamp_columns

Definieren Sie Zeitstempelspalten für das Dataset.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parameter

Name Beschreibung
timestamp
Erforderlich
str

Der Name der Spalte als Zeitstempel (wird als fine_grain_timestamp bezeichnet) (optional). Der Standardwert ist None(clear).

partition_timestamp
Erforderlich
str

Der Name der Spalte partition_timestamp (wird als grobkörniger Zeitstempel bezeichnet) (optional). Der Standardwert ist None(clear).

validate
Erforderlich

Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist False. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann.

Gibt zurück

Typ Beschreibung

Gibt ein neues TabularDataset mit definierten Zeitstempelspalten zurück.

Hinweise

Die Methode definiert Spalten, die als Zeitstempel verwendet werden sollen. Zeitstempelspalten in einem Dataset ermöglichen es, die Daten als Datenreihendaten zu behandeln und zusätzliche Funktionen zu ermöglichen. Wenn ein Dataset sowohl als timestamp (used to be referred as fine_grain_timestamp) auch partition_timestamp (used to be referred as coarse grain timestamp) angegeben ist, sollten die beiden Spalten die gleiche Zeitachse darstellen.

Attribute

timestamp_columns

Gibt die Zeitstempelspalten zurück.

Gibt zurück

Typ Beschreibung
(str, str)

Die Spaltennamen für den Zeitstempel (wird als fine_grain_timestamp bezeichnet) und partition_timestamp (wird für das Dataset als grobkörniger Zeitstempel bezeichnet) definiert.