TabularDataset Klasse
Stellt ein tabellarisches Dataset dar, das in Azure Machine Learning verwendet werden soll.
Ein TabularDataset definiert eine Reihe von lazily ausgewerteten, unveränderlichen Vorgängen, um Daten aus der Datenquelle in tabellarische Darstellung zu laden. Daten werden erst aus der Quelle geladen, wenn TabularDataset zur Übermittlung von Daten aufgefordert wird.
TabularDataset wird mithilfe von Methoden wie from_delimited_files aus der TabularDatasetFactory Klasse erstellt.
Weitere Informationen finden Sie im Artikel "Datasets hinzufügen und registrieren". Informationen zu den ersten Schritten mit einem tabellarischen Dataset finden Sie unter https://aka.ms/tabulardataset-samplenotebook.
Initialisieren eines TabularDataset-Objekts.
Dieser Konstruktor soll nicht direkt aufgerufen werden. Das Dataset soll mithilfe der TabularDatasetFactory Klasse erstellt werden.
Konstruktor
TabularDataset()
Hinweise
Ein TabularDataset kann mithilfe from_*
der Methoden der TabularDatasetFactory Klasse aus CSV, TSV, Parkettdateien oder SQL-Abfragen erstellt werden. Sie können Teileinstellungsvorgänge für ein TabularDataset ausführen, z. B. Teilen, Überspringen und Filtern von Datensätzen.
Das Ergebnis der Untereinstellung ist immer ein oder mehrere neue TabularDataset-Objekte.
Sie können ein TabularDataset auch in andere Formate wie einen Pandas DataFrame konvertieren. Das tatsächliche Laden von Daten erfolgt, wenn TabularDataset aufgefordert wird, die Daten in einen anderen Speichermechanismus (z. B. einen Pandas Dataframe oder eine CSV-Datei) zu übermitteln.
TabularDataset kann als Eingabe einer Experimentausführung verwendet werden. Sie kann auch für den Arbeitsbereich mit einem angegebenen Namen registriert und später mit diesem Namen abgerufen werden.
Methoden
download |
Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Laden Sie Dateidatenströme herunter, die vom Dataset definiert wurden, in den lokalen Pfad. |
drop_columns |
Legen Sie die angegebenen Spalten aus dem Dataset ab. Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht. |
filter |
Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Filtern Sie die Daten, und lassen Sie nur die Datensätze zurück, die mit dem angegebenen Ausdruck übereinstimmen. |
get_profile |
Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Abrufen des Datenprofils aus der neuesten Profilausführung, die für dieses oder dasselbe Dataset im Arbeitsbereich übermittelt wurde. |
get_profile_runs |
Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Zurückgeben vorheriger Profilausführungen, die diesem oder demselben Dataset im Arbeitsbereich zugeordnet sind. |
keep_columns |
Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab. Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht. |
mount |
Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Erstellen Sie einen Kontext-Manager für die Bereitstellung von Dateistreams, die vom Dataset als lokale Dateien definiert sind. |
partition_by |
Partitionierte Daten werden kopiert und an das ziel angegebene Ziel ausgegeben. erstellen Sie das Dataset aus dem ausgegebenen Datenpfad mit Partitionsformat, registrieren Sie das Dataset, falls Name angegeben wird, geben Sie das Dataset für den neuen Datenpfad mit Partitionen zurück.
|
random_split |
Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz. Das erste Dataset enthält ungefähr |
skip |
Überspringen Sie Datensätze vom Anfang des Datasets durch die angegebene Anzahl. |
submit_profile_run |
Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Senden Sie eine Experimentierausführung zum Berechnen des Datenprofils. Ein Datenprofil kann sehr nützlich sein, um die Eingabedaten zu verstehen, Anomalien und fehlende Werte zu identifizieren, indem nützliche Informationen zu den Daten wie Spaltentyp, fehlenden Werten usw. bereitgestellt werden. |
take |
Nehmen Sie ein Beispiel von Datensätzen vom Anfang des Datasets durch die angegebene Anzahl. |
take_sample |
Nehmen Sie eine zufällige Stichprobe von Datensätzen im Dataset ungefähr nach der angegebenen Wahrscheinlichkeit. |
time_after |
Filter TabularDataset mit Zeitstempelspalten nach einer angegebenen Startzeit. |
time_before |
Filter TabularDataset mit Zeitstempelspalten vor einer angegebenen Endzeit. |
time_between |
Filter TabularDataset zwischen einer angegebenen Start- und Endzeit. |
time_recent |
Filter TabularDataset, um nur die angegebene Dauer (Menge) der zuletzt verwendeten Daten zu enthalten. |
to_csv_files |
Konvertieren Sie das aktuelle Dataset in ein FileDataset, das CSV-Dateien enthält. Das resultierende Dataset enthält eine oder mehrere CSV-Dateien, die jeweils einer Partition von Daten aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden. |
to_dask_dataframe |
Hinweis Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental. Gibt einen Dask DataFrame zurück, der die Daten im Dataset lazily lesen kann. |
to_pandas_dataframe |
Laden Sie alle Datensätze aus dem Dataset in einen Pandas DataFrame. |
to_parquet_files |
Konvertieren Sie das aktuelle Dataset in ein FileDataset mit Parkettdateien. Das resultierende Dataset enthält eine oder mehrere Parkettdateien, die jeweils einer Datenpartition aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden. |
to_spark_dataframe |
Laden Sie alle Datensätze aus dem Dataset in einen Spark DataFrame. |
with_timestamp_columns |
Definieren Sie Zeitstempelspalten für das Dataset. |
download
Hinweis
Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.
Laden Sie Dateidatenströme herunter, die vom Dataset definiert wurden, in den lokalen Pfad.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parameter
Name | Beschreibung |
---|---|
stream_column
Erforderlich
|
Die herunterzuladende Datenstromspalte. |
target_path
Erforderlich
|
Das lokale Verzeichnis, in das die Dateien heruntergeladen werden sollen. Wenn keine, werden die Daten in ein temporäres Verzeichnis heruntergeladen. |
overwrite
Erforderlich
|
Gibt an, ob vorhandene Dateien überschrieben werden sollen. Der Standardwert ist False. Vorhandene Dateien werden überschrieben, wenn "Überschreiben" auf "True" festgelegt ist. andernfalls wird eine Ausnahme ausgelöst. |
ignore_not_found
Erforderlich
|
Gibt an, ob das Herunterladen fehlschlägt, wenn einige Dateien, auf die das Dataset verweist, nicht gefunden werden. Der Standardwert ist True. Der Download schlägt fehl, wenn ein Dateidownload aus irgendeinem Grund fehlschlägt, wenn ignore_not_found auf "False" festgelegt ist. andernfalls wird eine Warnung für nicht gefundene Fehler protokolliert, und das Dowload wird erfolgreich ausgeführt, solange keine anderen Fehlertypen aufgetreten sind. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein Array von Dateipfaden für jede heruntergeladene Datei zurück. |
drop_columns
Legen Sie die angegebenen Spalten aus dem Dataset ab.
Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.
drop_columns(columns)
Parameter
Name | Beschreibung |
---|---|
columns
Erforderlich
|
Der Name oder eine Liste mit Namen für die spalten, die gelöscht werden sollen. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein neues TabularDataset -Objekt zurück, wobei die angegebenen Spalten gelöscht wurden. |
filter
Hinweis
Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.
Filtern Sie die Daten, und lassen Sie nur die Datensätze zurück, die mit dem angegebenen Ausdruck übereinstimmen.
filter(expression)
Parameter
Name | Beschreibung |
---|---|
expression
Erforderlich
|
Der auszuwertende Ausdruck. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das geänderte Dataset (nicht registriert). |
Hinweise
Ausdrücke werden durch Indizieren des Datasets mit dem Namen einer Spalte gestartet. Sie unterstützen eine Vielzahl von Funktionen und Operatoren und können mit logischen Operatoren kombiniert werden. Der resultierende Ausdruck wird für jeden Datensatz lazis ausgewertet, wenn ein Datenziehen auftritt und nicht, wo er definiert ist.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Hinweis
Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.
Abrufen des Datenprofils aus der neuesten Profilausführung, die für dieses oder dasselbe Dataset im Arbeitsbereich übermittelt wurde.
get_profile(workspace=None)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der Arbeitsbereich, in dem die Profilausführung übermittelt wurde. Standardmäßig wird der Arbeitsbereich dieses Datasets verwendet. Erforderlich, wenn das Dataset keinem Arbeitsbereich zugeordnet ist. Weitere Informationen zu Arbeitsbereichen finden Sie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace unter. |
Gibt zurück
Typ | Beschreibung |
---|---|
Profilergebnis aus der neuesten Profilausführung vom Typ "DatasetProfile". |
get_profile_runs
Hinweis
Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.
Zurückgeben vorheriger Profilausführungen, die diesem oder demselben Dataset im Arbeitsbereich zugeordnet sind.
get_profile_runs(workspace=None)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der Arbeitsbereich, in dem die Profilausführung übermittelt wurde. Standardmäßig wird der Arbeitsbereich dieses Datasets verwendet. Erforderlich, wenn das Dataset keinem Arbeitsbereich zugeordnet ist. Weitere Informationen zu Arbeitsbereichen finden Sie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace unter. |
Gibt zurück
Typ | Beschreibung |
---|---|
iterator-Objekt vom Typ "azureml.core.Run". |
keep_columns
Behalten Sie die angegebenen Spalten bei, und legen Sie alle anderen Personen aus dem Dataset ab.
Wenn eine Zeitserienspalte gelöscht wird, werden auch die entsprechenden Funktionen für das zurückgegebene Dataset gelöscht.
keep_columns(columns, validate=False)
Parameter
Name | Beschreibung |
---|---|
columns
Erforderlich
|
Der Name oder eine Liste mit Namen für die spalten, die beibehalten werden sollen. |
validate
Erforderlich
|
Gibt an, ob überprüft werden soll, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist False. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein neues TabularDataset -Objekt zurück, wobei nur die angegebenen Spalten beibehalten werden. |
mount
Hinweis
Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.
Erstellen Sie einen Kontext-Manager für die Bereitstellung von Dateistreams, die vom Dataset als lokale Dateien definiert sind.
mount(stream_column, mount_point=None)
Parameter
Name | Beschreibung |
---|---|
stream_column
Erforderlich
|
Die Streamspalte, die bereitgestellt werden soll. |
mount_point
Erforderlich
|
Das lokale Verzeichnis, in das die Dateien bereitgestellt werden sollen. If None, the data will be mounted into a temporary directory, which you can find by calling the MountContext.mount_point instance method. |
Gibt zurück
Typ | Beschreibung |
---|---|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
Gibt einen Kontext-Manager zum Verwalten des Lebenszyklus der Bereitstellung zurück. |
partition_by
Partitionierte Daten werden kopiert und an das ziel angegebene Ziel ausgegeben.
erstellen Sie das Dataset aus dem ausgegebenen Datenpfad mit Partitionsformat, registrieren Sie das Dataset, falls Name angegeben wird, geben Sie das Dataset für den neuen Datenpfad mit Partitionen zurück.
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parameter
Name | Beschreibung |
---|---|
partition_keys
Erforderlich
|
Erforderlich, Partitionsschlüssel |
target
Erforderlich
|
Erforderlich, der Datenspeicherpfad, in den die Datenrahmen-Parkettdaten hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden. |
name
Erforderlich
|
Optional, Der Registrierungsname. |
show_progress
Erforderlich
|
Optional, gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Standardwert ist "True". |
partition_as_file_dataset
Erforderlich
|
Optional, gibt an, ob ein Filedataset zurückgegeben wird oder nicht. Standardwert ist "False". |
Gibt zurück
Typ | Beschreibung |
---|---|
Das gespeicherte oder registrierte Dataset. |
random_split
Teilen Sie Datensätze im Dataset zufällig und ungefähr nach dem angegebenen Prozentsatz.
Das erste Dataset enthält ungefähr percentage
die Gesamtdatensätze und das zweite Dataset, die verbleibenden Datensätze.
random_split(percentage, seed=None)
Parameter
Name | Beschreibung |
---|---|
percentage
Erforderlich
|
Der ungefähre Prozentsatz, um das Dataset aufzuteilen nach. Dies muss eine Zahl zwischen 0,0 und 1,0 sein. |
seed
Erforderlich
|
Optionaler Startwert, der für den Zufallsgenerator verwendet werden soll. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein Tupel neuer TabularDataset -Objekte zurück, die die beiden Datasets nach der Aufteilung darstellen. |
skip
Überspringen Sie Datensätze vom Anfang des Datasets durch die angegebene Anzahl.
skip(count)
Parameter
Name | Beschreibung |
---|---|
count
Erforderlich
|
Die Anzahl der zu überspringenden Datensätze. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein neues TabularDataset -Objekt zurück, das ein Dataset mit übersprungenen Datensätzen darstellt. |
submit_profile_run
Hinweis
Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.
Senden Sie eine Experimentierausführung zum Berechnen des Datenprofils.
Ein Datenprofil kann sehr nützlich sein, um die Eingabedaten zu verstehen, Anomalien und fehlende Werte zu identifizieren, indem nützliche Informationen zu den Daten wie Spaltentyp, fehlenden Werten usw. bereitgestellt werden.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parameter
Name | Beschreibung |
---|---|
compute_target
Erforderlich
|
Das Computeziel zum Ausführen des Profilberechnungsexperiments. Geben Sie "local" an, um die lokale Berechnung zu verwenden. Weitere Informationen zu Computezielen finden Sie unter.See https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget for more information on compute targets. |
experiment
Erforderlich
|
Das Experimentobjekt. Weitere Informationen zu Experimenten finden Sie https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment unter. |
cache_datastore_name
Erforderlich
|
der Name des Datenspeichers zum Speichern des Profilcaches, wenn keine, der Standarddatenspeicher verwendet wird. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Objekt vom Typ "DatasetProfileRun". |
take
Nehmen Sie ein Beispiel von Datensätzen vom Anfang des Datasets durch die angegebene Anzahl.
take(count)
Parameter
Name | Beschreibung |
---|---|
count
Erforderlich
|
Die Anzahl der zu übernehmenden Datensätze. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein neues TabularDataset -Objekt zurück, das das beispielierte Dataset darstellt. |
take_sample
Nehmen Sie eine zufällige Stichprobe von Datensätzen im Dataset ungefähr nach der angegebenen Wahrscheinlichkeit.
take_sample(probability, seed=None)
Parameter
Name | Beschreibung |
---|---|
probability
Erforderlich
|
Die Wahrscheinlichkeit eines Datensatzes, der in die Stichprobe einbezogen wird. |
seed
Erforderlich
|
Optionaler Startwert, der für den Zufallsgenerator verwendet werden soll. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein neues TabularDataset -Objekt zurück, das das beispielierte Dataset darstellt. |
time_after
Filter TabularDataset mit Zeitstempelspalten nach einer angegebenen Startzeit.
time_after(start_time, include_boundary=True, validate=True)
Parameter
Name | Beschreibung |
---|---|
start_time
Erforderlich
|
Die untere Grenze zum Filtern von Daten. |
include_boundary
Erforderlich
|
Geben Sie an, ob die Zeile, die der Begrenzungszeit ( |
validate
Erforderlich
|
Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein TabularDataset mit dem neuen gefilterten Dataset. |
time_before
Filter TabularDataset mit Zeitstempelspalten vor einer angegebenen Endzeit.
time_before(end_time, include_boundary=True, validate=True)
Parameter
Name | Beschreibung |
---|---|
end_time
Erforderlich
|
Obere Grenze zum Filtern von Daten. |
include_boundary
Erforderlich
|
Geben Sie an, ob die Zeile, die der Begrenzungszeit ( |
validate
Erforderlich
|
Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein TabularDataset mit dem neuen gefilterten Dataset. |
time_between
Filter TabularDataset zwischen einer angegebenen Start- und Endzeit.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parameter
Name | Beschreibung |
---|---|
start_time
Erforderlich
|
Die untere Grenze zum Filtern von Daten. |
end_time
Erforderlich
|
Die obere Grenze zum Filtern von Daten. |
include_boundary
Erforderlich
|
Geben Sie an, ob die Zeile, die der Begrenzungszeit ( |
validate
Erforderlich
|
Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein TabularDataset mit dem neuen gefilterten Dataset. |
time_recent
Filter TabularDataset, um nur die angegebene Dauer (Menge) der zuletzt verwendeten Daten zu enthalten.
time_recent(time_delta, include_boundary=True, validate=True)
Parameter
Name | Beschreibung |
---|---|
time_delta
Erforderlich
|
Die Dauer (Menge) der zuletzt abzurufenden Daten. |
include_boundary
Erforderlich
|
Geben Sie an, ob die Zeile, die der Begrenzungszeit ( |
validate
Erforderlich
|
Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist True. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein TabularDataset mit dem neuen gefilterten Dataset. |
to_csv_files
Konvertieren Sie das aktuelle Dataset in ein FileDataset, das CSV-Dateien enthält.
Das resultierende Dataset enthält eine oder mehrere CSV-Dateien, die jeweils einer Partition von Daten aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.
to_csv_files(separator=',')
Parameter
Name | Beschreibung |
---|---|
separator
Erforderlich
|
Das Trennzeichen, das zum Trennen von Werten in der resultierenden Datei verwendet werden soll. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein neues FileDataset -Objekt mit einer Gruppe von CSV-Dateien zurück, die die Daten in diesem Dataset enthalten. |
to_dask_dataframe
Hinweis
Dies ist eine experimentelle Methode und kann sich jederzeit ändern. Weitere Informationen finden Sie unter https://aka.ms/azuremlexperimental.
Gibt einen Dask DataFrame zurück, der die Daten im Dataset lazily lesen kann.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parameter
Name | Beschreibung |
---|---|
sample_size
Erforderlich
|
Die Anzahl der zu lesenden Datensätze, um Schema und Typen zu bestimmen. |
dtypes
Erforderlich
|
Ein optionales Diktat, das die erwarteten Spalten und deren Dtypes angibt. sample_size wird ignoriert, wenn dies angegeben wird. |
on_error
Erforderlich
|
Behandeln von Fehlerwerten im Dataset, z. B. von Fehlern beim Analysieren von Werten. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt. |
out_of_range_datetime
Erforderlich
|
Behandeln von Datums-/Uhrzeitwerten außerhalb des bereichs, der von Pandas unterstützt wird. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt. |
Gibt zurück
Typ | Beschreibung |
---|---|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
Laden Sie alle Datensätze aus dem Dataset in einen Pandas DataFrame.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parameter
Name | Beschreibung |
---|---|
on_error
Erforderlich
|
Behandeln von Fehlerwerten im Dataset, z. B. von Fehlern beim Analysieren von Werten. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt. |
out_of_range_datetime
Erforderlich
|
Behandeln von Datums-/Uhrzeitwerten außerhalb des bereichs, der von Pandas unterstützt wird. Gültige Werte sind "null", die sie durch NULL ersetzen. und "fail", was zu einer Ausnahme führt. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt einen Pandas DataFrame zurück. |
to_parquet_files
Konvertieren Sie das aktuelle Dataset in ein FileDataset mit Parkettdateien.
Das resultierende Dataset enthält eine oder mehrere Parkettdateien, die jeweils einer Datenpartition aus dem aktuellen Dataset entsprechen. Diese Dateien werden erst dann materialisiert, wenn sie heruntergeladen oder gelesen werden.
to_parquet_files()
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein neues FileDataset -Objekt mit einer Reihe von Parkettdateien zurück, die die Daten in diesem Dataset enthalten. |
to_spark_dataframe
Laden Sie alle Datensätze aus dem Dataset in einen Spark DataFrame.
to_spark_dataframe()
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt einen Spark DataFrame zurück. |
with_timestamp_columns
Definieren Sie Zeitstempelspalten für das Dataset.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parameter
Name | Beschreibung |
---|---|
timestamp
Erforderlich
|
Der Name der Spalte als Zeitstempel (wird als fine_grain_timestamp bezeichnet) (optional). Der Standardwert ist None(clear). |
partition_timestamp
Erforderlich
|
Der Name der Spalte partition_timestamp (wird als grobkörniger Zeitstempel bezeichnet) (optional). Der Standardwert ist None(clear). |
validate
Erforderlich
|
Gibt an, ob überprüft werden soll, ob angegebene Spalten im Dataset vorhanden sind. Der Standardwert ist False. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Berechnung zugegriffen werden kann. |
Gibt zurück
Typ | Beschreibung |
---|---|
Gibt ein neues TabularDataset mit definierten Zeitstempelspalten zurück. |
Hinweise
Die Methode definiert Spalten, die als Zeitstempel verwendet werden sollen. Zeitstempelspalten in einem Dataset ermöglichen es, die Daten als Datenreihendaten zu behandeln und zusätzliche Funktionen zu ermöglichen. Wenn ein Dataset sowohl als timestamp (used to be referred as fine_grain_timestamp)
auch partition_timestamp (used to be referred as coarse grain timestamp)
angegeben ist, sollten die beiden Spalten die gleiche Zeitachse darstellen.