TabularDatasetFactory Klasse
Enthält Methoden zum Erstellen eines Tabellendatasets für Azure Machine Learning.
Ein TabularDataset wird mithilfe der from_*
-Methoden in dieser Klasse erstellt (z. B. Methode from_delimited_files).
Weitere Informationen zum Arbeiten mit Tabellendatasets finden Sie im Notebook https://aka.ms/tabulardataset-samplenotebook.
- Vererbung
-
builtins.objectTabularDatasetFactory
Konstruktor
TabularDatasetFactory()
Methoden
from_delimited_files |
Erstellen Sie ein TabularDataset, um Tabellendaten in durch Trennzeichen getrennten Dateien (z. B. CSV und TSV) darzustellen. |
from_json_lines_files |
Erstellen Sie ein TabularDataset, um Tabellendaten in JSON Lines-Dateien (http://jsonlines.org/) darzustellen. |
from_parquet_files |
Erstellen Sie ein TabularDataset, um Tabellendaten in Parquet-Dateien darzustellen. |
from_sql_query |
Erstellen Sie ein TabularDataset, um Tabellendaten in SQL-Datenbanken darzustellen. |
register_dask_dataframe |
Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Erstellen Sie ein Dataset aus dem dask-Dataframe. |
register_pandas_dataframe |
Erstellen eines Datasets aus pandas-Dataframes. |
register_spark_dataframe |
Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Erstellen Sie ein Dataset aus dem Spark-Dataframe. |
from_delimited_files
Erstellen Sie ein TabularDataset, um Tabellendaten in durch Trennzeichen getrennten Dateien (z. B. CSV und TSV) darzustellen.
static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')
Parameter
- path
- Union[str, list[str], <xref:azureml.data.datapath.DataPath,builtin.list>[DataPath], (Datastore, str)<xref:,builtin.list>[(Datastore, str)]]
Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste der URL-Zeichenfolge (http[s]|abfs[s]|wasb[s]), DataPath Objekt oder Tupel von Datastore und relativem Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.
- validate
- bool
Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann. Um die Überprüfung zu deaktivieren, muss „infer_column_types“ ebenfalls auf „False“ festgelegt werden.
- include_path
- bool
Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.
- infer_column_types
- bool
Boolescher Wert, um Spaltendatentypen abzuleiten. Der Standardwert ist „True“. Der Typrückschluss erfordert, dass über die aktuelle Computeeinheit auf die Datenquelle zugegriffen werden kann. Derzeit werden beim Typrückschluss nur die ersten 200 Zeilen abgerufen. Wenn die Daten mehrere Werttypen enthalten, ist es besser, den gewünschten Typ als Überschreibung über das Argument „set_column_types“ bereitzustellen. Codebeispiele zu „set_column_types“ finden Sie im Abschnitt „Hinweise“.
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.
- header
- bool oder PromoteHeadersBehavior
Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden. Der Standardwert ist „True“ für alle Dateien mit demselben Header. Wenn „header=False“ entspricht, werden Dateien als Dateien ohne Header gelesen. Weitere Optionen können mithilfe des Enumerationswerts PromoteHeadersBehavior angegeben werden.
- partition_format
- str
Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.csv“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.
- support_multi_line
- bool
Standardmäßig (support_multi_line=False) werden alle Zeilenumbrüche, einschließlich derjenigen in Feldwerten in Anführungszeichen, als Datensatzumbruch interpretiert. Das Lesen von Daten auf diese Weise ist schneller und für die parallele Ausführung auf mehreren CPU-Kernen optimiert. Es kann jedoch dazu führen, dass im Hintergrund mehr Datensätze mit falsch ausgerichteten Feldwerten erzeugt werden. Dieser sollte auf „True“ festgelegt werden, wenn bekannt ist, dass die durch Trennzeichen getrennten Dateien Zeilenumbrüche in Anführungszeichen enthalten.
Anhand dieser CSV-Datei als Beispiel werden die Daten basierend auf „support_multi_line“ unterschiedlich gelesen.
A,B,C A1,B1,C1 A2,"B 2",C2
from azureml.core import Dataset, Datastore
from azureml.data.datapath import DataPath
# default behavior: support_multi_line=False
dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
print(dataset.to_pandas_dataframe())
# A B C
# 0 A1 B1 C1
# 1 A2 B None
# 2 2" C2 None
# to handle quoted line breaks
dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
support_multi_line=True)
print(dataset.to_pandas_dataframe())
# A B C
# 0 A1 B1 C1
# 1 A2 B\r\n2 C2
- empty_as_string
- bool
Geben Sie an, ob leere Feldwerte als leere Zeichenfolgen geladen werden sollen. Der Standardwert (False) liest leere Feldwerte als NULL-Werte. Wenn Sie dies als „True“ übergeben, werden leere Feldwerte als leere Zeichenfolgen gelesen. Wenn die Werte in numerische Werte oder datetime-Werte konvertiert werden, hat dies keine Auswirkungen, da leere Werte in NULL-Werte konvertiert werden.
- encoding
- str
Geben Sie die Dateicodierung an. Die unterstützten Codierungen sind „utf8“, „iso88591“, „latin1“, „ascii“, „utf16“, „utf32“, „utf8bom“ und „windows1252“.
Gibt zurück
Gibt ein TabularDataset-Objekt zurück.
Rückgabetyp
Hinweise
from_delimited_files erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus durch Trennzeichen getrennten Dateien in eine tabellarische Darstellung definiert.
Damit auf die Daten von Azure Machine Learning zugegriffen werden kann, müssen sich die durch Pfad angegebenen getrennten Dateien in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token der Benutzer wird im Notizbuch- oder lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access
Spaltendatentypen werden standardmäßig aus Daten in den durch Trennzeichen getrennten Dateien abgeleitet. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))
# create tabular dataset from all csv files in the directory
tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.csv',
'https://url/weather/2018/12.csv'
]
tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)
from_json_lines_files
Erstellen Sie ein TabularDataset, um Tabellendaten in JSON Lines-Dateien (http://jsonlines.org/) darzustellen.
static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')
Parameter
- path
- Union[str, list[str], <xref:azureml.data.datapath.DataPath,builtin.list>[DataPath], (Datastore, str)<xref:,builtin.list>[(Datastore, str)]]
Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste der URL-Zeichenfolge (http[s]|abfs[s]|wasb[s]), DataPath Objekt oder Tupel von Datastore und relativem Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.
- validate
- bool
Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann.
- include_path
- bool
Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.
- partition_format
- str
Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.jsonl“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.
- invalid_lines
- str
Behandeln von Zeilen, die ein ungültiges JSON-Format aufweisen. Unterstützte Werte sind „error“ und „drop“.
- encoding
- str
Geben Sie die Dateicodierung an. Die unterstützten Codierungen sind „utf8“, „iso88591“, „latin1“, „ascii“, „utf16“, „utf32“, „utf8bom“ und „windows1252“.
Gibt zurück
Gibt ein TabularDataset-Objekt zurück.
Rückgabetyp
Hinweise
from_json_lines_files erstellt ein Objekt der TabularDataset-Klasse, die die Vorgänge zum Laden von Daten aus JSON Lines-Dateien in tabellarische Darstellungen definiert.
Damit auf die Daten von Azure Machine Learning zugegriffen werden kann, müssen sich die von Pfad angegebenen JSON-Zeilendateien in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token der Benutzer wird im Notizbuch- oder lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access
Spaltendatentypen werden aus Datentypen gelesen, die in den JSON Lines-Dateien gespeichert sind. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))
# create tabular dataset from all jsonl files in the directory
tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.jsonl',
'https://url/weather/2018/12.jsonl'
]
tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)
from_parquet_files
Erstellen Sie ein TabularDataset, um Tabellendaten in Parquet-Dateien darzustellen.
static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)
Parameter
- path
- Union[str, list[str], <xref:azureml.data.datapath.DataPath,builtin.list>[DataPath], (Datastore, str)<xref:,builtin.list>[(Datastore, str)]]
Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste der URL-Zeichenfolge (http[s]|abfs[s]|wasb[s]), DataPath Objekt oder Tupel von Datastore und relativem Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.
- validate
- bool
Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann.
- include_path
- bool
Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.
- partition_format
- str
Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.parquet“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.
Gibt zurück
Gibt ein TabularDataset-Objekt zurück.
Rückgabetyp
Hinweise
from_parquet_files erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus Parquet-Dateien in eine tabellarische Darstellung definiert.
Damit auf die Daten von Azure Machine Learning zugegriffen werden kann, müssen sich die durch Pfad angegebenen Parkettdateien in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token der Benutzer wird im Notizbuch- oder lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access
Spaltendatentypen werden aus Datentypen gelesen, die in den Parquet-Dateien gespeichert sind. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))
# create tabular dataset from all parquet files in the directory
tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.parquet',
'https://url/weather/2018/12.parquet'
]
tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)
from_sql_query
Erstellen Sie ein TabularDataset, um Tabellendaten in SQL-Datenbanken darzustellen.
static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)
Parameter
Ein SQL-ähnlicher Datenspeicher und eine Abfrage.
- validate
- bool
Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann.
Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.
- query_timeout
Legt die Zeit (in Sekunden) fest, die gewartet werden soll, bis der Versuch einer Befehlsausführung beendet und ein Fehler generiert wird. Der Standardwert ist 30 Sekunden.
Gibt zurück
Gibt ein TabularDataset-Objekt zurück.
Rückgabetyp
Hinweise
from_sql_query erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus SQL-Datenbanken in eine tabellarische Darstellung definiert. Derzeit wird nur „MSSQLDataSource“ unterstützt.
Damit auf die Daten von Azure Machine Learning zugegriffen werden kann, muss sich die SQL-Datenbank, die von query
angegeben wird, in Datastore befinden, und der Datenspeichertyp muss einen SQL-Typ aufweisen.
Spaltendatentypen werden aus Datentypen in SQL-Abfrageergebnissen gelesen. Durch Angeben von set_column_types
wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.
from azureml.core import Dataset, Datastore
from azureml.data.datapath import DataPath
# create tabular dataset from a SQL database in datastore
datastore = Datastore.get(workspace, 'mssql')
query = DataPath(datastore, 'SELECT * FROM my_table')
tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
df = tabular.to_pandas_dataframe()
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)
register_dask_dataframe
Hinweis
Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.
Erstellen Sie ein Dataset aus dem dask-Dataframe.
static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parameter
- dataframe
- <xref:dask.dataframe.core.DataFrame>
Erforderlich. Der dask-Dataframe, der hochgeladen werden soll.
Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.
- description
- str
Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.
Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.
- show_progress
- bool
Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.
Gibt zurück
Das registrierte Dataset.
Rückgabetyp
register_pandas_dataframe
Erstellen eines Datasets aus pandas-Dataframes.
static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parameter
Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.
- description
- str
Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.
Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.
- show_progress
- bool
Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.
Gibt zurück
Das registrierte Dataset.
Rückgabetyp
register_spark_dataframe
Hinweis
Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.
Erstellen Sie ein Dataset aus dem Spark-Dataframe.
static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parameter
Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.
- description
- str
Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.
Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.
- show_progress
- bool
Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.
Gibt zurück
Das registrierte Dataset.
Rückgabetyp
Feedback
Feedback senden und anzeigen für