TabularDatasetFactory Klasse

Enthält Methoden zum Erstellen eines Tabellendatasets für Azure Machine Learning.

Ein TabularDataset wird mithilfe der from_*-Methoden in dieser Klasse erstellt (z. B. Methode from_delimited_files).

Weitere Informationen zum Arbeiten mit Tabellendatasets finden Sie im Notebook https://aka.ms/tabulardataset-samplenotebook.

Vererbung
builtins.object
TabularDatasetFactory

Konstruktor

TabularDatasetFactory()

Methoden

from_delimited_files

Erstellen Sie ein TabularDataset, um Tabellendaten in durch Trennzeichen getrennten Dateien (z. B. CSV und TSV) darzustellen.

from_json_lines_files

Erstellen Sie ein TabularDataset, um Tabellendaten in JSON Lines-Dateien (http://jsonlines.org/) darzustellen.

from_parquet_files

Erstellen Sie ein TabularDataset, um Tabellendaten in Parquet-Dateien darzustellen.

from_sql_query

Erstellen Sie ein TabularDataset, um Tabellendaten in SQL-Datenbanken darzustellen.

register_dask_dataframe

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Erstellen Sie ein Dataset aus dem dask-Dataframe.

register_pandas_dataframe

Erstellen eines Datasets aus pandas-Dataframes.

register_spark_dataframe

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Erstellen Sie ein Dataset aus dem Spark-Dataframe.

from_delimited_files

Erstellen Sie ein TabularDataset, um Tabellendaten in durch Trennzeichen getrennten Dateien (z. B. CSV und TSV) darzustellen.

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parameter

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Erforderlich

Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste von URL-Zeichenfolgen (http[s]|abfs[s]|wasb[s]), DataPath Objekt oder Tupel von Datastore und relativer Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.

validate
bool
Erforderlich

Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann. Um die Überprüfung zu deaktivieren, muss „infer_column_types“ ebenfalls auf „False“ festgelegt werden.

include_path
bool
Erforderlich

Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.

infer_column_types
bool
Erforderlich

Boolescher Wert, um Spaltendatentypen abzuleiten. Der Standardwert ist „True“. Der Typrückschluss erfordert, dass über die aktuelle Computeeinheit auf die Datenquelle zugegriffen werden kann. Derzeit werden beim Typrückschluss nur die ersten 200 Zeilen abgerufen. Wenn die Daten mehrere Werttypen enthalten, ist es besser, den gewünschten Typ als Überschreibung über das Argument „set_column_types“ bereitzustellen. Codebeispiele zu „set_column_types“ finden Sie im Abschnitt „Hinweise“.

set_column_types
dict[str, DataType]
Erforderlich

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.

separator
str
Erforderlich

Das Trennzeichen für das Aufteilen von Spalten.

header
bool oder PromoteHeadersBehavior
Erforderlich

Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden. Der Standardwert ist „True“ für alle Dateien mit demselben Header. Wenn „header=False“ entspricht, werden Dateien als Dateien ohne Header gelesen. Weitere Optionen können mithilfe des Enumerationswerts PromoteHeadersBehavior angegeben werden.

partition_format
str
Erforderlich

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.csv“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

support_multi_line
bool
Erforderlich

Standardmäßig (support_multi_line=False) werden alle Zeilenumbrüche, einschließlich derjenigen in Feldwerten in Anführungszeichen, als Datensatzumbruch interpretiert. Das Lesen von Daten auf diese Weise ist schneller und für die parallele Ausführung auf mehreren CPU-Kernen optimiert. Es kann jedoch dazu führen, dass im Hintergrund mehr Datensätze mit falsch ausgerichteten Feldwerten erzeugt werden. Dieser sollte auf „True“ festgelegt werden, wenn bekannt ist, dass die durch Trennzeichen getrennten Dateien Zeilenumbrüche in Anführungszeichen enthalten.

Anhand dieser CSV-Datei als Beispiel werden die Daten basierend auf „support_multi_line“ unterschiedlich gelesen.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Erforderlich

Geben Sie an, ob leere Feldwerte als leere Zeichenfolgen geladen werden sollen. Der Standardwert (False) liest leere Feldwerte als NULL-Werte. Wenn Sie dies als „True“ übergeben, werden leere Feldwerte als leere Zeichenfolgen gelesen. Wenn die Werte in numerische Werte oder datetime-Werte konvertiert werden, hat dies keine Auswirkungen, da leere Werte in NULL-Werte konvertiert werden.

encoding
str
Erforderlich

Geben Sie die Dateicodierung an. Die unterstützten Codierungen sind „utf8“, „iso88591“, „latin1“, „ascii“, „utf16“, „utf32“, „utf8bom“ und „windows1252“.

Gibt zurück

Gibt ein TabularDataset-Objekt zurück.

Rückgabetyp

Hinweise

from_delimited_files erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus durch Trennzeichen getrennten Dateien in eine tabellarische Darstellung definiert.

Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die durch Pfad angegebenen durch Trennzeichen getrennten Dateien in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access

Spaltendatentypen werden standardmäßig aus Daten in den durch Trennzeichen getrennten Dateien abgeleitet. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Erstellen Sie ein TabularDataset, um Tabellendaten in JSON Lines-Dateien (http://jsonlines.org/) darzustellen.

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parameter

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Erforderlich

Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste von URL-Zeichenfolgen (http[s]|abfs[s]|wasb[s]), DataPath Objekt oder Tupel von Datastore und relativer Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.

validate
bool
Erforderlich

Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann.

include_path
bool
Erforderlich

Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.

set_column_types
dict[str, DataType]
Erforderlich

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.

partition_format
str
Erforderlich

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.jsonl“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

invalid_lines
str
Erforderlich

Behandeln von Zeilen, die ein ungültiges JSON-Format aufweisen. Unterstützte Werte sind „error“ und „drop“.

encoding
str
Erforderlich

Geben Sie die Dateicodierung an. Die unterstützten Codierungen sind „utf8“, „iso88591“, „latin1“, „ascii“, „utf16“, „utf32“, „utf8bom“ und „windows1252“.

Gibt zurück

Gibt ein TabularDataset-Objekt zurück.

Rückgabetyp

Hinweise

from_json_lines_files erstellt ein Objekt der TabularDataset-Klasse, die die Vorgänge zum Laden von Daten aus JSON Lines-Dateien in tabellarische Darstellungen definiert.

Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die json Lines-Dateien, die im Pfad angegeben sind, in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access

Spaltendatentypen werden aus Datentypen gelesen, die in den JSON Lines-Dateien gespeichert sind. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Erstellen Sie ein TabularDataset, um Tabellendaten in Parquet-Dateien darzustellen.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parameter

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Erforderlich

Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste von URL-Zeichenfolgen (http[s]|abfs[s]|wasb[s]), DataPath Objekt oder Tupel von Datastore und relativer Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.

validate
bool
Erforderlich

Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann.

include_path
bool
Erforderlich

Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.

set_column_types
dict[str, DataType]
Erforderlich

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.

partition_format
str
Erforderlich

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.parquet“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

Gibt zurück

Gibt ein TabularDataset-Objekt zurück.

Rückgabetyp

Hinweise

from_parquet_files erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus Parquet-Dateien in eine tabellarische Darstellung definiert.

Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die im Pfad angegebenen Parquet-Dateien in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access

Spaltendatentypen werden aus Datentypen gelesen, die in den Parquet-Dateien gespeichert sind. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Erstellen Sie ein TabularDataset, um Tabellendaten in SQL-Datenbanken darzustellen.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parameter

query
Union[DataPath, (Datastore, str)]
Erforderlich

Ein SQL-ähnlicher Datenspeicher und eine Abfrage.

validate
bool
Erforderlich

Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann.

set_column_types
dict[str, DataType]
Erforderlich

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.

query_timeout
Erforderlich

Legt die Zeit (in Sekunden) fest, die gewartet werden soll, bis der Versuch einer Befehlsausführung beendet und ein Fehler generiert wird. Der Standardwert ist 30 Sekunden.

Gibt zurück

Gibt ein TabularDataset-Objekt zurück.

Rückgabetyp

Hinweise

from_sql_query erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus SQL-Datenbanken in eine tabellarische Darstellung definiert. Derzeit wird nur „MSSQLDataSource“ unterstützt.

Damit auf die Daten von Azure Machine Learning zugegriffen werden kann, muss sich die SQL-Datenbank, die von query angegeben wird, in Datastore befinden, und der Datenspeichertyp muss einen SQL-Typ aufweisen.

Spaltendatentypen werden aus Datentypen in SQL-Abfrageergebnissen gelesen. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Erstellen Sie ein Dataset aus dem dask-Dataframe.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameter

dataframe
<xref:dask.dataframe.core.DataFrame>
Erforderlich

Erforderlich. Der dask-Dataframe, der hochgeladen werden soll.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Erforderlich

Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.

name
str
Erforderlich

Erforderlich. Der Name des registrierten Datasets.

description
str
Erforderlich

Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.

tags
dict[str, str]
Erforderlich

Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.

show_progress
bool
Erforderlich

Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.

Gibt zurück

Das registrierte Dataset.

Rückgabetyp

register_pandas_dataframe

Erstellen eines Datasets aus pandas-Dataframes.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parameter

dataframe
DataFrame
Erforderlich

Erforderlich. Im hochzuladenden Speicherdataframe.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Erforderlich

Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.

name
str
Erforderlich

Erforderlich. Der Name des registrierten Datasets.

description
int
Erforderlich

Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.

tags
dict[str, str]
Erforderlich

Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.

show_progress
bool
Erforderlich

Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.

row_group_size
Erforderlich

Optional. Maximale Größe der Zeilengruppe, die beim Schreiben einer Parquet-Datei verwendet werden soll. Der Standardwert ist „None“.

make_target_path_unique
Erforderlich

Optional gibt an, ob ein eindeutiger Unterordner im Ziel erstellt werden soll. Der Standardwert ist „True“.

Gibt zurück

Das registrierte Dataset.

Rückgabetyp

register_spark_dataframe

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Erstellen Sie ein Dataset aus dem Spark-Dataframe.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameter

dataframe
DataFrame
Erforderlich

Erforderlich. Im hochzuladenden Speicherdataframe.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Erforderlich

Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.

name
str
Erforderlich

Erforderlich. Der Name des registrierten Datasets.

description
str
Erforderlich

Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.

tags
dict[str, str]
Erforderlich

Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.

show_progress
bool
Erforderlich

Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.

Gibt zurück

Das registrierte Dataset.

Rückgabetyp