TabularDatasetFactory Klasse

Referenz

Enthält Methoden zum Erstellen eines Tabellendatasets für Azure Machine Learning.

Ein TabularDataset wird mithilfe der from_*-Methoden in dieser Klasse erstellt (z. B. Methode from_delimited_files).

Weitere Informationen zum Arbeiten mit Tabellendatasets finden Sie im Notebook https://aka.ms/tabulardataset-samplenotebook.

Vererbung: builtins.object

TabularDatasetFactory

Konstruktor

TabularDatasetFactory()

Methoden

from_delimited_files	Erstellen Sie ein TabularDataset, um Tabellendaten in durch Trennzeichen getrennten Dateien (z. B. CSV und TSV) darzustellen.
from_json_lines_files	Erstellen Sie ein TabularDataset, um Tabellendaten in JSON Lines-Dateien (http://jsonlines.org/) darzustellen.
from_parquet_files	Erstellen Sie ein TabularDataset, um Tabellendaten in Parquet-Dateien darzustellen.
from_sql_query	Erstellen Sie ein TabularDataset, um Tabellendaten in SQL-Datenbanken darzustellen.
register_dask_dataframe	Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Erstellen Sie ein Dataset aus dem dask-Dataframe.
register_pandas_dataframe	Erstellen eines Datasets aus pandas-Dataframes.
register_spark_dataframe	Hinweis Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen. Erstellen Sie ein Dataset aus dem Spark-Dataframe.

from_delimited_files

Erstellen Sie ein TabularDataset, um Tabellendaten in durch Trennzeichen getrennten Dateien (z. B. CSV und TSV) darzustellen.

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Parameter

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Erforderlich

Der Pfad zu den Quelldateien, die ein einzelner Wert oder eine Liste von URL-Zeichenfolgen (http[s]|abfs[s]|wasb[s]), DataPath Objekt oder Tupel von Datastore und relativer Pfad sein können. Die Liste der Pfade kann nicht sowohl URLs als auch Datenspeicher enthalten.

validate: bool

Erforderlich

Boolescher Wert, um zu überprüfen, ob Daten aus dem zurückgegebenen Dataset geladen werden können. Der Standardwert ist „True“. Die Überprüfung erfordert, dass auf die Datenquelle über die aktuelle Computeeinheit zugegriffen werden kann. Um die Überprüfung zu deaktivieren, muss „infer_column_types“ ebenfalls auf „False“ festgelegt werden.

include_path: bool

Erforderlich

Boolescher Wert, um Pfadinformationen als Spalte im Dataset beizubehalten. Der Standardwert lautet „False“. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Außerdem können Sie damit nützliche Informationen im Dateipfad speichern.

infer_column_types: bool

Erforderlich

Boolescher Wert, um Spaltendatentypen abzuleiten. Der Standardwert ist „True“. Der Typrückschluss erfordert, dass über die aktuelle Computeeinheit auf die Datenquelle zugegriffen werden kann. Derzeit werden beim Typrückschluss nur die ersten 200 Zeilen abgerufen. Wenn die Daten mehrere Werttypen enthalten, ist es besser, den gewünschten Typ als Überschreibung über das Argument „set_column_types“ bereitzustellen. Codebeispiele zu „set_column_types“ finden Sie im Abschnitt „Hinweise“.

set_column_types: dict[str, DataType]

Erforderlich

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.

separator: str

Erforderlich

Das Trennzeichen für das Aufteilen von Spalten.

header: bool oder PromoteHeadersBehavior

Erforderlich

Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden. Der Standardwert ist „True“ für alle Dateien mit demselben Header. Wenn „header=False“ entspricht, werden Dateien als Dateien ohne Header gelesen. Weitere Optionen können mithilfe des Enumerationswerts PromoteHeadersBehavior angegeben werden.

partition_format: str

Erforderlich

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.csv“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

support_multi_line: bool

Erforderlich

Standardmäßig (support_multi_line=False) werden alle Zeilenumbrüche, einschließlich derjenigen in Feldwerten in Anführungszeichen, als Datensatzumbruch interpretiert. Das Lesen von Daten auf diese Weise ist schneller und für die parallele Ausführung auf mehreren CPU-Kernen optimiert. Es kann jedoch dazu führen, dass im Hintergrund mehr Datensätze mit falsch ausgerichteten Feldwerten erzeugt werden. Dieser sollte auf „True“ festgelegt werden, wenn bekannt ist, dass die durch Trennzeichen getrennten Dateien Zeilenumbrüche in Anführungszeichen enthalten.

Anhand dieser CSV-Datei als Beispiel werden die Daten basierend auf „support_multi_line“ unterschiedlich gelesen.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2

empty_as_string: bool

Erforderlich

Geben Sie an, ob leere Feldwerte als leere Zeichenfolgen geladen werden sollen. Der Standardwert (False) liest leere Feldwerte als NULL-Werte. Wenn Sie dies als „True“ übergeben, werden leere Feldwerte als leere Zeichenfolgen gelesen. Wenn die Werte in numerische Werte oder datetime-Werte konvertiert werden, hat dies keine Auswirkungen, da leere Werte in NULL-Werte konvertiert werden.

encoding: str

Erforderlich

Geben Sie die Dateicodierung an. Die unterstützten Codierungen sind „utf8“, „iso88591“, „latin1“, „ascii“, „utf16“, „utf32“, „utf8bom“ und „windows1252“.

Gibt zurück

Gibt ein TabularDataset-Objekt zurück.

Rückgabetyp

TabularDataset

Hinweise

from_delimited_files erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus durch Trennzeichen getrennten Dateien in eine tabellarische Darstellung definiert.

Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die durch Pfad angegebenen durch Trennzeichen getrennten Dateien in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access

Spaltendatentypen werden standardmäßig aus Daten in den durch Trennzeichen getrennten Dateien abgeleitet. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Erstellen Sie ein TabularDataset, um Tabellendaten in JSON Lines-Dateien (http://jsonlines.org/) darzustellen.

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Parameter

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Erforderlich

validate: bool

Erforderlich

include_path: bool

Erforderlich

set_column_types: dict[str, DataType]

Erforderlich

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.

partition_format: str

Erforderlich

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.jsonl“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

invalid_lines: str

Erforderlich

Behandeln von Zeilen, die ein ungültiges JSON-Format aufweisen. Unterstützte Werte sind „error“ und „drop“.

encoding: str

Erforderlich

Geben Sie die Dateicodierung an. Die unterstützten Codierungen sind „utf8“, „iso88591“, „latin1“, „ascii“, „utf16“, „utf32“, „utf8bom“ und „windows1252“.

Gibt zurück

Gibt ein TabularDataset-Objekt zurück.

Rückgabetyp

TabularDataset

Hinweise

from_json_lines_files erstellt ein Objekt der TabularDataset-Klasse, die die Vorgänge zum Laden von Daten aus JSON Lines-Dateien in tabellarische Darstellungen definiert.

Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die json Lines-Dateien, die im Pfad angegeben sind, in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access

Spaltendatentypen werden aus Datentypen gelesen, die in den JSON Lines-Dateien gespeichert sind. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Erstellen Sie ein TabularDataset, um Tabellendaten in Parquet-Dateien darzustellen.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Parameter

path: Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]

Erforderlich

validate: bool

Erforderlich

include_path: bool

Erforderlich

set_column_types: dict[str, DataType]

Erforderlich

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.

partition_format: str

Erforderlich

Geben Sie das Partitionsformat des Pfads an. Der Standardwert ist „None“. Die Partitionsinformationen für die einzelnen Pfade werden basierend auf dem angegebenen Format in Spalten extrahiert. Mit dem Formatteil „{column_name}“ wird eine Zeichenfolgenspalte erstellt, und „{column_name:yyyyyy/MM/dd/HH/mm/ss}“ erstellt eine datetime-Spalte, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ verwendet werden, um Jahr, Monat, Tag, Stunde, Minute und Sekunde für den datetime-Typ zu extrahieren. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Geben Sie beispielsweise den Pfad „../Accounts/2019/01/01/data.parquet“ an. Die Partition erfolgt dabei nach Abteilungsname und Uhrzeit. „partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ erstellt eine Zeichenfolgenspalte namens „Department“ (Abteilung) mit dem Wert „Accounts“ (Konten) und eine datetime-Spalte namens „PartitionDate“ (Partitionsdatum) mit dem Wert „2019-01-01“.

Gibt zurück

Gibt ein TabularDataset-Objekt zurück.

Rückgabetyp

TabularDataset

Hinweise

from_parquet_files erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus Parquet-Dateien in eine tabellarische Darstellung definiert.

Damit Azure Machine Learning auf die Daten zugreifen kann, müssen sich die im Pfad angegebenen Parquet-Dateien in Datastore oder hinter öffentlichen Web-URLs oder URL von Blob, ADLS Gen1 und ADLS Gen2 befinden. Das AAD-Token des Benutzers wird im Notebook oder im lokalen Python-Programm verwendet, wenn es direkt eine der folgenden Funktionen aufruft: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files die Identität des Computeziels wird in Aufträgen verwendet, die von Experiment.submit für die Datenzugriffsauthentifizierung übermittelt werden. Weitere Informationen: https://aka.ms/data-access

Spaltendatentypen werden aus Datentypen gelesen, die in den Parquet-Dateien gespeichert sind. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Erstellen Sie ein TabularDataset, um Tabellendaten in SQL-Datenbanken darzustellen.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Parameter

query: Union[DataPath, (Datastore, str)]

Erforderlich

Ein SQL-ähnlicher Datenspeicher und eine Abfrage.

validate: bool

Erforderlich

set_column_types: dict[str, DataType]

Erforderlich

Ein Wörterbuch zum Festlegen des Spaltendatentyps, wobei der Schlüssel der Spaltenname und der Wert DataType ist.

query_timeout

Erforderlich

Legt die Zeit (in Sekunden) fest, die gewartet werden soll, bis der Versuch einer Befehlsausführung beendet und ein Fehler generiert wird. Der Standardwert ist 30 Sekunden.

Gibt zurück

Gibt ein TabularDataset-Objekt zurück.

Rückgabetyp

TabularDataset

Hinweise

from_sql_query erstellt ein Objekt der TabularDataset-Klasse, das die Vorgänge zum Laden von Daten aus SQL-Datenbanken in eine tabellarische Darstellung definiert. Derzeit wird nur „MSSQLDataSource“ unterstützt.

Damit auf die Daten von Azure Machine Learning zugegriffen werden kann, muss sich die SQL-Datenbank, die von query angegeben wird, in Datastore befinden, und der Datenspeichertyp muss einen SQL-Typ aufweisen.

Spaltendatentypen werden aus Datentypen in SQL-Abfrageergebnissen gelesen. Durch Angeben von set_column_types wird der Datentyp für die angegebenen Spalten im zurückgegebenen TabularDataset überschrieben.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Erstellen Sie ein Dataset aus dem dask-Dataframe.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameter

dataframe: <xref:dask.dataframe.core.DataFrame>

Erforderlich

Erforderlich. Der dask-Dataframe, der hochgeladen werden soll.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Erforderlich

Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.

name: str

Erforderlich

Erforderlich. Der Name des registrierten Datasets.

description: str

Erforderlich

Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.

tags: dict[str, str]

Erforderlich

Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.

show_progress: bool

Erforderlich

Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.

Gibt zurück

Das registrierte Dataset.

Rückgabetyp

TabularDataset

register_pandas_dataframe

Erstellen eines Datasets aus pandas-Dataframes.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Parameter

dataframe: DataFrame

Erforderlich

Erforderlich. Im hochzuladenden Speicherdataframe.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Erforderlich

Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.

name: str

Erforderlich

Erforderlich. Der Name des registrierten Datasets.

description: int

Erforderlich

Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.

tags: dict[str, str]

Erforderlich

Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.

show_progress: bool

Erforderlich

Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.

row_group_size

Erforderlich

Optional. Maximale Größe der Zeilengruppe, die beim Schreiben einer Parquet-Datei verwendet werden soll. Der Standardwert ist „None“.

make_target_path_unique

Erforderlich

Optional gibt an, ob ein eindeutiger Unterordner im Ziel erstellt werden soll. Der Standardwert ist „True“.

Gibt zurück

Das registrierte Dataset.

Rückgabetyp

TabularDataset

register_spark_dataframe

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Erstellen Sie ein Dataset aus dem Spark-Dataframe.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Parameter

dataframe: DataFrame

Erforderlich

Erforderlich. Im hochzuladenden Speicherdataframe.

target: Union[DataPath, Datastore, tuple(Datastore, str)]

Erforderlich

Erforderlich. Der Datenspeicherpfad, in den die Parquet-Daten des Dataframes hochgeladen werden. Ein GUID-Ordner wird unter dem Zielpfad generiert, um Konflikte zu vermeiden.

name: str

Erforderlich

Erforderlich. Der Name des registrierten Datasets.

description: str

Erforderlich

Optional. Eine Textbeschreibung des Datasets. Der Standardwert ist „None“.

tags: dict[str, str]

Erforderlich

Optional. Wörterbuch mit Schlüsselwerttags für das Dataset. Der Standardwert ist „None“.

show_progress: bool

Erforderlich

Optional. Gibt an, ob der Fortschritt des Uploads in der Konsole angezeigt werden soll. Der Standardwert ist „True“.

Gibt zurück

Das registrierte Dataset.

Rückgabetyp

TabularDataset

Freigeben über

TabularDatasetFactory Klasse

Konstruktor

Methoden

from_delimited_files

Parameter

Gibt zurück

Rückgabetyp

Hinweise

from_json_lines_files

Parameter

Gibt zurück

Rückgabetyp

Hinweise

from_parquet_files

Parameter

Gibt zurück

Rückgabetyp

Hinweise

from_sql_query

Parameter

Gibt zurück

Rückgabetyp

Hinweise

register_dask_dataframe

Parameter

Gibt zurück

Rückgabetyp

register_pandas_dataframe

Parameter

Gibt zurück

Rückgabetyp

register_spark_dataframe

Parameter

Gibt zurück

Rückgabetyp

Feedback

Feedback

Zusätzliche Ressourcen