Dataset Klasse

Stellt eine Ressource für das Untersuchen, Transformieren und Verwalten von Daten in Azure Machine Learning dar

Ein Dataset ist ein Verweis auf Daten in einem Datastore oder hinter öffentlichen Web-URLs.

Für die veralteten Methoden in dieser Klasse finden Sie verbesserte APIs in der AbstractDataset-Klasse.

Die folgenden Datasettypen werden unterstützt:

  • TabularDataset stellt Daten in einem tabellarischen Format bereit, das durch Analysieren der bereitgestellten Datei oder Liste von Dateien erstellt wird.

  • FileDataset verweist auf Dateien in Datenspeichern oder unter öffentlichen URLs.

Informationen zu den ersten Schritten mit Datasets finden Sie im Artikel Hinzufügen & Registrieren von Datasets oder in den Notebooks https://aka.ms/tabulardataset-samplenotebook und https://aka.ms/filedataset-samplenotebook.

Initialisieren Sie das Dataset-Objekt.

Verwenden Sie die get-Methode, um ein Dataset abzurufen, das bereits im Arbeitsbereich registriert wurde.

Vererbung
builtins.object
Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Parameter

definition
<xref:azureml.data.DatasetDefinition>
Erforderlich

Die Datasetdefinition.

workspace
Workspace
Erforderlich

Der Arbeitsbereich, in dem sich das Dataset befindet.

name
str
Erforderlich

Der Name des Datasets.

id
str
Erforderlich

Der eindeutige Bezeichner des Datasets.

Hinweise

Die Dataset-Klasse macht zwei praktische Klassenattribute (File und Tabular) verfügbar, die Sie zum Erstellen eines Datasets ohne die entsprechenden Factorymethoden verwenden können. So erstellen Sie beispielsweise ein Dataset mit diesen Attributen

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Sie können auch ein neues TabularDataset oder FileDataset erstellen, indem Sie die entsprechenden Factorymethoden der in TabularDatasetFactory und FileDatasetFactory definierten Klasse direkt aufrufen.

Im folgenden Beispiel wird gezeigt, wie ein TabularDataset erstellt wird, das auf einen einzelnen Pfad in einem Datenspeicher verweist.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Das vollständige Beispiel finden Sie unter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb.

Variablen

azureml.core.Dataset.File

Ein Klassenattribut, das den Zugriff auf die FileDatasetFactory-Methoden zum Erstellen neuer FileDataset-Objekte ermöglicht. Verwendung: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Ein Klassenattribut, das den Zugriff auf die TabularDatasetFactory-Methoden zum Erstellen neuer TabularDataset-Objekte ermöglicht. Verwendung: Dataset.Tabular.from_delimited_files().

Methoden

archive

Archiviert ein aktives oder veraltetes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

auto_read_files

Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

compare_profiles

Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil.

Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

delete_snapshot

Löscht die Momentaufnahme des Datasets anhand ihres Namens.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

deprecate

Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

diff

Vergleicht das aktuelle Dataset mit rhs_dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_binary_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_delimited_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_json_files

Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_parquet_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

from_sql_query

Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

generate_profile

Generiert ein neues Profil für das Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get

Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_all

Ruft alle registrierten Datasets im Arbeitsbereich ab.

get_all_snapshots

Ruft alle Momentaufnahmen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_by_id

Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.

get_by_name

Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.

get_definition

Ruft eine bestimmte Definition des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_definitions

Ruft alle Definitionen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_profile

Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_snapshot

Ruft die Momentaufnahme des Datasets anhand ihres Namens ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

head

Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

list

Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren is_visible-Eigenschaft „False“ ist.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

reactivate

Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

register

Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

sample

Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_spark_dataframe

Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update

Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update_definition

Aktualisiert die Datasetdefinition.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

archive

Archiviert ein aktives oder veraltetes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

archive()

Gibt zurück

Keine.

Rückgabetyp

Hinweise

Nach der Archivierung führt jeder Versuch, das Dataset zu verwenden, zu einem Fehler. Bei einer zufälligen Archivierung kann es durch eine erneute Aktivierung wieder verwendet werden.

auto_read_files

Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parameter

path
DataReference oder str
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL (CSV/TSV).

include_path
bool
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Ist beim Lesen mehrerer Dateien hilfreich, wenn Sie wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Auch nützlich, wenn Informationen im Dateipfad oder Namen enthalten sind, die Sie in einer Spalte verwenden möchten.

partition_format
str
Erforderlich

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.csv“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Datasetobjekt.

Rückgabetyp

Hinweise

Verwenden Sie diese Methode, wenn Dateiformate und Trennzeichen automatisch erkannt werden sollen.

Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

compare_profiles

Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil.

Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameter

rhs_dataset
Dataset
Erforderlich

Ein zweites Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird.

profile_arguments
dict
Erforderlich

Argumente zum Abrufen eines bestimmten Profils.

include_columns
list[str]
Erforderlich

Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen.

exclude_columns
list[str]
Erforderlich

Liste der Spaltennamen, die aus dem Vergleich ausgeschlossen werden sollen.

histogram_compare_method
HistogramCompareMethod
Erforderlich

Enumeration zur Beschreibung der Vergleichsmethode, z. B.: Wasserstein oder Energy.

Gibt zurück

Unterschied zwischen den beiden Datasetprofilen.

Rückgabetyp

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Hinweise

Gilt nur für registrierte Datasets. Löst eine Ausnahme aus, wenn das Profil des aktuellen Datasets nicht vorhanden ist. Verwenden Sie für nicht registrierte Datasets die profile.compare-Methode.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

snapshot_name
str
Erforderlich

Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein.

compute_target
Union[ComputeTarget, str]
Erforderlich

Optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

create_data_snapshot
bool
Erforderlich

TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird.

target_datastore
Union[AbstractAzureStorageDatastore, str]
Erforderlich

Zieldatenspeicher zum Speichern der Momentaufnahme. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt.

Gibt zurück

Datasetmomentaufnahme-Objekt.

Rückgabetyp

Hinweise

Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Löscht die Momentaufnahme des Datasets anhand ihres Namens.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parameter

snapshot_name
str
Erforderlich

Der Name der Momentaufnahme.

Gibt zurück

Keine.

Rückgabetyp

Hinweise

Damit können Sie Speicher freigeben, der von Daten in Momentaufnahmen verwendet wird, die Sie nicht mehr benötigen.

deprecate

Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parameter

deprecate_by_dataset_id
str
Erforderlich

Die Dataset-ID, die als Ersatz für dieses Dataset vorgesehen ist.

Gibt zurück

Keine.

Rückgabetyp

Hinweise

Veraltete Datasets führen zu Protokollwarnungen, wenn sie verwendet werden. Durch das Kennzeichnen eines Datasets als veraltet werden alle enthaltenen Definitionen als veraltet gekennzeichnet.

Veraltete Datasets können weiterhin verwendet werden. Wenn Sie ein Dataset vollständig von der Verwendung ausschließen möchten, archivieren Sie es.

Bei einer zufälligen Kennzeichnung als veraltet kann es durch eine erneute Aktivierung wieder verwendet werden.

diff

Vergleicht das aktuelle Dataset mit rhs_dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parameter

rhs_dataset
Dataset
Erforderlich

Ein anderes Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird.

compute_target
Union[ComputeTarget, str]
Erforderlich

Computeziel für den Vergleich. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

columns
list[str]
Erforderlich

Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen.

Gibt zurück

Ausführungsobjekt für eine Datasetaktion.

Rückgabetyp

from_binary_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parameter

path
DataReference oder str
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.

Gibt zurück

Das Datasetobjekt.

Rückgabetyp

Hinweise

Verwenden Sie diese Methode, um Dateien als Datenströme von Binärdaten zu lesen. Gibt ein Dateidatenstrom-Objekt pro gelesener Datei zurück. Verwenden Sie diese Methode, wenn Sie Bilder, Videos, Audiodaten oder andere Binärdaten lesen.

get_profile und create_snapshot funktionieren nicht wie erwartet für ein Dataset, das mit dieser Methode erstellt wurde.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_delimited_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parameter

path
DataReference oder str
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL.

separator
str
Erforderlich

Das Trennzeichen für das Aufteilen von Spalten.

header
PromoteHeadersBehavior
Erforderlich

Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden.

encoding
FileEncoding
Erforderlich

Die Codierung der zu lesenden Dateien.

quoting
bool
Erforderlich

Gibt an, wie Neue-Zeile-Zeichen in Anführungszeichen behandelt werden. Beim Standardwert (False) werden Neue-Zeile-Zeichen als Start neuer Zeilen interpretiert, unabhängig davon, ob die Neue-Zeile-Zeichen in Anführungszeichen stehen. Bei einer Festlegung auf „True“ führen Neue-Zeile-Zeichen in Anführungszeichen nicht zu neuen Zeilen, und die Lesegeschwindigkeit von Dateien verlangsamt sich.

infer_column_types
bool
Erforderlich

Gibt an, ob Spaltendatentypen abgeleitet werden.

skip_rows
int
Erforderlich

Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen.

skip_mode
SkipLinesBehavior
Erforderlich

Steuert, wie Zeilen beim Lesen aus Dateien übersprungen werden.

comment
str
Erforderlich

Zeichen, das verwendet wird, um Kommentarzeilen in den zu lesenden Dateien anzugeben. Zeilen, die mit dieser Zeichenfolge beginnen, werden übersprungen.

include_path
bool
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

archive_options
<xref:azureml.dataprep.ArchiveOptions>
Erforderlich

Optionen für Archivdateien, einschließlich Archivtyp und Eintragsglobmuster. Derzeit wird nur ZIP als Archivtyp unterstützt. Bei der Angabe von


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

werden z. B. alle Dateien im ZIP-Archiv gelesen, deren Name auf „10-20.csv“ endet.

partition_format
str
Erforderlich

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.csv“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Datasetobjekt.

Rückgabetyp

Hinweise

Verwenden Sie diese Methode, um durch Trennzeichen getrennte Textdateien zu lesen, wenn Sie die verwendeten Optionen steuern möchten.

Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_excel_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parameter

path
DataReference oder str
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.

sheet_name
str
Erforderlich

Der Name der zu ladenden Excel-Tabelle. Standardmäßig wird das erste Tabellenblatt aus jeder Excel-Datei gelesen.

use_column_headers
bool
Erforderlich

Legt fest, ob die erste Zeile für die Spaltenheader verwendet werden soll.

skip_rows
int
Erforderlich

Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen.

include_path
bool
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

infer_column_types
bool
Erforderlich

„True“ gibt an, dass Spaltendatentypen abgeleitet werden.

partition_format
str
Erforderlich

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.xlsx“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Datasetobjekt.

Rückgabetyp

Hinweise

Verwenden Sie diese Methode, um Excel-Dateien im XLSX-Format zu lesen. Daten können aus einem Tabellenblatt in jeder Excel-Datei gelesen werden. Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten. Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_json_files

Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parameter

path
DataReference oder str
Erforderlich

Der Pfad zu den Dateien oder Ordnern, die Sie laden und analysieren möchten. Dabei kann es sich entweder um einen lokalen Pfad oder um eine Azure-Blob-URL handeln. Die Verwendung von Platzhaltern wird unterstützt. Sie können beispielsweise path = „./data*“ verwenden, um alle Dateien mit einem Namen zu lesen, der mit „data“ beginnt.

encoding
FileEncoding
Erforderlich

Die Codierung der zu lesenden Dateien.

flatten_nested_arrays
bool
Erforderlich

Eigenschaft, die die Verarbeitung geschachtelter Arrays durch das Programm steuert. Wenn Sie geschachtelte JSON-Arrays vereinfachen möchten, kann dies zu einer erheblich größeren Anzahl von Zeilen führen.

include_path
bool
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad, aus dem die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

partition_format
str
Erforderlich

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.json“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.json“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Das lokale Datasetobjekt.

Rückgabetyp

from_pandas_dataframe

Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parameter

dataframe
DataFrame
Erforderlich

Der Pandas-Datenrahmen.

path
Union[DataReference, str]
Erforderlich

Ein Datenpfad im registrierten Datenspeicher oder ein lokaler Ordnerpfad.

in_memory
bool
Erforderlich

Gibt an, ob der Datenrahmen aus dem Arbeitsspeicher gelesen werden soll, anstatt auf dem Datenträger persistent gespeichert zu werden.

Gibt zurück

Ein Datasetobjekt.

Rückgabetyp

Hinweise

Verwenden Sie diese Methode, um einen Pandas-Datenrahmen in ein Datasetobjekt zu konvertieren. Ein mit dieser Methode erstelltes Dataset kann nicht registriert werden, da die Daten aus dem Arbeitsspeicher stammen.

Wenn in_memory „False“ ist, wird der Pandas-Datenrahmen lokal in eine CSV-Datei konvertiert. Wenn pat vom Typ DataReference ist, wird der Pandas-Rahmen in den Datenspeicher hochgeladen, und das Dataset basiert auf DataReference. Wenn „path“ ein lokaler Ordner ist, wird das Dataset aus der lokalen Datei erstellt, die nicht gelöscht werden kann.

Löst eine Ausnahme aus, wenn der aktuelle DataReference kein Ordnerpfad ist.

from_parquet_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parameter

path
DataReference oder str
Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.

include_path
bool
Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

partition_format
str
Erforderlich

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.parquet“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Datasetobjekt.

Rückgabetyp

Hinweise

Verwenden Sie diese Methode, um Parquet-Dateien zu lesen.

Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_sql_query

Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parameter

data_source
AzureSqlDatabaseDatastore
Erforderlich

Die Details des Azure SQL-Datenspeichers.

query
str
Erforderlich

Die Abfrage, die zum Lesen von Daten ausgeführt werden soll.

Gibt zurück

Das lokale Datasetobjekt.

Rückgabetyp

generate_profile

Generiert ein neues Profil für das Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parameter

compute_target
Union[ComputeTarget, str]
Erforderlich

Ein optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

workspace
Workspace
Erforderlich

Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets.

arguments
dict[str, object]
Erforderlich

Profilargumente. Gültige Argumente sind:

  • „include_stype_counts“ vom Typ bool. Überprüfen Sie, ob die Werte wie einige bekannte semantische Typen aussehen, z. B. E-Mail-Adresse, IP-Adresse (V4/V6), US-Telefonnummer, US-Postleitzahl, Breiten- und Längengrad. Die Aktivierung wirkt sich auf die Leistung aus.

  • „number_of_histogram_bins“ vom Typ int. Stellt die Anzahl der Histogrammintervalle dar, die für numerische Daten verwendet werden. Der Standardwert ist 10.

Gibt zurück

Ausführungsobjekt für eine Datasetaktion.

Rückgabetyp

Hinweise

Synchroner Aufruf. Wird bis zu seinem Abschluss blockiert. Rufen Sie get_result auf, um das Ergebnis der Aktion abzurufen.

get

Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parameter

workspace
Workspace
Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset erstellt wurde.

name
str
Erforderlich

Der Name des abzurufenden Datasets.

id
str
Erforderlich

Ein eindeutiger Bezeichner des Datasets im Arbeitsbereich.

Gibt zurück

Das Dataset mit dem angegebenen Namen oder der angegebenen ID.

Rückgabetyp

Hinweise

Sie können entweder name oder id angeben. In folgenden Fällen wird eine Ausnahme ausgelöst:

  • Sowohl name als auch id wurden angegeben, stimmen aber nicht überein.

  • Das Dataset mit dem angegebenen name oder der angegebenen id kann nicht im Arbeitsbereich gefunden werden.

get_all

Ruft alle registrierten Datasets im Arbeitsbereich ab.

get_all()

Parameter

workspace
Workspace
Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem die Datasets registriert wurden.

Gibt zurück

Ein Wörterbuch von TabularDataset- und FileDataset-Objekten. Als Schlüssel wird ihr Registrierungsname verwendet.

Rückgabetyp

get_all_snapshots

Ruft alle Momentaufnahmen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_all_snapshots()

Gibt zurück

Liste von Datasetmomentaufnahmen.

Rückgabetyp

get_by_id

Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.

get_by_id(id, **kwargs)

Parameter

workspace
Workspace
Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset gespeichert wurde.

id
str
Erforderlich

Die ID des Datasets.

Gibt zurück

Das Datasetobjekt. Wenn das Dataset registriert wurde, werden auch der Registrierungsname und die Version zurückgegeben.

Rückgabetyp

get_by_name

Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.

get_by_name(name, version='latest', **kwargs)

Parameter

workspace
Workspace
Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset registriert wurde.

name
str
Erforderlich

Der Registrierungsname.

version
int
Erforderlich

Die Registrierungsversion. Der Standardwert ist „latest“.

Gibt zurück

Das registrierte Datasetobjekt.

Rückgabetyp

get_definition

Ruft eine bestimmte Definition des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parameter

version_id
str
Erforderlich

Die Versions-ID der Datasetdefinition.

Gibt zurück

Die Datasetdefinition.

Rückgabetyp

Hinweise

Wenn version_id angegeben wird, versucht Azure Machine Learning, die Definition abzurufen, die dieser Version entspricht. Wenn diese Version nicht vorhanden ist, wird eine Ausnahme ausgelöst. Wenn version_id ausgelassen wird, wird die neueste Version abgerufen.

get_definitions

Ruft alle Definitionen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_definitions()

Gibt zurück

Ein Wörterbuch mit Datasetdefinitionen.

Rückgabetyp

Hinweise

Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition ist die zuletzt erstellte.

Für nicht registrierte Datasets gibt es nur eine Definition.

get_profile

Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parameter

arguments
dict[str, object]
Erforderlich

Profilargumente.

generate_if_not_exist
bool
Erforderlich

Gibt an, ob ein Profil generiert werden soll, wenn keines vorhanden ist.

workspace
Workspace
Erforderlich

Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets.

compute_target
Union[ComputeTarget, str]
Erforderlich

Ein Computeziel zum Ausführen der Profilaktion.

Gibt zurück

DataProfile des Datasets.

Rückgabetyp

<xref:azureml.dataprep.DataProfile>

Hinweise

Für ein Dataset, das in einem Azure Machine Learning-Arbeitsbereich registriert ist, ruft diese Methode ein vorhandenes Profil ab, das zuvor erstellt wurde, indem get_profile aufgerufen wird, wenn es noch gültig ist. Profile werden ungültig, wenn geänderte Daten im Dataset gefunden werden oder die Argumente für get_profile sich von den Argumenten unterscheiden, die beim Generieren des Profils verwendet wurden. Wenn das Profil nicht vorhanden oder ungültig ist, bestimmt generate_if_not_exist, ob ein neues Profil generiert wird.

Für ein Dataset, das nicht in einem Azure Machine Learning-Arbeitsbereich registriert ist, führt diese Methode immer generate_profile aus und gibt das Ergebnis zurück.

get_snapshot

Ruft die Momentaufnahme des Datasets anhand ihres Namens ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parameter

snapshot_name
str
Erforderlich

Der Name der Momentaufnahme.

Gibt zurück

Datasetmomentaufnahme-Objekt.

Rückgabetyp

head

Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

head(count)

Parameter

count
int
Erforderlich

Die Anzahl der abzurufenden Datensätze.

Gibt zurück

Ein Pandas-Datenrahmen.

Rückgabetyp

list

Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren is_visible-Eigenschaft „False“ ist.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static list(workspace)

Parameter

workspace
Workspace
Erforderlich

Der Arbeitsbereich, für den Sie die Liste der Datasets abrufen möchten.

Gibt zurück

Eine Liste von Datasetobjekten.

Rückgabetyp

reactivate

Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

reactivate()

Gibt zurück

Keine.

Rückgabetyp

register

Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parameter

workspace
Workspace
Erforderlich

Der AzureML-Arbeitsbereich, in dem das Dataset registriert werden soll.

name
str
Erforderlich

Der Name des Datasets im Arbeitsbereich.

description
str
Erforderlich

Eine Beschreibung des Datasets.

tags
dict[str, str]
Erforderlich

Tags, die dem Dataset zugeordnet werden sollen.

visible
bool
Erforderlich

Gibt an, ob das Dataset auf der Benutzeroberfläche sichtbar ist. „False“ gibt an, dass das Dataset auf der Benutzeroberfläche ausgeblendet und über das SDK verfügbar ist.

exist_ok
bool
Erforderlich

Bei „True“ gibt die Methode das Dataset zurück, wenn es bereits im angegebenen Arbeitsbereich vorhanden ist. Andernfalls tritt ein Fehler auf.

update_if_exist
bool
Erforderlich

Wenn exist_ok „True“ und update_if_exist „True“ ist, aktualisiert diese Methode die Definition und gibt das aktualisierte Dataset zurück.

Gibt zurück

Ein registriertes Datasetobjekt im Arbeitsbereich.

Rückgabetyp

sample

Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parameter

sample_strategy
str
Erforderlich

Zu verwendende Samplingstrategie. Zulässige Werte sind „top_n“, „simple_random“ oder „stratified“.

arguments
dict[str, object]
Erforderlich

Ein Wörterbuch mit Schlüsseln aus dem „optionalen Argument“ in der oben gezeigten Liste und Werten aus der Spalte „Type“. Es können nur Argumente der entsprechenden Samplingmethode verwendet werden. Für den Beispieltyp „simple_random“ können Sie beispielsweise nur ein Wörterbuch mit den Schlüsseln „probability“ und „seed“ angeben.

Gibt zurück

Datasetobjekt als Beispiel für das ursprüngliche Dataset.

Rückgabetyp

Hinweise

Stichproben werden generiert, indem die durch dieses Dataset definierte Transformationspipeline ausgeführt und dann die Samplingstrategie und die Parameter auf die Ausgabedaten angewandt werden. Jede Samplingmethode unterstützt die folgenden optionalen Argumente:

  • top_n

    • Optionale Argumente

      • n, Typ integer. Wählt die ersten N Zeilen als Stichprobe aus.
  • simple_random

    • Optionale Argumente

      • probability, Typ float. Einfache zufällige Stichprobenentnahme, bei der jede Zeile die gleiche Wahrscheinlichkeit hat, ausgewählt zu werden. Die Wahrscheinlichkeit (probability) muss eine Zahl zwischen 0 und 1 sein.

      • seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.

  • stratified

    • Optionale Argumente

      • columns, Typ list[str]. Liste der geschichteten Spalten in den Daten.

      • seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.

      • fractions, Typ dict[tuple, float]. Tupel: Spaltenwerte, die ein Stratum (eine Schicht) definieren. Sie müssen in der gleichen Reihenfolge wie die Spaltennamen vorliegen. Float: Gewichtung, die während der Stichprobenentnahme auf ein Stratum angewandt wird.

Die folgenden Codeausschnitte sind Beispiele für Entwurfsmuster bei verschiedenen Samplingmethoden.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Gibt zurück

Ein Pandas-Datenrahmen.

Rückgabetyp

Hinweise

Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.

to_spark_dataframe

Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Gibt zurück

Ein Spark-Datenrahmen.

Rückgabetyp

Hinweise

Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.

update

Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parameter

name
str
Erforderlich

Der Name des Datasets im Arbeitsbereich.

description
str
Erforderlich

Eine Beschreibung der Daten.

tags
dict[str, str]
Erforderlich

Tags, die dem Dataset zugeordnet werden sollen.

visible
bool
Erforderlich

Gibt an, ob das Dataset auf der Benutzeroberfläche sichtbar ist.

Gibt zurück

Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich.

Rückgabetyp

update_definition

Aktualisiert die Datasetdefinition.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parameter

definition
DatasetDefinition
Erforderlich

Die neue Definition dieses Datasets.

definition_update_message
str
Erforderlich

Die Meldung zur Definitionsaktualisierung.

Gibt zurück

Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich.

Rückgabetyp

Hinweise

Verwenden Sie das von dieser Methode zurückgegebene Objekt, um das aktualisierte Dataset zu nutzen.

Attribute

definition

Gibt die aktuelle Datasetdefinition zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Die Datasetdefinition.

Rückgabetyp

Hinweise

Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.

Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Mit mehreren Definitionen können Sie Änderungen an vorhandenen Datasets vornehmen, ohne dass dies Auswirkungen auf Modelle und Pipelines hat, die von der älteren Definition abhängen.

Für nicht registrierte Datasets gibt es nur eine Definition.

definition_version

Gibt die Version der aktuellen Definition des Datasets zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Die Version der Datasetdefinition.

Rückgabetyp

str

Hinweise

Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.

Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition, deren ID hiermit zurückgegeben wird, ist die zuletzt erstellte Definition.

Für nicht registrierte Datasets gibt es nur eine Definition.

description

Gibt die Beschreibung des Datasets zurück.

Gibt zurück

Die Datasetbeschreibung.

Rückgabetyp

str

Hinweise

Wenn Sie eine Beschreibung der Daten im Dataset angeben, wissen Benutzer*innen des Arbeitsbereichs, was die Daten darstellen und wie sie verwendet werden können.

id

Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird die ID des Datasets zurückgegeben. Andernfalls wird „None“ zurückgegeben.

Gibt zurück

Die Dataset-ID.

Rückgabetyp

str

is_visible

Steuert die Sichtbarkeit eines registrierten Datasets auf der Benutzeroberfläche des Azure Machine Learning-Arbeitsbereichs.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Die Sichtbarkeit des Datasets.

Rückgabetyp

Hinweise

Zurückgegebene Werte:

  • True: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs sichtbar. Standard.

  • False: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs nicht sichtbar.

Hat keine Auswirkungen auf nicht registrierte Datasets.

name

Gibt den Datasetnamen zurück.

Gibt zurück

Der Datasetname.

Rückgabetyp

str

state

Gibt den Zustand des Datasets zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Der Datasetzustand.

Rückgabetyp

str

Hinweise

Folgende Bedeutung und Auswirkung haben Zustände:

  • Active. Aktive Definitionen sind selbsterklärend: Alle Aktionen können für aktive Definitionen ausgeführt werden.

  • Veraltet. Veraltete Definitionen können verwendet werden, dies führt jedoch dazu, dass bei jedem Zugriff auf die zugrunde liegenden Daten eine Warnung in den Protokollen erfasst wird.

  • Archiviert. Archivierte Definitionen können nicht zum Ausführen von Aktionen verwendet werden. Um Aktionen für eine archivierte Definition auszuführen, muss sie erneut aktiviert werden.

tags

Gibt die dem Dataset zugeordneten Tags zurück.

Gibt zurück

Datasettags.

Rückgabetyp

workspace

Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird dieser zurückgegeben. Andernfalls wird „None“ zurückgegeben.

Gibt zurück

Der Arbeitsbereich.

Rückgabetyp