Dataset Klasse
Stellt eine Ressource für das Untersuchen, Transformieren und Verwalten von Daten in Azure Machine Learning dar
Ein Dataset ist ein Verweis auf Daten in einem Datastore oder hinter öffentlichen Web-URLs.
Für die veralteten Methoden in dieser Klasse finden Sie verbesserte APIs in der AbstractDataset-Klasse.
Die folgenden Datasettypen werden unterstützt:
TabularDataset stellt Daten in einem tabellarischen Format bereit, das durch Analysieren der bereitgestellten Datei oder Liste von Dateien erstellt wird.
FileDataset verweist auf Dateien in Datenspeichern oder unter öffentlichen URLs.
Informationen zu den ersten Schritten mit Datasets finden Sie im Artikel Hinzufügen & Registrieren von Datasets oder in den Notebooks https://aka.ms/tabulardataset-samplenotebook und https://aka.ms/filedataset-samplenotebook.
Initialisieren Sie das Dataset-Objekt.
Verwenden Sie die get-Methode, um ein Dataset abzurufen, das bereits beim Arbeitsbereich registriert wurde.
- Vererbung
-
builtins.objectDataset
Konstruktor
Dataset(definition, workspace=None, name=None, id=None)
Parameter
Name | Beschreibung |
---|---|
definition
Erforderlich
|
<xref:azureml.data.DatasetDefinition>
Die Datasetdefinition. |
workspace
Erforderlich
|
Der Arbeitsbereich, in dem sich das Dataset befindet. |
name
Erforderlich
|
Der Name des Datasets. |
id
Erforderlich
|
Der eindeutige Bezeichner des Datasets. |
Hinweise
Die Dataset-Klasse macht zwei praktische Klassenattribute (File
und Tabular
) verfügbar, die Sie zum Erstellen eines Datasets ohne die entsprechenden Factorymethoden verwenden können. So erstellen Sie beispielsweise ein Dataset mit diesen Attributen
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
Sie können auch ein neues TabularDataset oder FileDataset erstellen, indem Sie die entsprechenden Factorymethoden der in TabularDatasetFactory und FileDatasetFactory definierten Klasse direkt aufrufen.
Im folgenden Beispiel wird gezeigt, wie ein TabularDataset erstellt wird, das auf einen einzelnen Pfad in einem Datenspeicher verweist.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Das vollständige Beispiel finden Sie unter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb.
Variablen
Name | Beschreibung |
---|---|
azureml.core.Dataset.File
|
Ein Klassenattribut, das den Zugriff auf die FileDatasetFactory-Methoden zum Erstellen neuer FileDataset-Objekte ermöglicht. Verwendung: Dataset.File.from_files(). |
azureml.core.Dataset.Tabular
|
Ein Klassenattribut, das den Zugriff auf die TabularDatasetFactory-Methoden zum Erstellen neuer TabularDataset-Objekte ermöglicht. Verwendung: Dataset.Tabular.from_delimited_files(). |
Methoden
archive |
Archiviert ein aktives oder veraltetes Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
auto_read_files |
Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
compare_profiles |
Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil. Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
create_snapshot |
Erstellt eine Momentaufnahme des registrierten Datasets. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
delete_snapshot |
Löscht die Momentaufnahme des Datasets anhand ihres Namens. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
deprecate |
Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
diff |
Vergleicht das aktuelle Dataset mit rhs_dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_binary_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_delimited_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
|
from_excel_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_json_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_pandas_dataframe |
Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_parquet_files |
Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
from_sql_query |
Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
generate_profile |
Generiert ein neues Profil für das Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get |
Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_all |
Ruft alle registrierten Datasets im Arbeitsbereich ab. |
get_all_snapshots |
Ruft alle Momentaufnahmen des Datasets ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_by_id |
Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird. |
get_by_name |
Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab. |
get_definition |
Ruft eine bestimmte Definition des Datasets ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_definitions |
Ruft alle Definitionen des Datasets ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_profile |
Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
get_snapshot |
Ruft die Momentaufnahme des Datasets anhand ihres Namens ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
head |
Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
list |
Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
reactivate |
Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
register |
Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
sample |
Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
to_pandas_dataframe |
Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
to_spark_dataframe |
Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
update |
Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
update_definition |
Aktualisiert die Datasetdefinition. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. |
archive
Archiviert ein aktives oder veraltetes Dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
archive()
Gibt zurück
Typ | Beschreibung |
---|---|
Keine. |
Hinweise
Nach der Archivierung führt jeder Versuch, das Dataset zu verwenden, zu einem Fehler. Bei einer zufälligen Archivierung kann es durch eine erneute Aktivierung wieder verwendet werden.
auto_read_files
Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
DataReference oder
str
Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL (CSV/TSV). |
include_path
Erforderlich
|
Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Ist beim Lesen mehrerer Dateien hilfreich, wenn Sie wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Auch nützlich, wenn Informationen im Dateipfad oder Namen enthalten sind, die Sie in einer Spalte verwenden möchten. |
partition_format
Erforderlich
|
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.csv“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen. |
Gibt zurück
Typ | Beschreibung |
---|---|
Datasetobjekt. |
Hinweise
Verwenden Sie diese Methode, wenn Dateiformate und Trennzeichen automatisch erkannt werden sollen.
Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.
Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
compare_profiles
Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil.
Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameter
Name | Beschreibung |
---|---|
rhs_dataset
Erforderlich
|
Ein zweites Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird. |
profile_arguments
Erforderlich
|
Argumente zum Abrufen eines bestimmten Profils. |
include_columns
Erforderlich
|
Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen. |
exclude_columns
Erforderlich
|
Liste der Spaltennamen, die aus dem Vergleich ausgeschlossen werden sollen. |
histogram_compare_method
Erforderlich
|
Enumeration zur Beschreibung der Vergleichsmethode, z. B.: Wasserstein oder Energy. |
Gibt zurück
Typ | Beschreibung |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Unterschied zwischen den beiden Datasetprofilen. |
Hinweise
Gilt nur für registrierte Datasets. Löst eine Ausnahme aus, wenn das Profil des aktuellen Datasets nicht vorhanden ist. Verwenden Sie für nicht registrierte Datasets die profile.compare-Methode.
create_snapshot
Erstellt eine Momentaufnahme des registrierten Datasets.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameter
Name | Beschreibung |
---|---|
snapshot_name
Erforderlich
|
Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein. |
compute_target
Erforderlich
|
Optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet. |
create_data_snapshot
Erforderlich
|
TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird. |
target_datastore
Erforderlich
|
Zieldatenspeicher zum Speichern der Momentaufnahme. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt. |
Gibt zurück
Typ | Beschreibung |
---|---|
Datasetmomentaufnahme-Objekt. |
Hinweise
Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Löscht die Momentaufnahme des Datasets anhand ihres Namens.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Parameter
Name | Beschreibung |
---|---|
snapshot_name
Erforderlich
|
Der Name der Momentaufnahme. |
Gibt zurück
Typ | Beschreibung |
---|---|
Keine. |
Hinweise
Damit können Sie Speicher freigeben, der von Daten in Momentaufnahmen verwendet wird, die Sie nicht mehr benötigen.
deprecate
Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Parameter
Name | Beschreibung |
---|---|
deprecate_by_dataset_id
Erforderlich
|
Die Dataset-ID, die als Ersatz für dieses Dataset vorgesehen ist. |
Gibt zurück
Typ | Beschreibung |
---|---|
Keine. |
Hinweise
Veraltete Datasets führen zu Protokollwarnungen, wenn sie verwendet werden. Durch das Kennzeichnen eines Datasets als veraltet werden alle enthaltenen Definitionen als veraltet gekennzeichnet.
Veraltete Datasets können weiterhin verwendet werden. Wenn Sie ein Dataset vollständig von der Verwendung ausschließen möchten, archivieren Sie es.
Bei einer zufälligen Kennzeichnung als veraltet kann es durch eine erneute Aktivierung wieder verwendet werden.
diff
Vergleicht das aktuelle Dataset mit rhs_dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Parameter
Name | Beschreibung |
---|---|
rhs_dataset
Erforderlich
|
Ein anderes Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird. |
compute_target
Erforderlich
|
Computeziel für den Vergleich. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet. |
columns
Erforderlich
|
Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ausführungsobjekt für eine Datasetaktion. |
from_binary_files
Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
DataReference oder
str
Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das Datasetobjekt. |
Hinweise
Verwenden Sie diese Methode, um Dateien als Datenströme von Binärdaten zu lesen. Gibt ein Dateidatenstrom-Objekt pro gelesener Datei zurück. Verwenden Sie diese Methode, wenn Sie Bilder, Videos, Audiodaten oder andere Binärdaten lesen.
get_profile und create_snapshot funktionieren nicht wie erwartet für ein Dataset, das mit dieser Methode erstellt wurde.
Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
from_delimited_files
Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
DataReference oder
str
Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL. |
separator
Erforderlich
|
Das Trennzeichen für das Aufteilen von Spalten. |
header
Erforderlich
|
Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden. |
encoding
Erforderlich
|
Die Codierung der zu lesenden Dateien. |
quoting
Erforderlich
|
Gibt an, wie Neue-Zeile-Zeichen in Anführungszeichen behandelt werden. Beim Standardwert (False) werden Neue-Zeile-Zeichen als Start neuer Zeilen interpretiert, unabhängig davon, ob die Neue-Zeile-Zeichen in Anführungszeichen stehen. Bei einer Festlegung auf „True“ führen Neue-Zeile-Zeichen in Anführungszeichen nicht zu neuen Zeilen, und die Lesegeschwindigkeit von Dateien verlangsamt sich. |
infer_column_types
Erforderlich
|
Gibt an, ob Spaltendatentypen abgeleitet werden. |
skip_rows
Erforderlich
|
Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen. |
skip_mode
Erforderlich
|
Steuert, wie Zeilen beim Lesen aus Dateien übersprungen werden. |
comment
Erforderlich
|
Zeichen, das verwendet wird, um Kommentarzeilen in den zu lesenden Dateien anzugeben. Zeilen, die mit dieser Zeichenfolge beginnen, werden übersprungen. |
include_path
Erforderlich
|
Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten. |
archive_options
Erforderlich
|
<xref:azureml.dataprep.ArchiveOptions>
Optionen für Archivdateien, einschließlich Archivtyp und Eintragsglobmuster. Derzeit wird nur ZIP als Archivtyp unterstützt. Bei der Angabe von
werden z. B. alle Dateien im ZIP-Archiv gelesen, deren Name auf „10-20.csv“ endet. |
partition_format
Erforderlich
|
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.csv“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen. |
Gibt zurück
Typ | Beschreibung |
---|---|
Datasetobjekt. |
Hinweise
Verwenden Sie diese Methode, um durch Trennzeichen getrennte Textdateien zu lesen, wenn Sie die verwendeten Optionen steuern möchten.
Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.
Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
from_excel_files
Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
DataReference oder
str
Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad. |
sheet_name
Erforderlich
|
Der Name der zu ladenden Excel-Tabelle. Standardmäßig wird das erste Tabellenblatt aus jeder Excel-Datei gelesen. |
use_column_headers
Erforderlich
|
Legt fest, ob die erste Zeile für die Spaltenheader verwendet werden soll. |
skip_rows
Erforderlich
|
Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen. |
include_path
Erforderlich
|
Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten. |
infer_column_types
Erforderlich
|
„True“ gibt an, dass Spaltendatentypen abgeleitet werden. |
partition_format
Erforderlich
|
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.xlsx“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen. |
Gibt zurück
Typ | Beschreibung |
---|---|
Datasetobjekt. |
Hinweise
Verwenden Sie diese Methode, um Excel-Dateien im XLSX-Format zu lesen. Daten können aus einem Tabellenblatt in jeder Excel-Datei gelesen werden. Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten. Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
from_json_files
Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
DataReference oder
str
Der Pfad zu den Dateien oder Ordnern, die Sie laden und analysieren möchten. Dabei kann es sich entweder um einen lokalen Pfad oder um eine Azure-Blob-URL handeln. Die Verwendung von Platzhaltern wird unterstützt. Sie können beispielsweise path = „./data*“ verwenden, um alle Dateien mit einem Namen zu lesen, der mit „data“ beginnt. |
encoding
Erforderlich
|
Die Codierung der zu lesenden Dateien. |
flatten_nested_arrays
Erforderlich
|
Eigenschaft, die die Verarbeitung geschachtelter Arrays durch das Programm steuert. Wenn Sie geschachtelte JSON-Arrays vereinfachen möchten, kann dies zu einer erheblich größeren Anzahl von Zeilen führen. |
include_path
Erforderlich
|
Gibt an, ob eine Spalte mit dem Pfad, aus dem die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten. |
partition_format
Erforderlich
|
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.json“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.json“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das lokale Datasetobjekt. |
from_pandas_dataframe
Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Parameter
Name | Beschreibung |
---|---|
dataframe
Erforderlich
|
Der Pandas-Datenrahmen. |
path
Erforderlich
|
Ein Datenpfad im registrierten Datenspeicher oder ein lokaler Ordnerpfad. |
in_memory
Erforderlich
|
Gibt an, ob der Datenrahmen aus dem Arbeitsspeicher gelesen werden soll, anstatt auf dem Datenträger persistent gespeichert zu werden. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Datasetobjekt. |
Hinweise
Verwenden Sie diese Methode, um einen Pandas-Datenrahmen in ein Datasetobjekt zu konvertieren. Ein mit dieser Methode erstelltes Dataset kann nicht registriert werden, da die Daten aus dem Arbeitsspeicher stammen.
Wenn in_memory
„False“ ist, wird der Pandas-Datenrahmen lokal in eine CSV-Datei konvertiert. Wenn pat
vom Typ DataReference ist, wird der Pandas-Rahmen in den Datenspeicher hochgeladen, und das Dataset basiert auf DataReference. Wenn „path“ ein lokaler Ordner ist, wird das Dataset aus der lokalen Datei erstellt, die nicht gelöscht werden kann.
Löst eine Ausnahme aus, wenn der aktuelle DataReference kein Ordnerpfad ist.
from_parquet_files
Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Parameter
Name | Beschreibung |
---|---|
path
Erforderlich
|
DataReference oder
str
Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad. |
include_path
Erforderlich
|
Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten. |
partition_format
Erforderlich
|
Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.parquet“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen. |
Gibt zurück
Typ | Beschreibung |
---|---|
Datasetobjekt. |
Hinweise
Verwenden Sie diese Methode, um Parquet-Dateien zu lesen.
Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.
Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.
from_sql_query
Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Parameter
Name | Beschreibung |
---|---|
data_source
Erforderlich
|
Die Details des Azure SQL-Datenspeichers. |
query
Erforderlich
|
Die Abfrage, die zum Lesen von Daten ausgeführt werden soll. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das lokale Datasetobjekt. |
generate_profile
Generiert ein neues Profil für das Dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Parameter
Name | Beschreibung |
---|---|
compute_target
Erforderlich
|
Ein optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet. |
workspace
Erforderlich
|
Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets. |
arguments
Erforderlich
|
Profilargumente. Gültige Argumente sind:
|
Gibt zurück
Typ | Beschreibung |
---|---|
Ausführungsobjekt für eine Datasetaktion. |
Hinweise
Synchroner Aufruf. Wird bis zu seinem Abschluss blockiert. Rufen Sie get_result auf, um das Ergebnis der Aktion abzurufen.
get
Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset erstellt wurde. |
name
Erforderlich
|
Der Name des abzurufenden Datasets. |
id
Erforderlich
|
Ein eindeutiger Bezeichner des Datasets im Arbeitsbereich. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das Dataset mit dem angegebenen Namen oder der angegebenen ID. |
Hinweise
Sie können entweder name
oder id
angeben. In folgenden Fällen wird eine Ausnahme ausgelöst:
Sowohl
name
als auchid
wurden angegeben, stimmen aber nicht überein.Das Dataset mit dem angegebenen
name
oder der angegebenenid
kann nicht im Arbeitsbereich gefunden werden.
get_all
Ruft alle registrierten Datasets im Arbeitsbereich ab.
get_all()
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der vorhandene AzureML-Arbeitsbereich, in dem die Datasets registriert wurden. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Wörterbuch von TabularDataset- und FileDataset-Objekten. Als Schlüssel wird ihr Registrierungsname verwendet. |
get_all_snapshots
Ruft alle Momentaufnahmen des Datasets ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_all_snapshots()
Gibt zurück
Typ | Beschreibung |
---|---|
Liste von Datasetmomentaufnahmen. |
get_by_id
Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.
get_by_id(id, **kwargs)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset gespeichert wurde. |
id
Erforderlich
|
Die ID des Datasets. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das Datasetobjekt. Wenn das Dataset registriert wurde, werden auch der Registrierungsname und die Version zurückgegeben. |
get_by_name
Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.
get_by_name(name, version='latest', **kwargs)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset registriert wurde. |
name
Erforderlich
|
Der Registrierungsname. |
version
Erforderlich
|
Die Registrierungsversion. Der Standardwert ist „latest“. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das registrierte Datasetobjekt. |
get_definition
Ruft eine bestimmte Definition des Datasets ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Parameter
Name | Beschreibung |
---|---|
version_id
Erforderlich
|
Die Versions-ID der Datasetdefinition. |
Gibt zurück
Typ | Beschreibung |
---|---|
Die Datasetdefinition. |
Hinweise
Wenn version_id
angegeben wird, versucht Azure Machine Learning, die Definition abzurufen, die dieser Version entspricht. Wenn diese Version nicht vorhanden ist, wird eine Ausnahme ausgelöst.
Wenn version_id
ausgelassen wird, wird die neueste Version abgerufen.
get_definitions
Ruft alle Definitionen des Datasets ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_definitions()
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Wörterbuch mit Datasetdefinitionen. |
Hinweise
Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition ist die zuletzt erstellte.
Für nicht registrierte Datasets gibt es nur eine Definition.
get_profile
Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Parameter
Name | Beschreibung |
---|---|
arguments
Erforderlich
|
Profilargumente. |
generate_if_not_exist
Erforderlich
|
Gibt an, ob ein Profil generiert werden soll, wenn keines vorhanden ist. |
workspace
Erforderlich
|
Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets. |
compute_target
Erforderlich
|
Ein Computeziel zum Ausführen der Profilaktion. |
Gibt zurück
Typ | Beschreibung |
---|---|
<xref:azureml.dataprep.DataProfile>
|
DataProfile des Datasets. |
Hinweise
Für ein Dataset, das in einem Azure Machine Learning-Arbeitsbereich registriert ist, ruft diese Methode ein vorhandenes Profil ab, das zuvor erstellt wurde, indem get_profile
aufgerufen wird, wenn es noch gültig ist. Profile werden ungültig, wenn geänderte Daten im Dataset gefunden werden oder die Argumente für get_profile
sich von den Argumenten unterscheiden, die beim Generieren des Profils verwendet wurden. Wenn das Profil nicht vorhanden oder ungültig ist, bestimmt generate_if_not_exist
, ob ein neues Profil generiert wird.
Für ein Dataset, das nicht in einem Azure Machine Learning-Arbeitsbereich registriert ist, führt diese Methode immer generate_profile aus und gibt das Ergebnis zurück.
get_snapshot
Ruft die Momentaufnahme des Datasets anhand ihres Namens ab.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Parameter
Name | Beschreibung |
---|---|
snapshot_name
Erforderlich
|
Der Name der Momentaufnahme. |
Gibt zurück
Typ | Beschreibung |
---|---|
Datasetmomentaufnahme-Objekt. |
head
Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
head(count)
Parameter
Name | Beschreibung |
---|---|
count
Erforderlich
|
Die Anzahl der abzurufenden Datensätze. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Pandas-Datenrahmen. |
list
Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren is_visible
-Eigenschaft „False“ ist.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
static list(workspace)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der Arbeitsbereich, für den Sie die Liste der Datasets abrufen möchten. |
Gibt zurück
Typ | Beschreibung |
---|---|
Eine Liste von Datasetobjekten. |
reactivate
Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
reactivate()
Gibt zurück
Typ | Beschreibung |
---|---|
Keine. |
register
Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Parameter
Name | Beschreibung |
---|---|
workspace
Erforderlich
|
Der AzureML-Arbeitsbereich, in dem das Dataset registriert werden soll. |
name
Erforderlich
|
Der Name des Datasets im Arbeitsbereich. |
description
Erforderlich
|
Eine Beschreibung des Datasets. |
tags
Erforderlich
|
Tags, die dem Dataset zugeordnet werden sollen. |
visible
Erforderlich
|
Gibt an, ob das Dataset auf der Benutzeroberfläche sichtbar ist. „False“ gibt an, dass das Dataset auf der Benutzeroberfläche ausgeblendet und über das SDK verfügbar ist. |
exist_ok
Erforderlich
|
Bei „True“ gibt die Methode das Dataset zurück, wenn es bereits im angegebenen Arbeitsbereich vorhanden ist. Andernfalls tritt ein Fehler auf. |
update_if_exist
Erforderlich
|
Wenn |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein registriertes Datasetobjekt im Arbeitsbereich. |
sample
Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Parameter
Name | Beschreibung |
---|---|
sample_strategy
Erforderlich
|
Zu verwendende Samplingstrategie. Zulässige Werte sind „top_n“, „simple_random“ oder „stratified“. |
arguments
Erforderlich
|
Ein Wörterbuch mit Schlüsseln aus dem „optionalen Argument“ in der oben gezeigten Liste und Werten aus der Spalte „Type“. Es können nur Argumente der entsprechenden Samplingmethode verwendet werden. Für den Beispieltyp „simple_random“ können Sie beispielsweise nur ein Wörterbuch mit den Schlüsseln „probability“ und „seed“ angeben. |
Gibt zurück
Typ | Beschreibung |
---|---|
Datasetobjekt als Beispiel für das ursprüngliche Dataset. |
Hinweise
Stichproben werden generiert, indem die durch dieses Dataset definierte Transformationspipeline ausgeführt und dann die Samplingstrategie und die Parameter auf die Ausgabedaten angewandt werden. Jede Samplingmethode unterstützt die folgenden optionalen Argumente:
top_n
Optionale Argumente
- n, Typ integer. Wählt die ersten N Zeilen als Stichprobe aus.
simple_random
Optionale Argumente
probability, Typ float. Einfache zufällige Stichprobenentnahme, bei der jede Zeile die gleiche Wahrscheinlichkeit hat, ausgewählt zu werden. Die Wahrscheinlichkeit (probability) muss eine Zahl zwischen 0 und 1 sein.
seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.
stratified
Optionale Argumente
columns, Typ list[str]. Liste der geschichteten Spalten in den Daten.
seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.
fractions, Typ dict[tuple, float]. Tupel: Spaltenwerte, die ein Stratum (eine Schicht) definieren. Sie müssen in der gleichen Reihenfolge wie die Spaltennamen vorliegen. Float: Gewichtung, die während der Stichprobenentnahme auf ein Stratum angewandt wird.
Die folgenden Codeausschnitte sind Beispiele für Entwurfsmuster bei verschiedenen Samplingmethoden.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Pandas-Datenrahmen. |
Hinweise
Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.
to_spark_dataframe
Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Gibt zurück
Typ | Beschreibung |
---|---|
Ein Spark-Datenrahmen. |
Hinweise
Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.
update
Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Parameter
Name | Beschreibung |
---|---|
name
Erforderlich
|
Der Name des Datasets im Arbeitsbereich. |
description
Erforderlich
|
Eine Beschreibung der Daten. |
tags
Erforderlich
|
Tags, die dem Dataset zugeordnet werden sollen. |
visible
Erforderlich
|
Gibt an, ob das Dataset auf der Benutzeroberfläche sichtbar ist. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich. |
update_definition
Aktualisiert die Datasetdefinition.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Parameter
Name | Beschreibung |
---|---|
definition
Erforderlich
|
Die neue Definition dieses Datasets. |
definition_update_message
Erforderlich
|
Die Meldung zur Definitionsaktualisierung. |
Gibt zurück
Typ | Beschreibung |
---|---|
Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich. |
Hinweise
Verwenden Sie das von dieser Methode zurückgegebene Objekt, um das aktualisierte Dataset zu nutzen.
Attribute
definition
Gibt die aktuelle Datasetdefinition zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Gibt zurück
Typ | Beschreibung |
---|---|
Die Datasetdefinition. |
Hinweise
Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.
Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Mit mehreren Definitionen können Sie Änderungen an vorhandenen Datasets vornehmen, ohne dass dies Auswirkungen auf Modelle und Pipelines hat, die von der älteren Definition abhängen.
Für nicht registrierte Datasets gibt es nur eine Definition.
definition_version
Gibt die Version der aktuellen Definition des Datasets zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Gibt zurück
Typ | Beschreibung |
---|---|
Die Version der Datasetdefinition. |
Hinweise
Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.
Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition, deren ID hiermit zurückgegeben wird, ist die zuletzt erstellte Definition.
Für nicht registrierte Datasets gibt es nur eine Definition.
description
Gibt die Beschreibung des Datasets zurück.
Gibt zurück
Typ | Beschreibung |
---|---|
Die Datasetbeschreibung. |
Hinweise
Wenn Sie eine Beschreibung der Daten im Dataset angeben, wissen Benutzer*innen des Arbeitsbereichs, was die Daten darstellen und wie sie verwendet werden können.
id
Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird die ID des Datasets zurückgegeben. Andernfalls wird „None“ zurückgegeben.
Gibt zurück
Typ | Beschreibung |
---|---|
Die Dataset-ID. |
is_visible
Steuert die Sichtbarkeit eines registrierten Datasets auf der Benutzeroberfläche des Azure Machine Learning-Arbeitsbereichs.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Gibt zurück
Typ | Beschreibung |
---|---|
Die Sichtbarkeit des Datasets. |
Hinweise
Zurückgegebene Werte:
True: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs sichtbar. Standard.
False: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs nicht sichtbar.
Hat keine Auswirkungen auf nicht registrierte Datasets.
name
state
Gibt den Zustand des Datasets zurück.
Hinweis
Diese Methode ist veraltet und wird nicht mehr unterstützt.
Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
Gibt zurück
Typ | Beschreibung |
---|---|
Der Datasetzustand. |
Hinweise
Folgende Bedeutung und Auswirkung haben Zustände:
Active. Aktive Definitionen sind selbsterklärend: Alle Aktionen können für aktive Definitionen ausgeführt werden.
Veraltet. Veraltete Definitionen können verwendet werden, dies führt jedoch dazu, dass bei jedem Zugriff auf die zugrunde liegenden Daten eine Warnung in den Protokollen erfasst wird.
Archiviert. Archivierte Definitionen können nicht zum Ausführen von Aktionen verwendet werden. Um Aktionen für eine archivierte Definition auszuführen, muss sie erneut aktiviert werden.
tags
Gibt die dem Dataset zugeordneten Tags zurück.
Gibt zurück
Typ | Beschreibung |
---|---|
Datasettags. |
workspace
Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird dieser zurückgegeben. Andernfalls wird „None“ zurückgegeben.
Gibt zurück
Typ | Beschreibung |
---|---|
Der Arbeitsbereich. |
Tabular
Factory zum Erstellen FileDataset
Alias von TabularDatasetFactory