Dataset Klasse

Referenz

Stellt eine Ressource für das Untersuchen, Transformieren und Verwalten von Daten in Azure Machine Learning dar

Ein Dataset ist ein Verweis auf Daten in einem Datastore oder hinter öffentlichen Web-URLs.

Für die veralteten Methoden in dieser Klasse finden Sie verbesserte APIs in der AbstractDataset-Klasse.

Die folgenden Datasettypen werden unterstützt:

TabularDataset stellt Daten in einem tabellarischen Format bereit, das durch Analysieren der bereitgestellten Datei oder Liste von Dateien erstellt wird.
FileDataset verweist auf Dateien in Datenspeichern oder unter öffentlichen URLs.

Informationen zu den ersten Schritten mit Datasets finden Sie im Artikel Hinzufügen & Registrieren von Datasets oder in den Notebooks https://aka.ms/tabulardataset-samplenotebook und https://aka.ms/filedataset-samplenotebook.

Initialisieren Sie das Dataset-Objekt.

Verwenden Sie die get-Methode, um ein Dataset abzurufen, das bereits im Arbeitsbereich registriert wurde.

Vererbung: builtins.object

Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Parameter

definition: <xref:azureml.data.DatasetDefinition>

Erforderlich

Die Datasetdefinition.

workspace: Workspace

Erforderlich

Der Arbeitsbereich, in dem sich das Dataset befindet.

name: str

Erforderlich

Der Name des Datasets.

id: str

Erforderlich

Der eindeutige Bezeichner des Datasets.

Hinweise

Die Dataset-Klasse macht zwei praktische Klassenattribute (File und Tabular) verfügbar, die Sie zum Erstellen eines Datasets ohne die entsprechenden Factorymethoden verwenden können. So erstellen Sie beispielsweise ein Dataset mit diesen Attributen

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Sie können auch ein neues TabularDataset oder FileDataset erstellen, indem Sie die entsprechenden Factorymethoden der in TabularDatasetFactory und FileDatasetFactory definierten Klasse direkt aufrufen.

Im folgenden Beispiel wird gezeigt, wie ein TabularDataset erstellt wird, das auf einen einzelnen Pfad in einem Datenspeicher verweist.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Das vollständige Beispiel finden Sie unter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb.

Variablen

azureml.core.Dataset.File

Ein Klassenattribut, das den Zugriff auf die FileDatasetFactory-Methoden zum Erstellen neuer FileDataset-Objekte ermöglicht. Verwendung: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Ein Klassenattribut, das den Zugriff auf die TabularDatasetFactory-Methoden zum Erstellen neuer TabularDataset-Objekte ermöglicht. Verwendung: Dataset.Tabular.from_delimited_files().

Methoden

archive	Archiviert ein aktives oder veraltetes Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
auto_read_files	Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
compare_profiles	Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil. Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
create_snapshot	Erstellt eine Momentaufnahme des registrierten Datasets. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
delete_snapshot	Löscht die Momentaufnahme des Datasets anhand ihres Namens. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
deprecate	Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
diff	Vergleicht das aktuelle Dataset mit rhs_dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
from_binary_files	Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
from_delimited_files	Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
from_json_files	Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
from_parquet_files	Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
from_sql_query	Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
generate_profile	Generiert ein neues Profil für das Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get	Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_all	Ruft alle registrierten Datasets im Arbeitsbereich ab.
get_all_snapshots	Ruft alle Momentaufnahmen des Datasets ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_by_id	Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.
get_by_name	Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.
get_definition	Ruft eine bestimmte Definition des Datasets ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_definitions	Ruft alle Definitionen des Datasets ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_profile	Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
get_snapshot	Ruft die Momentaufnahme des Datasets anhand ihres Namens ab. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
head	Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
list	Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren `is_visible`-Eigenschaft „False“ ist. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
reactivate	Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
register	Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
sample	Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
to_spark_dataframe	Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
update	Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.
update_definition	Aktualisiert die Datasetdefinition. Hinweis Diese Methode ist veraltet und wird nicht mehr unterstützt. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

auto_read_files

Analysiert die Dateien unter dem angegebenen Pfad und gibt ein neues Dataset zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, Dateien mit den Methoden „Dataset.Tabular.from_*“ zu lesen. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parameter

path: DataReference oder str

Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL (CSV/TSV).

include_path: bool

Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Ist beim Lesen mehrerer Dateien hilfreich, wenn Sie wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt. Auch nützlich, wenn Informationen im Dateipfad oder Namen enthalten sind, die Sie in einer Spalte verwenden möchten.

partition_format: str

Erforderlich

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.csv“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Datasetobjekt.

Rückgabetyp

Dataset

Hinweise

Verwenden Sie diese Methode, wenn Dateiformate und Trennzeichen automatisch erkannt werden sollen.

Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

compare_profiles

Vergleicht das Profil des aktuellen Datasets mit einem anderen Datasetprofil.

Die Unterschiede werden in der Zusammenfassungsstatistik der beiden Datasets angezeigt. Der Parameter „rhs_dataset“ steht für die rechte Seite (right-hand side) und ist einfach das zweite Dataset. Das erste Dataset (das aktuelle Datasetobjekt) wird entsprechend als „linke Seite“ betrachtet.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameter

rhs_dataset: Dataset

Erforderlich

Ein zweites Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird.

profile_arguments: dict

Erforderlich

Argumente zum Abrufen eines bestimmten Profils.

include_columns: list[str]

Erforderlich

Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen.

exclude_columns: list[str]

Erforderlich

Liste der Spaltennamen, die aus dem Vergleich ausgeschlossen werden sollen.

histogram_compare_method: HistogramCompareMethod

Erforderlich

Enumeration zur Beschreibung der Vergleichsmethode, z. B.: Wasserstein oder Energy.

Gibt zurück

Unterschied zwischen den beiden Datasetprofilen.

Rückgabetyp

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Hinweise

Gilt nur für registrierte Datasets. Löst eine Ausnahme aus, wenn das Profil des aktuellen Datasets nicht vorhanden ist. Verwenden Sie für nicht registrierte Datasets die profile.compare-Methode.

create_snapshot

Erstellt eine Momentaufnahme des registrierten Datasets.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

snapshot_name: str

Erforderlich

Der Name der Momentaufnahme. Momentaufnahmenamen sollten innerhalb eines Datasets eindeutig sein.

compute_target: Union[ComputeTarget, str]

Erforderlich

Optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

create_data_snapshot: bool

Erforderlich

TRUE gibt an, dass eine materialisierte Kopie der Daten erstellt wird.

target_datastore: Union[AbstractAzureStorageDatastore, str]

Erforderlich

Zieldatenspeicher zum Speichern der Momentaufnahme. Wenn keine Angabe erfolgt, wird die Momentaufnahme im Standardspeicher des Arbeitsbereichs erstellt.

Gibt zurück

Datasetmomentaufnahme-Objekt.

Rückgabetyp

DatasetSnapshot

Hinweise

Momentaufnahmen erfassen zusammenfassende Statistiken der zugrunde liegenden Daten zu einem bestimmten Zeitpunkt und eine optionale Kopie der Daten selbst. Weitere Informationen zum Erstellen von Momentaufnahmen finden Sie unter https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Löscht die Momentaufnahme des Datasets anhand ihres Namens.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parameter

snapshot_name: str

Erforderlich

Der Name der Momentaufnahme.

Gibt zurück

Keine.

Rückgabetyp

None

Hinweise

Damit können Sie Speicher freigeben, der von Daten in Momentaufnahmen verwendet wird, die Sie nicht mehr benötigen.

deprecate

Kennzeichnet ein aktives Dataset in einem Arbeitsbereich als veraltet und ersetzt es durch ein anderes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parameter

deprecate_by_dataset_id: str

Erforderlich

Die Dataset-ID, die als Ersatz für dieses Dataset vorgesehen ist.

Gibt zurück

Keine.

Rückgabetyp

None

Hinweise

Veraltete Datasets führen zu Protokollwarnungen, wenn sie verwendet werden. Durch das Kennzeichnen eines Datasets als veraltet werden alle enthaltenen Definitionen als veraltet gekennzeichnet.

Veraltete Datasets können weiterhin verwendet werden. Wenn Sie ein Dataset vollständig von der Verwendung ausschließen möchten, archivieren Sie es.

Bei einer zufälligen Kennzeichnung als veraltet kann es durch eine erneute Aktivierung wieder verwendet werden.

diff

Vergleicht das aktuelle Dataset mit rhs_dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parameter

rhs_dataset: Dataset

Erforderlich

Ein anderes Dataset, das auch als „rechtes“ Dataset für Vergleiche bezeichnet wird.

compute_target: Union[ComputeTarget, str]

Erforderlich

Computeziel für den Vergleich. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

columns: list[str]

Erforderlich

Liste der Spaltennamen, die in den Vergleich eingeschlossen werden sollen.

Gibt zurück

Ausführungsobjekt für eine Datasetaktion.

Rückgabetyp

DatasetActionRun

from_binary_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Binärdateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.File.from_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parameter

path: DataReference oder str

Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.

Gibt zurück

Das Datasetobjekt.

Rückgabetyp

Dataset

Hinweise

Verwenden Sie diese Methode, um Dateien als Datenströme von Binärdaten zu lesen. Gibt ein Dateidatenstrom-Objekt pro gelesener Datei zurück. Verwenden Sie diese Methode, wenn Sie Bilder, Videos, Audiodaten oder andere Binärdaten lesen.

get_profile und create_snapshot funktionieren nicht wie erwartet für ein Dataset, das mit dieser Methode erstellt wurde.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_delimited_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Dateien mit Trennzeichen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_delimited_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parameter

path: DataReference oder str

Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher, ein lokaler Pfad oder eine HTTP-URL.

separator: str

Erforderlich

Das Trennzeichen für das Aufteilen von Spalten.

header: PromoteHeadersBehavior

Erforderlich

Steuert, wie Spaltenüberschriften beim Lesen aus Dateien heraufgestuft werden.

encoding: FileEncoding

Erforderlich

Die Codierung der zu lesenden Dateien.

quoting: bool

Erforderlich

Gibt an, wie Neue-Zeile-Zeichen in Anführungszeichen behandelt werden. Beim Standardwert (False) werden Neue-Zeile-Zeichen als Start neuer Zeilen interpretiert, unabhängig davon, ob die Neue-Zeile-Zeichen in Anführungszeichen stehen. Bei einer Festlegung auf „True“ führen Neue-Zeile-Zeichen in Anführungszeichen nicht zu neuen Zeilen, und die Lesegeschwindigkeit von Dateien verlangsamt sich.

infer_column_types: bool

Erforderlich

Gibt an, ob Spaltendatentypen abgeleitet werden.

skip_rows: int

Erforderlich

Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen.

skip_mode: SkipLinesBehavior

Erforderlich

Steuert, wie Zeilen beim Lesen aus Dateien übersprungen werden.

comment: str

Erforderlich

Zeichen, das verwendet wird, um Kommentarzeilen in den zu lesenden Dateien anzugeben. Zeilen, die mit dieser Zeichenfolge beginnen, werden übersprungen.

include_path: bool

Erforderlich

Gibt an, ob eine Spalte mit dem Pfad der Datei, aus der die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

archive_options: <xref:azureml.dataprep.ArchiveOptions>

Erforderlich

Optionen für Archivdateien, einschließlich Archivtyp und Eintragsglobmuster. Derzeit wird nur ZIP als Archivtyp unterstützt. Bei der Angabe von


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

werden z. B. alle Dateien im ZIP-Archiv gelesen, deren Name auf „10-20.csv“ endet.

partition_format: str

Erforderlich

Gibt zurück

Datasetobjekt.

Rückgabetyp

Dataset

Hinweise

Verwenden Sie diese Methode, um durch Trennzeichen getrennte Textdateien zu lesen, wenn Sie die verwendeten Optionen steuern möchten.

Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_excel_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Excel-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parameter

path: DataReference oder str

Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.

sheet_name: str

Erforderlich

Der Name der zu ladenden Excel-Tabelle. Standardmäßig wird das erste Tabellenblatt aus jeder Excel-Datei gelesen.

use_column_headers: bool

Erforderlich

Legt fest, ob die erste Zeile für die Spaltenheader verwendet werden soll.

skip_rows: int

Erforderlich

Gibt an, wie viele Zeilen in den zu lesenden Dateien übersprungen werden sollen.

include_path: bool

Erforderlich

infer_column_types: bool

Erforderlich

„True“ gibt an, dass Spaltendatentypen abgeleitet werden.

partition_format: str

Erforderlich

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.xlsx“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Datasetobjekt.

Rückgabetyp

Dataset

Hinweise

Verwenden Sie diese Methode, um Excel-Dateien im XLSX-Format zu lesen. Daten können aus einem Tabellenblatt in jeder Excel-Datei gelesen werden. Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten. Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_json_files

Erstellt ein nicht registriertes In-Memory-Dataset aus JSON-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_json_lines_files zum Lesen aus der JSON-Zeilendateien zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parameter

path: DataReference oder str

Erforderlich

Der Pfad zu den Dateien oder Ordnern, die Sie laden und analysieren möchten. Dabei kann es sich entweder um einen lokalen Pfad oder um eine Azure-Blob-URL handeln. Die Verwendung von Platzhaltern wird unterstützt. Sie können beispielsweise path = „./data*“ verwenden, um alle Dateien mit einem Namen zu lesen, der mit „data“ beginnt.

encoding: FileEncoding

Erforderlich

Die Codierung der zu lesenden Dateien.

flatten_nested_arrays: bool

Erforderlich

Eigenschaft, die die Verarbeitung geschachtelter Arrays durch das Programm steuert. Wenn Sie geschachtelte JSON-Arrays vereinfachen möchten, kann dies zu einer erheblich größeren Anzahl von Zeilen führen.

include_path: bool

Erforderlich

Gibt an, ob eine Spalte mit dem Pfad, aus dem die Daten gelesen wurden, enthalten sein soll. Dies ist nützlich, wenn Sie mehrere Dateien lesen und wissen möchten, aus welcher Datei ein bestimmter Datensatz stammt, oder um nützliche Informationen im Dateipfad beizubehalten.

partition_format: str

Erforderlich

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.json“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.json“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Das lokale Datasetobjekt.

Rückgabetyp

Dataset

from_pandas_dataframe

Erstellt ein nicht registriertes In-Memory-Dataset aus einem Pandas-Datenrahmen.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.register_pandas_dataframe zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parameter

dataframe: DataFrame

Erforderlich

Der Pandas-Datenrahmen.

path: Union[DataReference, str]

Erforderlich

Ein Datenpfad im registrierten Datenspeicher oder ein lokaler Ordnerpfad.

in_memory: bool

Erforderlich

Gibt an, ob der Datenrahmen aus dem Arbeitsspeicher gelesen werden soll, anstatt auf dem Datenträger persistent gespeichert zu werden.

Gibt zurück

Ein Datasetobjekt.

Rückgabetyp

Dataset

Hinweise

Verwenden Sie diese Methode, um einen Pandas-Datenrahmen in ein Datasetobjekt zu konvertieren. Ein mit dieser Methode erstelltes Dataset kann nicht registriert werden, da die Daten aus dem Arbeitsspeicher stammen.

Wenn in_memory „False“ ist, wird der Pandas-Datenrahmen lokal in eine CSV-Datei konvertiert. Wenn pat vom Typ DataReference ist, wird der Pandas-Rahmen in den Datenspeicher hochgeladen, und das Dataset basiert auf DataReference. Wenn „path“ ein lokaler Ordner ist, wird das Dataset aus der lokalen Datei erstellt, die nicht gelöscht werden kann.

Löst eine Ausnahme aus, wenn der aktuelle DataReference kein Ordnerpfad ist.

from_parquet_files

Erstellt ein nicht registriertes In-Memory-Dataset aus Parquet-Dateien.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_parquet_files zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parameter

path: DataReference oder str

Erforderlich

Ein Datenpfad in einem registrierten Datenspeicher oder ein lokaler Pfad.

include_path: bool

Erforderlich

partition_format: str

Erforderlich

Geben Sie das Partitionsformat im Pfad an, und erstellen Sie Zeichenfolgenspalten aus dem Format „{x}“ und der datetime-Spalte im Format „{x:yyyy/MM/dd/HH/mm/ss}“, wobei „yyyy“, „MM“, „dd“, „HH“, „mm“ und „ss“ zum Extratieren von Jahr, Monat, Tag, Stunde, Minute und Sekunde aus dem datetime-Typ verwendet werden. Das Format muss an der Position des ersten Partitionsschlüssels beginnen und bis zum Ende des Dateipfads reichen. Beim Dateipfad „../Accounts/2019/01/01/data.parquet“, in dem die Daten nach Abteilungsname und Uhrzeit partitioniert sind, können Sie z. B. „/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet“ definieren, um die Spalten „Department“ (Abteilung) vom Typ Zeichenfolge und „PartitionDate“ (Partitionsdatum) vom Typ datetime zu erstellen.

Gibt zurück

Datasetobjekt.

Rückgabetyp

Dataset

Hinweise

Verwenden Sie diese Methode, um Parquet-Dateien zu lesen.

Nach dem Erstellen eines Datasets sollten Sie get_profile verwenden, um erkannte Spaltentypen und Zusammenfassungsstatistiken für jede Spalte aufzulisten.

Das zurückgegebene Dataset ist nicht im Arbeitsbereich registriert.

from_sql_query

Erstellt ein nicht registriertes In-Memory-Dataset aus einer SQL-Abfrage.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen Dataset.Tabular.from_sql_query zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parameter

data_source: AzureSqlDatabaseDatastore

Erforderlich

Die Details des Azure SQL-Datenspeichers.

query: str

Erforderlich

Die Abfrage, die zum Lesen von Daten ausgeführt werden soll.

Gibt zurück

Das lokale Datasetobjekt.

Rückgabetyp

Dataset

generate_profile

Generiert ein neues Profil für das Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parameter

compute_target: Union[ComputeTarget, str]

Erforderlich

Ein optionales Computeziel zum Erstellen des Momentaufnahmeprofils. Wenn keine Angabe erfolgt, wird das lokale Computeziel verwendet.

workspace: Workspace

Erforderlich

Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets.

arguments: dict[str, object]

Erforderlich

Profilargumente. Gültige Argumente sind:

„include_stype_counts“ vom Typ bool. Überprüfen Sie, ob die Werte wie einige bekannte semantische Typen aussehen, z. B. E-Mail-Adresse, IP-Adresse (V4/V6), US-Telefonnummer, US-Postleitzahl, Breiten- und Längengrad. Die Aktivierung wirkt sich auf die Leistung aus.
„number_of_histogram_bins“ vom Typ int. Stellt die Anzahl der Histogrammintervalle dar, die für numerische Daten verwendet werden. Der Standardwert ist 10.

Gibt zurück

Ausführungsobjekt für eine Datasetaktion.

Rückgabetyp

DatasetActionRun

Hinweise

Synchroner Aufruf. Wird bis zu seinem Abschluss blockiert. Rufen Sie get_result auf, um das Ergebnis der Aktion abzurufen.

get

Sie rufen ein Dataset ab, das bereits im Arbeitsbereich vorhanden ist, indem Sie entweder seinen Namen oder seine ID angeben.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_by_name und get_by_id zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parameter

workspace: Workspace

Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset erstellt wurde.

name: str

Erforderlich

Der Name des abzurufenden Datasets.

id: str

Erforderlich

Ein eindeutiger Bezeichner des Datasets im Arbeitsbereich.

Gibt zurück

Das Dataset mit dem angegebenen Namen oder der angegebenen ID.

Rückgabetyp

Dataset

Hinweise

Sie können entweder name oder id angeben. In folgenden Fällen wird eine Ausnahme ausgelöst:

Sowohl name als auch id wurden angegeben, stimmen aber nicht überein.
Das Dataset mit dem angegebenen name oder der angegebenen id kann nicht im Arbeitsbereich gefunden werden.

get_all

Ruft alle registrierten Datasets im Arbeitsbereich ab.

get_all()

Parameter

workspace: Workspace

Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem die Datasets registriert wurden.

Gibt zurück

Ein Wörterbuch von TabularDataset- und FileDataset-Objekten. Als Schlüssel wird ihr Registrierungsname verwendet.

Rückgabetyp

dict[str, Union[TabularDataset, FileDataset]]

get_all_snapshots

Ruft alle Momentaufnahmen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_all_snapshots()

Gibt zurück

Liste von Datasetmomentaufnahmen.

Rückgabetyp

list[DatasetSnapshot]

get_by_id

Ruft ein Dataset ab, das im Arbeitsbereich gespeichert wird.

get_by_id(id, **kwargs)

Parameter

workspace: Workspace

Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset gespeichert wurde.

id: str

Erforderlich

Die ID des Datasets.

Gibt zurück

Das Datasetobjekt. Wenn das Dataset registriert wurde, werden auch der Registrierungsname und die Version zurückgegeben.

Rückgabetyp

Union[TabularDataset, FileDataset]

get_by_name

Ruft ein registriertes Dataset über den Registrierungsnamen aus dem Arbeitsbereich ab.

get_by_name(name, version='latest', **kwargs)

Parameter

workspace: Workspace

Erforderlich

Der vorhandene AzureML-Arbeitsbereich, in dem das Dataset registriert wurde.

name: str

Erforderlich

Der Registrierungsname.

version: int

Erforderlich

Die Registrierungsversion. Der Standardwert ist „latest“.

Gibt zurück

Das registrierte Datasetobjekt.

Rückgabetyp

Union[TabularDataset, FileDataset]

get_definition

Ruft eine bestimmte Definition des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parameter

version_id: str

Erforderlich

Die Versions-ID der Datasetdefinition.

Gibt zurück

Die Datasetdefinition.

Rückgabetyp

DatasetDefinition

Hinweise

Wenn version_id angegeben wird, versucht Azure Machine Learning, die Definition abzurufen, die dieser Version entspricht. Wenn diese Version nicht vorhanden ist, wird eine Ausnahme ausgelöst. Wenn version_id ausgelassen wird, wird die neueste Version abgerufen.

get_definitions

Ruft alle Definitionen des Datasets ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_definitions()

Gibt zurück

Ein Wörterbuch mit Datasetdefinitionen.

Rückgabetyp

dict[str, DatasetDefinition]

Hinweise

Für nicht registrierte Datasets gibt es nur eine Definition.

get_profile

Ruft Zusammenfassungsstatistiken für das zuvor berechnete Dataset ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parameter

arguments: dict[str, object]

Erforderlich

Profilargumente.

generate_if_not_exist: bool

Erforderlich

Gibt an, ob ein Profil generiert werden soll, wenn keines vorhanden ist.

workspace: Workspace

Erforderlich

Arbeitsbereich, erforderlich für vorübergehende (nicht registrierte) Datasets.

compute_target: Union[ComputeTarget, str]

Erforderlich

Ein Computeziel zum Ausführen der Profilaktion.

Gibt zurück

DataProfile des Datasets.

Rückgabetyp

<xref:azureml.dataprep.DataProfile>

Hinweise

Für ein Dataset, das in einem Azure Machine Learning-Arbeitsbereich registriert ist, ruft diese Methode ein vorhandenes Profil ab, das zuvor erstellt wurde, indem get_profile aufgerufen wird, wenn es noch gültig ist. Profile werden ungültig, wenn geänderte Daten im Dataset gefunden werden oder die Argumente für get_profile sich von den Argumenten unterscheiden, die beim Generieren des Profils verwendet wurden. Wenn das Profil nicht vorhanden oder ungültig ist, bestimmt generate_if_not_exist, ob ein neues Profil generiert wird.

Für ein Dataset, das nicht in einem Azure Machine Learning-Arbeitsbereich registriert ist, führt diese Methode immer generate_profile aus und gibt das Ergebnis zurück.

get_snapshot

Ruft die Momentaufnahme des Datasets anhand ihres Namens ab.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parameter

snapshot_name: str

Erforderlich

Der Name der Momentaufnahme.

Gibt zurück

Datasetmomentaufnahme-Objekt.

Rückgabetyp

DatasetSnapshot

head

Pullt die angegebene Anzahl von Datensätzen aus diesem Dataset und gibt sie als Datenrahmen zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

head(count)

Parameter

count: int

Erforderlich

Die Anzahl der abzurufenden Datensätze.

Gibt zurück

Ein Pandas-Datenrahmen.

Rückgabetyp

DataFrame

list

Listet alle Datasets im Arbeitsbereich auf, einschließlich der Datasets, deren is_visible-Eigenschaft „False“ ist.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen get_all zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

static list(workspace)

Parameter

workspace: Workspace

Erforderlich

Der Arbeitsbereich, für den Sie die Liste der Datasets abrufen möchten.

Gibt zurück

Eine Liste von Datasetobjekten.

Rückgabetyp

list[Dataset]

reactivate

Reaktiviert ein archiviertes oder als veraltet gekennzeichnetes Dataset.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

reactivate()

Gibt zurück

Keine.

Rückgabetyp

None

register

Registriert das Dataset im Arbeitsbereich und macht es für andere Benutzer*innen des Arbeitsbereichs verfügbar.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Es wird empfohlen, stattdessen register zu verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parameter

workspace: Workspace

Erforderlich

Der AzureML-Arbeitsbereich, in dem das Dataset registriert werden soll.

name: str

Erforderlich

Der Name des Datasets im Arbeitsbereich.

description: str

Erforderlich

Eine Beschreibung des Datasets.

tags: dict[str, str]

Erforderlich

Tags, die dem Dataset zugeordnet werden sollen.

visible: bool

Erforderlich

Gibt an, ob das Dataset auf der Benutzeroberfläche sichtbar ist. „False“ gibt an, dass das Dataset auf der Benutzeroberfläche ausgeblendet und über das SDK verfügbar ist.

exist_ok: bool

Erforderlich

Bei „True“ gibt die Methode das Dataset zurück, wenn es bereits im angegebenen Arbeitsbereich vorhanden ist. Andernfalls tritt ein Fehler auf.

update_if_exist: bool

Erforderlich

Wenn exist_ok „True“ und update_if_exist „True“ ist, aktualisiert diese Methode die Definition und gibt das aktualisierte Dataset zurück.

Gibt zurück

Ein registriertes Datasetobjekt im Arbeitsbereich.

Rückgabetyp

Dataset

sample

Generiert eine neue Stichprobe aus dem Quelldataset durch Anwenden der bereitgestellten Samplingstrategie und der angegebenen Parameter.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die take_sample-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parameter

sample_strategy: str

Erforderlich

Zu verwendende Samplingstrategie. Zulässige Werte sind „top_n“, „simple_random“ oder „stratified“.

arguments: dict[str, object]

Erforderlich

Ein Wörterbuch mit Schlüsseln aus dem „optionalen Argument“ in der oben gezeigten Liste und Werten aus der Spalte „Type“. Es können nur Argumente der entsprechenden Samplingmethode verwendet werden. Für den Beispieltyp „simple_random“ können Sie beispielsweise nur ein Wörterbuch mit den Schlüsseln „probability“ und „seed“ angeben.

Gibt zurück

Datasetobjekt als Beispiel für das ursprüngliche Dataset.

Rückgabetyp

Dataset

Hinweise

Stichproben werden generiert, indem die durch dieses Dataset definierte Transformationspipeline ausgeführt und dann die Samplingstrategie und die Parameter auf die Ausgabedaten angewandt werden. Jede Samplingmethode unterstützt die folgenden optionalen Argumente:

top_n
- Optionale Argumente
  - n, Typ integer. Wählt die ersten N Zeilen als Stichprobe aus.
simple_random
- Optionale Argumente
  - probability, Typ float. Einfache zufällige Stichprobenentnahme, bei der jede Zeile die gleiche Wahrscheinlichkeit hat, ausgewählt zu werden. Die Wahrscheinlichkeit (probability) muss eine Zahl zwischen 0 und 1 sein.
  - seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.
stratified
- Optionale Argumente
  - columns, Typ list[str]. Liste der geschichteten Spalten in den Daten.
  - seed, Typ float. Wird vom Zufallszahlengenerator verwendet. Verwenden Sie dies, um Wiederholbarkeit zu erzielen.
  - fractions, Typ dict[tuple, float]. Tupel: Spaltenwerte, die ein Stratum (eine Schicht) definieren. Sie müssen in der gleichen Reihenfolge wie die Spaltennamen vorliegen. Float: Gewichtung, die während der Stichprobenentnahme auf ein Stratum angewandt wird.

Die folgenden Codeausschnitte sind Beispiele für Entwurfsmuster bei verschiedenen Samplingmethoden.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Erstellt einen Pandas-Datenrahmen durch Ausführen der Transformationspipeline, die durch diese Datasetdefinition festgelegt wird.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_pandas_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Gibt zurück

Ein Pandas-Datenrahmen.

Rückgabetyp

DataFrame

Hinweise

Gibt einen vollständig im Arbeitsspeicher materialisierten Pandas-Datenrahmen zurück.

to_spark_dataframe

Erstellt einen Spark-Datenrahmen, der die durch diese Datasetdefinition festgelegte Transformationspipeline ausführen kann.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Sie erstellen ein TabularDataset, indem Sie die statischen Methoden in Dataset.Tabular aufrufen und dort die to_spark_dataframe-Methode verwenden. Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Gibt zurück

Ein Spark-Datenrahmen.

Rückgabetyp

DataFrame

Hinweise

Der zurückgegebene Spark-Datenrahmen ist nur ein Ausführungsplan, der keine tatsächlichen Daten enthält, da Spark-Datenrahmen verzögert ausgewertet werden.

update

Aktualisiert die änderbaren Datasetattribute im Arbeitsbereich und gibt das aktualisierte Dataset aus dem Arbeitsbereich zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parameter

name: str

Erforderlich

Der Name des Datasets im Arbeitsbereich.

description: str

Erforderlich

Eine Beschreibung der Daten.

tags: dict[str, str]

Erforderlich

Tags, die dem Dataset zugeordnet werden sollen.

visible: bool

Erforderlich

Gibt an, ob das Dataset auf der Benutzeroberfläche sichtbar ist.

Gibt zurück

Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich.

Rückgabetyp

Dataset

update_definition

Aktualisiert die Datasetdefinition.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parameter

definition: DatasetDefinition

Erforderlich

Die neue Definition dieses Datasets.

definition_update_message: str

Erforderlich

Die Meldung zur Definitionsaktualisierung.

Gibt zurück

Ein aktualisiertes Datasetobjekt aus dem Arbeitsbereich.

Rückgabetyp

Dataset

Hinweise

Verwenden Sie das von dieser Methode zurückgegebene Objekt, um das aktualisierte Dataset zu nutzen.

Attribute

definition

Gibt die aktuelle Datasetdefinition zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Die Datasetdefinition.

Rückgabetyp

DatasetDefinition

Hinweise

Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.

Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Mit mehreren Definitionen können Sie Änderungen an vorhandenen Datasets vornehmen, ohne dass dies Auswirkungen auf Modelle und Pipelines hat, die von der älteren Definition abhängen.

Für nicht registrierte Datasets gibt es nur eine Definition.

definition_version

Gibt die Version der aktuellen Definition des Datasets zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Die Version der Datasetdefinition.

Rückgabetyp

str

Hinweise

Eine Datasetdefinition umfasst eine Reihe von Schritten, die angeben, wie Daten gelesen und transformiert werden.

Ein in einem AzureML-Arbeitsbereich registriertes Dataset kann über mehrere Definitionen verfügen, die jeweils durch Aufrufen von update_definition erstellt werden. Jede Definition besitzt einen eindeutigen Bezeichner. Die aktuelle Definition, deren ID hiermit zurückgegeben wird, ist die zuletzt erstellte Definition.

Für nicht registrierte Datasets gibt es nur eine Definition.

description

Gibt die Beschreibung des Datasets zurück.

Gibt zurück

Die Datasetbeschreibung.

Rückgabetyp

str

Hinweise

Wenn Sie eine Beschreibung der Daten im Dataset angeben, wissen Benutzer*innen des Arbeitsbereichs, was die Daten darstellen und wie sie verwendet werden können.

id

Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird die ID des Datasets zurückgegeben. Andernfalls wird „None“ zurückgegeben.

Gibt zurück

Die Dataset-ID.

Rückgabetyp

str

is_visible

Steuert die Sichtbarkeit eines registrierten Datasets auf der Benutzeroberfläche des Azure Machine Learning-Arbeitsbereichs.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Die Sichtbarkeit des Datasets.

Rückgabetyp

bool

Hinweise

Zurückgegebene Werte:

True: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs sichtbar. Standard.
False: Das Dataset ist auf der Benutzeroberfläche des Arbeitsbereichs nicht sichtbar.

Hat keine Auswirkungen auf nicht registrierte Datasets.

name

Gibt den Datasetnamen zurück.

Gibt zurück

Der Datasetname.

Rückgabetyp

str

state

Gibt den Zustand des Datasets zurück.

Hinweis

Diese Methode ist veraltet und wird nicht mehr unterstützt.

Weitere Informationen finden Sie unter https://aka.ms/dataset-deprecation.

Gibt zurück

Der Datasetzustand.

Rückgabetyp

str

Hinweise

Folgende Bedeutung und Auswirkung haben Zustände:

Active. Aktive Definitionen sind selbsterklärend: Alle Aktionen können für aktive Definitionen ausgeführt werden.
Veraltet. Veraltete Definitionen können verwendet werden, dies führt jedoch dazu, dass bei jedem Zugriff auf die zugrunde liegenden Daten eine Warnung in den Protokollen erfasst wird.
Archiviert. Archivierte Definitionen können nicht zum Ausführen von Aktionen verwendet werden. Um Aktionen für eine archivierte Definition auszuführen, muss sie erneut aktiviert werden.

workspace

Wenn das Dataset in einem Arbeitsbereich registriert wurde, wird dieser zurückgegeben. Andernfalls wird „None“ zurückgegeben.

Gibt zurück

Der Arbeitsbereich.

Rückgabetyp

Workspace