azureml-opendatasets Paket

Pakete

opendatasets

Enthält Funktionen zum Nutzen von Azure Open Datasets als Dataframes und zum Anreichern von Kundendaten.

Öffentliche Azure-Datasets sind kuratierte öffentliche Datasets, mit denen Sie Lösungen mit maschinellem Lernen szenariospezifische Features hinzufügen können, um genauere Modelle zu erzielen. Sie können diese öffentlichen Datasets in Spark- und Pandas-Dataframes mit angewendeten Filtern konvertieren. Bei einigen Datasets können Sie eine Anreicherung verwenden, um die öffentlichen Daten mit Ihren Daten zu verknüpfen. Beispielsweise können Sie Ihre Daten mit Wetterdaten nach Längengrad und Breitengrad oder Postleitzahl und Uhrzeit verknüpfen.

Öffentlich verfügbare Daten für Wetter, Volkszählungen, Feiertage, öffentliche Sicherheit und Orte, mit denen Sie Machine Learning-Modelle trainieren und Vorhersagelösungen anreichern können, sind in Azure Open Datasets enthalten. Öffentliche Datasets (Open Datasets) befinden sich in der Cloud in Microsoft Azure und sind in Azure Machine Learning integriert. Weitere Informationen zur Verwendung von Azure Open Datasets finden Sie unter Erstellen von Azure Machine Learning-Datasets.

Allgemeine Informationen zu Azure Open Datasets finden Sie in der Dokumentation zu Azure Open Datasets.

Module

country_or_region_time_customer_data

Kundendaten mit Standort- und Zeitspalten sollten mit dieser Klasse umschlossen werden.

country_or_region_time_public_data

Öffentliche Daten mit country_or_region und Zeitspalten können mit dieser Klasse umschlossen werden.

country_region_data

Enthält Funktionen für die Arbeit mit Standortdaten über unterstützte Spaltenklassen.

customer_data

Enthält die Stammklasse aller Kundendaten.

location_data

Enthält Funktionen für die Arbeit mit Standortdaten über unterstützte Spaltenklassen.

location_time_customer_data

Enthält Funktionen zum Umschließen von Kundendaten mit Standort- und Zeitspalten.

location_time_public_data

Enthält Funktionen zum Umschließen öffentlicher Daten mit Standort- und Zeitspalten.

open_dataset_base

Stammklasse für offene Tabellendatasets.

public_data

Enthält die Stammklasse öffentlicher Daten.

time_data

Enthält Funktionen zum Darstellen von Zeitdaten und zugehörigen Vorgängen in offenen Datasets.

aggregator

Definiert die Stammklasse für alle Aggregatoren.

aggregator_all

Enthält den Aggregator für das Einschließen aller Spalten. (Es wird also keine Aggregation vorgenommen.)

aggregator_avg

Enthält die Aggregator-Durchschnittsklasse.

aggregator_max

Enthält die maximale Klasse des Aggregators.

aggregator_min

Enthält die minimale Klasse des Aggregators.

aggregator_top

Enthält die oberste Aggregatorklasse.

base_blob_info

Enthält die Basisklasse für Blobinformationen

blob_parquet_descriptor

Enthält den Deskriptor des Blobparquet.

dataset_partition_prep

Enthält Funktionen zum Angeben der Vorbereitung von Datasetpartitionen.

Die Partitionsvorbereitung erfolgt automatisch, wenn Sie eine opendatasets-Klasse verwenden, die eine Partition der Daten erfordert, z. B. die NycTlcGreen-Klasse.

pandas_data_load_limit

Enthält Funktionen, mit denen gesteuert werden kann, wie das Limit für pandas-Daten geladen wird, wenn Parquet-Dateien groß sind.

Mit der Funktion dieses Moduls können Sie angeben, wie das Laden von Pandas-Daten eingeschränkt werden soll, wenn Parquet-Dateien zu groß zum Laden sind.

common_weather_enricher

Dieses Modul enthält Funktionen zum Anreichern benutzerdefinierter Daten mit öffentlichen Wetterdaten.

enricher

Definiert die generische Anreicherungsklasse zum Verknüpfen von Daten mit unterschiedlicher Granularität und unterschiedlichen Aggregatoren.

Dieses Modul enthält statische Funktionsüberladungen: get_max_date_by_granularity(max_date, granularity) wobei Granularität eine Option von MonthGranularity, DayGranularityoder HourGranularity ist. Diese statischen Methoden geben die maximalen Daten basierend auf der angegebenen Granularität zurück.

holiday_enricher

Enthält Funktionen zum Anreichern benutzerdefinierter Daten mit öffentlichen Feiertagsdaten.

environ

Definiert Laufzeitumgebungsklassen, in denen Azure Open Datasets verwendet werden.

Die Klassen in diesem Modul stellen sicher, dass die Azure Open Datasets-Funktionalität für verschiedene Umgebungen optimiert ist. Im Allgemeinen müssen Sie diese Umgebungsklassen nicht instanziieren oder sich um deren Implementierung kümmern. Verwenden Sie stattdessen die get_environ-Modulfunktion, um die Umgebung zurückzugeben.

granularity

Enthält Granularitätsdefinitionen für Zeit und Ort.

Die Granularitäten sind wie folgt strukturiert:

Sie verwenden eine Granularität, indem Sie sie in einer Anreicherungsfunktion angeben. Wenn Sie beispielsweise die Methoden der HolidayEnricher-Klasse zum Anreichern von Daten verwenden, geben Sie TimeGranularity als Eingabeparameter für die Methode an.

country_region_selector

Enthält die Klasse für die Länder-/Regionsauswahl.

enricher_selector

Enthält die Stammklassen für Orts- und Zeitselektoren.

EnricherSelector hat zwei Unterklassen:

EnricherSelector ist die Stammklasse von LocationClosestSelector und TimeNearestSelector.

location_closest_selector

Enthält die Klasse zum Auswählen des nächstgelegenen Orts.

time_nearest_selector

Enthält die TimeNearestSelector-Klasse.