azureml-opendatasets Paket

Referenz

Pakete

Enthält Funktionen zum Nutzen von Azure Open Datasets als Dataframes und zum Anreichern von Kundendaten.

Öffentliche Azure-Datasets sind kuratierte öffentliche Datasets, mit denen Sie Lösungen mit maschinellem Lernen szenariospezifische Features hinzufügen können, um genauere Modelle zu erzielen. Sie können diese öffentlichen Datasets in Spark- und Pandas-Dataframes mit angewendeten Filtern konvertieren. Bei einigen Datasets können Sie eine Anreicherung verwenden, um die öffentlichen Daten mit Ihren Daten zu verknüpfen. Beispielsweise können Sie Ihre Daten mit Wetterdaten nach Längengrad und Breitengrad oder Postleitzahl und Uhrzeit verknüpfen.

Öffentlich verfügbare Daten für Wetter, Volkszählungen, Feiertage, öffentliche Sicherheit und Orte, mit denen Sie Machine Learning-Modelle trainieren und Vorhersagelösungen anreichern können, sind in Azure Open Datasets enthalten. Öffentliche Datasets (Open Datasets) befinden sich in der Cloud in Microsoft Azure und sind in Azure Machine Learning integriert. Weitere Informationen zur Verwendung von Azure Open Datasets finden Sie unter Erstellen von Azure Machine Learning-Datasets.

Allgemeine Informationen zu Azure Open Datasets finden Sie in der Dokumentation zu Azure Open Datasets.

Module

country_or_region_time_customer_data	Kundendaten mit Standort- und Zeitspalten sollten mit dieser Klasse umschlossen werden.
country_or_region_time_public_data	Öffentliche Daten mit country_or_region und Zeitspalten können mit dieser Klasse umschlossen werden.
country_region_data	Enthält Funktionen für die Arbeit mit Standortdaten über unterstützte Spaltenklassen.
customer_data	Enthält die Stammklasse aller Kundendaten.
location_data	Enthält Funktionen für die Arbeit mit Standortdaten über unterstützte Spaltenklassen.
location_time_customer_data	Enthält Funktionen zum Umschließen von Kundendaten mit Standort- und Zeitspalten.
location_time_public_data	Enthält Funktionen zum Umschließen öffentlicher Daten mit Standort- und Zeitspalten.
open_dataset_base	Stammklasse für offene Tabellendatasets.
public_data	Enthält die Stammklasse öffentlicher Daten.
time_data	Enthält Funktionen zum Darstellen von Zeitdaten und zugehörigen Vorgängen in offenen Datasets.
aggregator	Definiert die Stammklasse für alle Aggregatoren.
aggregator_all	Enthält den Aggregator für das Einschließen aller Spalten. (Es wird also keine Aggregation vorgenommen.)
aggregator_avg	Enthält die Aggregator-Durchschnittsklasse.
aggregator_max	Enthält die maximale Klasse des Aggregators.
aggregator_min	Enthält die minimale Klasse des Aggregators.
aggregator_top	Enthält die oberste Aggregatorklasse.
base_blob_info	Enthält die Basisklasse für Blobinformationen
blob_parquet_descriptor	Enthält den Deskriptor des Blobparquet.
dataset_partition_prep	Enthält Funktionen zum Angeben der Vorbereitung von Datasetpartitionen. Die Partitionsvorbereitung erfolgt automatisch, wenn Sie eine opendatasets-Klasse verwenden, die eine Partition der Daten erfordert, z. B. die NycTlcGreen-Klasse.
pandas_data_load_limit	Enthält Funktionen, mit denen gesteuert werden kann, wie das Limit für pandas-Daten geladen wird, wenn Parquet-Dateien groß sind. Mit der Funktion dieses Moduls können Sie angeben, wie das Laden von Pandas-Daten eingeschränkt werden soll, wenn Parquet-Dateien zu groß zum Laden sind.
common_weather_enricher	Dieses Modul enthält Funktionen zum Anreichern benutzerdefinierter Daten mit öffentlichen Wetterdaten.
enricher	Definiert die generische Anreicherungsklasse zum Verknüpfen von Daten mit unterschiedlicher Granularität und unterschiedlichen Aggregatoren. Dieses Modul enthält statische Funktionsüberladungen: `get_max_date_by_granularity(max_date, granularity)` wobei Granularität eine Option von MonthGranularity, DayGranularityoder HourGranularity ist. Diese statischen Methoden geben die maximalen Daten basierend auf der angegebenen Granularität zurück.
holiday_enricher	Enthält Funktionen zum Anreichern benutzerdefinierter Daten mit öffentlichen Feiertagsdaten.
environ	Definiert Laufzeitumgebungsklassen, in denen Azure Open Datasets verwendet werden. Die Klassen in diesem Modul stellen sicher, dass die Azure Open Datasets-Funktionalität für verschiedene Umgebungen optimiert ist. Im Allgemeinen müssen Sie diese Umgebungsklassen nicht instanziieren oder sich um deren Implementierung kümmern. Verwenden Sie stattdessen die `get_environ`-Modulfunktion, um die Umgebung zurückzugeben.
granularity	Enthält Granularitätsdefinitionen für Zeit und Ort. Die Granularitäten sind wie folgt strukturiert: LocationGranularity LocationClosestGranularity TimeGranularity HourGranularity DayGranularity MonthGranularity Sie verwenden eine Granularität, indem Sie sie in einer Anreicherungsfunktion angeben. Wenn Sie beispielsweise die Methoden der HolidayEnricher-Klasse zum Anreichern von Daten verwenden, geben Sie TimeGranularity als Eingabeparameter für die Methode an.
country_region_selector	Enthält die Klasse für die Länder-/Regionsauswahl.
enricher_selector	Enthält die Stammklassen für Orts- und Zeitselektoren. EnricherSelector hat zwei Unterklassen: EnricherLocationSelector: stellt grundlegende Berechnungen des sphärischen Abstands bereit EnricherTimeSelector: stellt `round_to`-Wrapperfunktionen bereit EnricherSelector ist die Stammklasse von LocationClosestSelector und TimeNearestSelector.
location_closest_selector	Enthält die Klasse zum Auswählen des nächstgelegenen Orts.
time_nearest_selector	Enthält die TimeNearestSelector-Klasse.

azureml-opendatasets Paket

Pakete

Module

Feedback

Feedback

Zusätzliche Ressourcen