azureml-opendatasets Paket
Pakete
opendatasets |
Enthält Funktionen zum Nutzen von Azure Open Datasets als Dataframes und zum Anreichern von Kundendaten. Öffentliche Azure-Datasets sind kuratierte öffentliche Datasets, mit denen Sie Lösungen mit maschinellem Lernen szenariospezifische Features hinzufügen können, um genauere Modelle zu erzielen. Sie können diese öffentlichen Datasets in Spark- und Pandas-Dataframes mit angewendeten Filtern konvertieren. Bei einigen Datasets können Sie eine Anreicherung verwenden, um die öffentlichen Daten mit Ihren Daten zu verknüpfen. Beispielsweise können Sie Ihre Daten mit Wetterdaten nach Längengrad und Breitengrad oder Postleitzahl und Uhrzeit verknüpfen. Öffentlich verfügbare Daten für Wetter, Volkszählungen, Feiertage, öffentliche Sicherheit und Orte, mit denen Sie Machine Learning-Modelle trainieren und Vorhersagelösungen anreichern können, sind in Azure Open Datasets enthalten. Öffentliche Datasets (Open Datasets) befinden sich in der Cloud in Microsoft Azure und sind in Azure Machine Learning integriert. Weitere Informationen zur Verwendung von Azure Open Datasets finden Sie unter Erstellen von Azure Machine Learning-Datasets. Allgemeine Informationen zu Azure Open Datasets finden Sie in der Dokumentation zu Azure Open Datasets. |
Module
country_or_region_time_customer_data |
Kundendaten mit Standort- und Zeitspalten sollten mit dieser Klasse umschlossen werden. |
country_or_region_time_public_data |
Öffentliche Daten mit country_or_region und Zeitspalten können mit dieser Klasse umschlossen werden. |
country_region_data |
Enthält Funktionen für die Arbeit mit Standortdaten über unterstützte Spaltenklassen. |
customer_data |
Enthält die Stammklasse aller Kundendaten. |
location_data |
Enthält Funktionen für die Arbeit mit Standortdaten über unterstützte Spaltenklassen. |
location_time_customer_data |
Enthält Funktionen zum Umschließen von Kundendaten mit Standort- und Zeitspalten. |
location_time_public_data |
Enthält Funktionen zum Umschließen öffentlicher Daten mit Standort- und Zeitspalten. |
open_dataset_base |
Stammklasse für offene Tabellendatasets. |
public_data |
Enthält die Stammklasse öffentlicher Daten. |
time_data |
Enthält Funktionen zum Darstellen von Zeitdaten und zugehörigen Vorgängen in offenen Datasets. |
aggregator |
Definiert die Stammklasse für alle Aggregatoren. |
aggregator_all |
Enthält den Aggregator für das Einschließen aller Spalten. (Es wird also keine Aggregation vorgenommen.) |
aggregator_avg |
Enthält die Aggregator-Durchschnittsklasse. |
aggregator_max |
Enthält die maximale Klasse des Aggregators. |
aggregator_min |
Enthält die minimale Klasse des Aggregators. |
aggregator_top |
Enthält die oberste Aggregatorklasse. |
base_blob_info |
Enthält die Basisklasse für Blobinformationen |
blob_parquet_descriptor |
Enthält den Deskriptor des Blobparquet. |
dataset_partition_prep |
Enthält Funktionen zum Angeben der Vorbereitung von Datasetpartitionen. Die Partitionsvorbereitung erfolgt automatisch, wenn Sie eine opendatasets-Klasse verwenden, die eine Partition der Daten erfordert, z. B. die NycTlcGreen-Klasse. |
pandas_data_load_limit |
Enthält Funktionen, mit denen gesteuert werden kann, wie das Limit für pandas-Daten geladen wird, wenn Parquet-Dateien groß sind. Mit der Funktion dieses Moduls können Sie angeben, wie das Laden von Pandas-Daten eingeschränkt werden soll, wenn Parquet-Dateien zu groß zum Laden sind. |
common_weather_enricher |
Dieses Modul enthält Funktionen zum Anreichern benutzerdefinierter Daten mit öffentlichen Wetterdaten. |
enricher |
Definiert die generische Anreicherungsklasse zum Verknüpfen von Daten mit unterschiedlicher Granularität und unterschiedlichen Aggregatoren. Dieses Modul enthält statische Funktionsüberladungen: |
holiday_enricher |
Enthält Funktionen zum Anreichern benutzerdefinierter Daten mit öffentlichen Feiertagsdaten. |
environ |
Definiert Laufzeitumgebungsklassen, in denen Azure Open Datasets verwendet werden. Die Klassen in diesem Modul stellen sicher, dass die Azure Open Datasets-Funktionalität für verschiedene Umgebungen optimiert ist.
Im Allgemeinen müssen Sie diese Umgebungsklassen nicht instanziieren oder sich um deren Implementierung kümmern.
Verwenden Sie stattdessen die |
granularity |
Enthält Granularitätsdefinitionen für Zeit und Ort. Die Granularitäten sind wie folgt strukturiert: Sie verwenden eine Granularität, indem Sie sie in einer Anreicherungsfunktion angeben. Wenn Sie beispielsweise die Methoden der HolidayEnricher-Klasse zum Anreichern von Daten verwenden, geben Sie TimeGranularity als Eingabeparameter für die Methode an. |
country_region_selector |
Enthält die Klasse für die Länder-/Regionsauswahl. |
enricher_selector |
Enthält die Stammklassen für Orts- und Zeitselektoren. EnricherSelector hat zwei Unterklassen:
EnricherSelector ist die Stammklasse von LocationClosestSelector und TimeNearestSelector. |
location_closest_selector |
Enthält die Klasse zum Auswählen des nächstgelegenen Orts. |
time_nearest_selector |
Enthält die TimeNearestSelector-Klasse. |
Feedback
https://aka.ms/ContentUserFeedback.
Bald verfügbar: Im Laufe des Jahres 2024 werden wir GitHub-Issues stufenweise als Feedbackmechanismus für Inhalte abbauen und durch ein neues Feedbacksystem ersetzen. Weitere Informationen finden Sie unterFeedback senden und anzeigen für