azureml-opendatasets Paquet

Référence

Paquets

Contient des fonctionnalités permettant de consommer Azure Open Datasets en tant que trames de données et d’enrichir les données client.

Les jeux de données Azure Open Datasets sont des jeux de données publics organisés que vous pouvez utiliser pour ajouter des fonctionnalités spécifiques à des scénarios à des solutions de Machine Learning afin d'obtenir des modèles plus précis. Vous pouvez convertir ces jeux de données publics en trames de données Spark et Pandas en appliquant des filtres. Pour certains jeux de données, vous pouvez utiliser un enrichisseur afin de joindre les données publiques à vos données. Par exemple, vous pouvez joindre vos données à des données météorologiques par longitude et latitude, ou par code postal et heure.

Azure Open Datasets comprend des données du domaine public relatives à la météo, au recensement, aux jours fériés, à la sécurité publique et à la localisation. Elles vous permettent de former des modèles de Machine Learning et d’enrichir des solutions prédictives. Les Open Datasets se trouvent dans le cloud sur Microsoft Azure et sont intégrés à Azure Machine Learning. Pour plus d’informations sur l’utilisation d’Azure Open Datasets, consultez Créer des jeux de données avec Azure Open Datasets.

Pour obtenir des informations générales sur Azure Open Datasets, consultez la documentation relative à Azure Open Datasets.

Modules

country_or_region_time_customer_data	Les données client avec des colonnes de localisation et d’heure doivent être incluses dans un wrapper à l’aide de cette classe.
country_or_region_time_public_data	Les données publiques avec des colonnes pays ou région et heure peuvent être enveloppées avec cette classe.
country_region_data	Contient les fonctionnalités permettant d’utiliser les données de localisation, avec les classes de colonne prises en charge.
customer_data	Contient la classe de base de toutes les données client.
location_data	Contient les fonctionnalités permettant d’utiliser les données de localisation, avec les classes de colonne prises en charge.
location_time_customer_data	Contient les fonctionnalités permettant d’encapsuler les données client avec des colonnes de localisation et d’heure.
location_time_public_data	Contient les fonctionnalités permettant d’encapsuler les données publiques avec des colonnes d’emplacement et d’heure.
open_dataset_base	Classe de base pour les jeux de données tabulaires ouverts.
public_data	Contient la classe de base des données publiques.
time_data	Contient les fonctionnalités permettant de représenter les données temporelles et les opérations associées dans Open Datasets.
aggregator	Définit la classe de base pour tous les agrégateurs.
aggregator_all	Contient l’agrégateur permettant d’inclure toutes les colonnes, en d’autres termes, quand aucune agrégation n’est effectuée.
aggregator_avg	Contient la classe moyenne de l’agrégateur.
aggregator_max	Contient la classe maximale de l’agrégateur.
aggregator_min	Contient la classe minimale de l’agrégateur.
aggregator_top	Contient la classe supérieure de l’agrégateur.
base_blob_info	Contient la classe de base des informations d’objet blob.
blob_parquet_descriptor	Contient le descripteur du parquet de l’objet blob.
dataset_partition_prep	Contient les fonctionnalités permettant de spécifier la préparation du partitionnement du jeu de données. La préparation du partitionnement s’effectue automatiquement, quand vous utilisez une classe opendatasets qui nécessite un partitionnement de données, par exemple la classe NycTlcGreen.
pandas_data_load_limit	Contient les fonctionnalités permettant de limiter le chargement des données Pandas quand des fichiers Parquet sont volumineux. Grâce aux fonctionnalités de ce module, vous pouvez spécifier comment limiter le chargement des données Pandas lorsque les fichiers Parquet sont trop volumineux pour être chargés.
common_weather_enricher	Contient les fonctionnalités permettant d’enrichir des données personnalisées avec des données météorologiques publiques.
enricher	Définit la classe d’enrichissement générique qui permet de joindre les données n’ayant pas la même précision, ni les mêmes agrégateurs. Ce module contient des surcharges de fonctions statiques : `get_max_date_by_granularity(max_date, granularity)` où la précision correspond à MonthGranularity, DayGranularity ou HourGranularity. Ces méthodes statiques retournent la date maximale en fonction de la précision spécifiée.
holiday_enricher	Contient les fonctionnalités permettant d’enrichir des données personnalisées avec des données publiques relatives aux jours fériés.
environ	Définit les classes d’environnement d’exécution où les fonctionnalités Azure Open Datasets sont utilisées. Les classes de ce module garantissent l’optimisation des fonctionnalités Azure Open Datasets pour différents environnements. En règle générale, vous n’avez pas besoin d’instancier ces classes d’environnement ni de vous soucier de leur implémentation. À la place, utilisez la fonction de module `get_environ` pour retourner l’environnement.
granularity	Contient les définitions de précision pour l’heure et la localisation. Les précisions sont organisées de la manière suivante : LocationGranularity LocationClosestGranularity TimeGranularity HourGranularity DayGranularity MonthGranularity Vous utilisez une précision en la spécifiant dans une fonction d’enrichissement. Par exemple, quand vous utilisez les méthodes de la classe HolidayEnricher pour enrichir des données, spécifiez TimeGranularity en tant que paramètre d’entrée de la méthode.
country_region_selector	Contient la classe du sélecteur de pays/région.
enricher_selector	Contient les classes de base des sélecteurs de localisation et d’heure. Il existe deux sous-classes de EnricherSelector : EnricherLocationSelector - Fournit les calculs de base de la distance sphérique. EnricherTimeSelector - Fournit les fonctions wrapper `round_to`. EnricherSelector représente la classe racine de LocationClosestSelector et TimeNearestSelector.
location_closest_selector	Contient la classe du sélecteur de localisation la plus proche.
time_nearest_selector	Contient la classe du sélecteur temporel la plus proche.

azureml-opendatasets Paquet

Paquets

Modules

Commentaires

Commentaires

Ressources supplémentaires