azureml-opendatasets Paquet

Paquets

opendatasets

Contient des fonctionnalités permettant de consommer Azure Open Datasets en tant que trames de données et d’enrichir les données client.

Les jeux de données Azure Open Datasets sont des jeux de données publics organisés que vous pouvez utiliser pour ajouter des fonctionnalités spécifiques à des scénarios à des solutions de Machine Learning afin d'obtenir des modèles plus précis. Vous pouvez convertir ces jeux de données publics en trames de données Spark et Pandas en appliquant des filtres. Pour certains jeux de données, vous pouvez utiliser un enrichisseur afin de joindre les données publiques à vos données. Par exemple, vous pouvez joindre vos données à des données météorologiques par longitude et latitude, ou par code postal et heure.

Azure Open Datasets comprend des données du domaine public relatives à la météo, au recensement, aux jours fériés, à la sécurité publique et à la localisation. Elles vous permettent de former des modèles de Machine Learning et d’enrichir des solutions prédictives. Les Open Datasets se trouvent dans le cloud sur Microsoft Azure et sont intégrés à Azure Machine Learning. Pour plus d’informations sur l’utilisation d’Azure Open Datasets, consultez Créer des jeux de données avec Azure Open Datasets.

Pour obtenir des informations générales sur Azure Open Datasets, consultez la documentation relative à Azure Open Datasets.

Modules

country_or_region_time_customer_data

Les données client avec des colonnes de localisation et d’heure doivent être incluses dans un wrapper à l’aide de cette classe.

country_or_region_time_public_data

Les données publiques avec des colonnes pays ou région et heure peuvent être enveloppées avec cette classe.

country_region_data

Contient les fonctionnalités permettant d’utiliser les données de localisation, avec les classes de colonne prises en charge.

customer_data

Contient la classe de base de toutes les données client.

location_data

Contient les fonctionnalités permettant d’utiliser les données de localisation, avec les classes de colonne prises en charge.

location_time_customer_data

Contient les fonctionnalités permettant d’encapsuler les données client avec des colonnes de localisation et d’heure.

location_time_public_data

Contient les fonctionnalités permettant d’encapsuler les données publiques avec des colonnes d’emplacement et d’heure.

open_dataset_base

Classe de base pour les jeux de données tabulaires ouverts.

public_data

Contient la classe de base des données publiques.

time_data

Contient les fonctionnalités permettant de représenter les données temporelles et les opérations associées dans Open Datasets.

aggregator

Définit la classe de base pour tous les agrégateurs.

aggregator_all

Contient l’agrégateur permettant d’inclure toutes les colonnes, en d’autres termes, quand aucune agrégation n’est effectuée.

aggregator_avg

Contient la classe moyenne de l’agrégateur.

aggregator_max

Contient la classe maximale de l’agrégateur.

aggregator_min

Contient la classe minimale de l’agrégateur.

aggregator_top

Contient la classe supérieure de l’agrégateur.

base_blob_info

Contient la classe de base des informations d’objet blob.

blob_parquet_descriptor

Contient le descripteur du parquet de l’objet blob.

dataset_partition_prep

Contient les fonctionnalités permettant de spécifier la préparation du partitionnement du jeu de données.

La préparation du partitionnement s’effectue automatiquement, quand vous utilisez une classe opendatasets qui nécessite un partitionnement de données, par exemple la classe NycTlcGreen.

pandas_data_load_limit

Contient les fonctionnalités permettant de limiter le chargement des données Pandas quand des fichiers Parquet sont volumineux.

Grâce aux fonctionnalités de ce module, vous pouvez spécifier comment limiter le chargement des données Pandas lorsque les fichiers Parquet sont trop volumineux pour être chargés.

common_weather_enricher

Contient les fonctionnalités permettant d’enrichir des données personnalisées avec des données météorologiques publiques.

enricher

Définit la classe d’enrichissement générique qui permet de joindre les données n’ayant pas la même précision, ni les mêmes agrégateurs.

Ce module contient des surcharges de fonctions statiques : get_max_date_by_granularity(max_date, granularity) où la précision correspond à MonthGranularity, DayGranularity ou HourGranularity. Ces méthodes statiques retournent la date maximale en fonction de la précision spécifiée.

holiday_enricher

Contient les fonctionnalités permettant d’enrichir des données personnalisées avec des données publiques relatives aux jours fériés.

environ

Définit les classes d’environnement d’exécution où les fonctionnalités Azure Open Datasets sont utilisées.

Les classes de ce module garantissent l’optimisation des fonctionnalités Azure Open Datasets pour différents environnements. En règle générale, vous n’avez pas besoin d’instancier ces classes d’environnement ni de vous soucier de leur implémentation. À la place, utilisez la fonction de module get_environ pour retourner l’environnement.

granularity

Contient les définitions de précision pour l’heure et la localisation.

Les précisions sont organisées de la manière suivante :

Vous utilisez une précision en la spécifiant dans une fonction d’enrichissement. Par exemple, quand vous utilisez les méthodes de la classe HolidayEnricher pour enrichir des données, spécifiez TimeGranularity en tant que paramètre d’entrée de la méthode.

country_region_selector

Contient la classe du sélecteur de pays/région.

enricher_selector

Contient les classes de base des sélecteurs de localisation et d’heure.

Il existe deux sous-classes de EnricherSelector :

EnricherSelector représente la classe racine de LocationClosestSelector et TimeNearestSelector.

location_closest_selector

Contient la classe du sélecteur de localisation la plus proche.

time_nearest_selector

Contient la classe du sélecteur temporel la plus proche.