azureml-opendatasets Paquet
Paquets
opendatasets |
Contient des fonctionnalités permettant de consommer Azure Open Datasets en tant que trames de données et d’enrichir les données client. Les jeux de données Azure Open Datasets sont des jeux de données publics organisés que vous pouvez utiliser pour ajouter des fonctionnalités spécifiques à des scénarios à des solutions de Machine Learning afin d'obtenir des modèles plus précis. Vous pouvez convertir ces jeux de données publics en trames de données Spark et Pandas en appliquant des filtres. Pour certains jeux de données, vous pouvez utiliser un enrichisseur afin de joindre les données publiques à vos données. Par exemple, vous pouvez joindre vos données à des données météorologiques par longitude et latitude, ou par code postal et heure. Azure Open Datasets comprend des données du domaine public relatives à la météo, au recensement, aux jours fériés, à la sécurité publique et à la localisation. Elles vous permettent de former des modèles de Machine Learning et d’enrichir des solutions prédictives. Les Open Datasets se trouvent dans le cloud sur Microsoft Azure et sont intégrés à Azure Machine Learning. Pour plus d’informations sur l’utilisation d’Azure Open Datasets, consultez Créer des jeux de données avec Azure Open Datasets. Pour obtenir des informations générales sur Azure Open Datasets, consultez la documentation relative à Azure Open Datasets. |
Modules
country_or_region_time_customer_data |
Les données client avec des colonnes de localisation et d’heure doivent être incluses dans un wrapper à l’aide de cette classe. |
country_or_region_time_public_data |
Les données publiques avec des colonnes pays ou région et heure peuvent être enveloppées avec cette classe. |
country_region_data |
Contient les fonctionnalités permettant d’utiliser les données de localisation, avec les classes de colonne prises en charge. |
customer_data |
Contient la classe de base de toutes les données client. |
location_data |
Contient les fonctionnalités permettant d’utiliser les données de localisation, avec les classes de colonne prises en charge. |
location_time_customer_data |
Contient les fonctionnalités permettant d’encapsuler les données client avec des colonnes de localisation et d’heure. |
location_time_public_data |
Contient les fonctionnalités permettant d’encapsuler les données publiques avec des colonnes d’emplacement et d’heure. |
open_dataset_base |
Classe de base pour les jeux de données tabulaires ouverts. |
public_data |
Contient la classe de base des données publiques. |
time_data |
Contient les fonctionnalités permettant de représenter les données temporelles et les opérations associées dans Open Datasets. |
aggregator |
Définit la classe de base pour tous les agrégateurs. |
aggregator_all |
Contient l’agrégateur permettant d’inclure toutes les colonnes, en d’autres termes, quand aucune agrégation n’est effectuée. |
aggregator_avg |
Contient la classe moyenne de l’agrégateur. |
aggregator_max |
Contient la classe maximale de l’agrégateur. |
aggregator_min |
Contient la classe minimale de l’agrégateur. |
aggregator_top |
Contient la classe supérieure de l’agrégateur. |
base_blob_info |
Contient la classe de base des informations d’objet blob. |
blob_parquet_descriptor |
Contient le descripteur du parquet de l’objet blob. |
dataset_partition_prep |
Contient les fonctionnalités permettant de spécifier la préparation du partitionnement du jeu de données. La préparation du partitionnement s’effectue automatiquement, quand vous utilisez une classe opendatasets qui nécessite un partitionnement de données, par exemple la classe NycTlcGreen. |
pandas_data_load_limit |
Contient les fonctionnalités permettant de limiter le chargement des données Pandas quand des fichiers Parquet sont volumineux. Grâce aux fonctionnalités de ce module, vous pouvez spécifier comment limiter le chargement des données Pandas lorsque les fichiers Parquet sont trop volumineux pour être chargés. |
common_weather_enricher |
Contient les fonctionnalités permettant d’enrichir des données personnalisées avec des données météorologiques publiques. |
enricher |
Définit la classe d’enrichissement générique qui permet de joindre les données n’ayant pas la même précision, ni les mêmes agrégateurs. Ce module contient des surcharges de fonctions statiques : |
holiday_enricher |
Contient les fonctionnalités permettant d’enrichir des données personnalisées avec des données publiques relatives aux jours fériés. |
environ |
Définit les classes d’environnement d’exécution où les fonctionnalités Azure Open Datasets sont utilisées. Les classes de ce module garantissent l’optimisation des fonctionnalités Azure Open Datasets pour différents environnements.
En règle générale, vous n’avez pas besoin d’instancier ces classes d’environnement ni de vous soucier de leur implémentation.
À la place, utilisez la fonction de module |
granularity |
Contient les définitions de précision pour l’heure et la localisation. Les précisions sont organisées de la manière suivante : Vous utilisez une précision en la spécifiant dans une fonction d’enrichissement. Par exemple, quand vous utilisez les méthodes de la classe HolidayEnricher pour enrichir des données, spécifiez TimeGranularity en tant que paramètre d’entrée de la méthode. |
country_region_selector |
Contient la classe du sélecteur de pays/région. |
enricher_selector |
Contient les classes de base des sélecteurs de localisation et d’heure. Il existe deux sous-classes de EnricherSelector :
EnricherSelector représente la classe racine de LocationClosestSelector et TimeNearestSelector. |
location_closest_selector |
Contient la classe du sélecteur de localisation la plus proche. |
time_nearest_selector |
Contient la classe du sélecteur temporel la plus proche. |
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour