Exemples de notebooks Jupyter montrant comment enrichir les données avec Open Datasets

Les exemples de notebooks Jupyter pour Azure Open Datasets montrent comment charger des jeux de données ouverts et les utiliser pour enrichir les données de démonstration. Les techniques utilisent Apache Spark et Pandas à des fins de traitement des données.

Important

Dans un environnement autre que Spark, Azure Open Datasets permet de télécharger un seul mois de données à la fois, avec certaines classes, afin d’éviter l'erreur MemoryError liée aux jeux de données volumineux.

Charger des données ISD (Integrated Surface Database) NOAA

Notebook Description
Charger un mois récent de données météorologiques dans un dataframe Pandas Découvrez comment charger des données météorologiques historiques dans votre dataframe Pandas favori.
Charger un mois récent de données météorologiques dans un dataframe Spark Découvrez comment charger des données météorologiques historiques dans votre dataframe Spark favori.

Joindre des données de démonstration avec des données ISD NOAA

Notebook Description
Joindre des données de démonstration avec des données météorologiques - Pandas Joignez un jeu de données de démonstration d'un mois d'emplacements de capteur avec relevés météorologiques dans un dataframe Pandas.
Joindre des données de démonstration avec des données météorologiques - Spark Joignez un jeu de données de démonstration d'emplacements de capteur avec relevés météorologiques dans un dataframe Spark.

Joindre des données de taxi de New York avec des données ISD NOAA

Notebook Description
Données de trajet des taxis enrichies avec des données météorologiques - Pandas Chargez les données de trajet des taxis de New York (sur un mois) et enrichissez-les avec des données météorologiques dans un dataframe Pandas. Cet exemple remplace la méthode get_pandas_limit et équilibre les performances de chargement des données avec la quantité de données.
Données de trajet des taxis enrichies avec des données météorologiques - Spark Chargez les données de trajet des taxis de New York et enrichissez-les avec des données météorologiques dans un dataframe Spark.

Étapes suivantes