Contoh buku catatan Jupyter memperlihatkan cara memperkaya data dengan Open Datasets

Contoh buku catatan Jupyter untuk Azure Open Datasets menunjukkan cara untuk memuat himpunan data yang terbuka dan menggunakannya untuk memperkaya data demo. Tekniknya mencakup penggunaan Apache Spark dan Panda untuk memproses data.

Penting

Saat bekerja di lingkungan non-Spark, Open Datasets memungkinkan pengunduhan data hanya selama satu bulan pada satu waktu dengan kelas tertentu untuk menghindari MemoryError dengan himpunan data besar.

Muat data Database Permukaan Terpadu (ISD) NOAA

Notebook Deskripsi
Memuat satu bulan terakhir data cuaca ke dalam dataframe Pandas Pelajari cara memuat data cuaca historis ke dalam dataframe Pandas favorit Anda.
Memuat satu bulan terakhir data cuaca ke dalam dataframe Spark Pelajari cara memuat data cuaca historis ke dalam dataframe Spark favorit Anda.

Bergabung dengan data demo dengan data ISD NOAA

Notebook Deskripsi
Bergabung dengan data demo dengan data cuaca - Pandas Bergabung dengan kumpulan data demo 1 bulan lokasi sensor dengan pembacaan cuaca dalam dataframe Pandas.
Menggabungkan data demo dengan data cuaca - Pandas Bergabung dengan kumpulan data demo 1 bulan lokasi sensor dengan pembacaan cuaca dalam dataframe Spark.

Menggabungkan data taksi NYC dengan data ISD NOAA

Notebook Deskripsi
Data perjalanan taksi yang diperkaya dengan data cuaca - Pandas Memuat data taksi hijau Kota NYC (selama lebih dari 1 bulan) dan memperkayanya dengan data cuaca dalam dataframe Pandas. Contoh ini mengambil alih metode get_pandas_limit dan menyeimbangkan kinerja pemuatan data dengan jumlah data.
Data perjalanan taksi yang diperkaya dengan data cuaca - Spark Memuat data taksi hijau Kota NYC dan memperkayanya dengan data cuaca, dalam dataframe Spark.

Langkah berikutnya