Contoh buku catatan Jupyter memperlihatkan cara memperkaya data dengan Open Datasets
Contoh notebook Jupyter untuk Azure Open Datasets menjelaskan cara memuat himpunan data terbuka, dan menggunakannya untuk memperkaya data demo. Teknik tersebut termasuk penggunaan Apache Spark dan Pandas untuk memproses data.
Penting
Saat bekerja di lingkungan non-Spark, Open Datasets memungkinkan pengunduhan hanya satu bulan data pada satu waktu dengan kelas tertentu, untuk menghindari masalah MemoryError dengan himpunan data besar.
Muat data Database Permukaan Terpadu (ISD) NOAA
Notebook | Deskripsi |
---|---|
Memuat satu bulan terakhir data cuaca ke dalam dataframe Pandas | Pelajari cara memuat data cuaca historis ke dalam dataframe Pandas favorit Anda. |
Memuat satu bulan terakhir data cuaca ke dalam dataframe Spark | Pelajari cara memuat data cuaca historis ke dalam dataframe Spark favorit Anda. |
Bergabung dengan data demo dengan data ISD NOAA
Notebook | Deskripsi |
---|---|
Bergabung dengan data demo dengan data cuaca - Pandas | Bergabunglah dengan himpunan data demo satu bulan lokasi sensor dengan pembacaan cuaca dalam dataframe Pandas. |
Menggabungkan data demo dengan data cuaca - Pandas | Bergabung dengan kumpulan data demo 1 bulan lokasi sensor dengan pembacaan cuaca dalam dataframe Spark. |
Menggabungkan data taksi NYC dengan data ISD NOAA
Notebook | Deskripsi |
---|---|
Data perjalanan taksi yang diperkaya dengan data cuaca - Pandas | Muat data taksi hijau NYC (lebih dari satu bulan) dan perkaya dengan data cuaca dalam dataframe Pandas. Contoh ini mengambil alih metode get_pandas_limit dan menyeimbangkan kinerja pemuatan data dengan jumlah data. |
Data perjalanan taksi yang diperkaya dengan data cuaca - Spark | Muat data taksi hijau NYC, dan perkaya dengan data cuaca, dalam dataframe Spark. |