Bagikan melalui


Contoh buku catatan Jupyter memperlihatkan cara memperkaya data dengan Open Datasets

Contoh notebook Jupyter untuk Azure Open Datasets menjelaskan cara memuat himpunan data terbuka, dan menggunakannya untuk memperkaya data demo. Teknik tersebut termasuk penggunaan Apache Spark dan Pandas untuk memproses data.

Penting

Saat bekerja di lingkungan non-Spark, Open Datasets memungkinkan pengunduhan hanya satu bulan data pada satu waktu dengan kelas tertentu, untuk menghindari masalah MemoryError dengan himpunan data besar.

Muat data Database Permukaan Terpadu (ISD) NOAA

Notebook Deskripsi
Memuat satu bulan terakhir data cuaca ke dalam dataframe Pandas Pelajari cara memuat data cuaca historis ke dalam dataframe Pandas favorit Anda.
Memuat satu bulan terakhir data cuaca ke dalam dataframe Spark Pelajari cara memuat data cuaca historis ke dalam dataframe Spark favorit Anda.

Bergabung dengan data demo dengan data ISD NOAA

Notebook Deskripsi
Bergabung dengan data demo dengan data cuaca - Pandas Bergabunglah dengan himpunan data demo satu bulan lokasi sensor dengan pembacaan cuaca dalam dataframe Pandas.
Menggabungkan data demo dengan data cuaca - Pandas Bergabung dengan kumpulan data demo 1 bulan lokasi sensor dengan pembacaan cuaca dalam dataframe Spark.

Menggabungkan data taksi NYC dengan data ISD NOAA

Notebook Deskripsi
Data perjalanan taksi yang diperkaya dengan data cuaca - Pandas Muat data taksi hijau NYC (lebih dari satu bulan) dan perkaya dengan data cuaca dalam dataframe Pandas. Contoh ini mengambil alih metode get_pandas_limit dan menyeimbangkan kinerja pemuatan data dengan jumlah data.
Data perjalanan taksi yang diperkaya dengan data cuaca - Spark Muat data taksi hijau NYC, dan perkaya dengan data cuaca, dalam dataframe Spark.

Langkah berikutnya