Contoh buku catatan Jupyter memperlihatkan cara memperkaya data dengan Open Datasets

Contoh notebook Jupyter untuk Azure Open Datasets menjelaskan cara memuat himpunan data terbuka, dan menggunakannya untuk memperkaya data demo. Teknik tersebut termasuk penggunaan Apache Spark dan Pandas untuk memproses data.

Penting

Saat bekerja di lingkungan non-Spark, Open Datasets memungkinkan pengunduhan hanya satu bulan data pada satu waktu dengan kelas tertentu, untuk menghindari masalah MemoryError dengan himpunan data besar.

Muat data Database Permukaan Terpadu (ISD) NOAA

Notebook	Deskripsi
Memuat satu bulan terakhir data cuaca ke dalam dataframe Pandas	Pelajari cara memuat data cuaca historis ke dalam dataframe Pandas favorit Anda.
Memuat satu bulan terakhir data cuaca ke dalam dataframe Spark	Pelajari cara memuat data cuaca historis ke dalam dataframe Spark favorit Anda.

Bergabung dengan data demo dengan data ISD NOAA

Notebook	Deskripsi
Bergabung dengan data demo dengan data cuaca - Pandas	Bergabunglah dengan himpunan data demo satu bulan lokasi sensor dengan pembacaan cuaca dalam dataframe Pandas.
Menggabungkan data demo dengan data cuaca - Pandas	Bergabung dengan kumpulan data demo 1 bulan lokasi sensor dengan pembacaan cuaca dalam dataframe Spark.

Menggabungkan data taksi NYC dengan data ISD NOAA

Notebook	Deskripsi
Data perjalanan taksi yang diperkaya dengan data cuaca - Pandas	Muat data taksi hijau NYC (lebih dari satu bulan) dan perkaya dengan data cuaca dalam dataframe Pandas. Contoh ini mengambil alih metode `get_pandas_limit` dan menyeimbangkan kinerja pemuatan data dengan jumlah data.
Data perjalanan taksi yang diperkaya dengan data cuaca - Spark	Muat data taksi hijau NYC, dan perkaya dengan data cuaca, dalam dataframe Spark.

Langkah berikutnya

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2025-10-28