Apa itu Azure Open Datasets dan bagaimana menggunakannya?
Azure Open Datasets adalah himpunan data publik yang dikumpulkan yang dapat Anda tambahkan ke fitur khusus skenario ke solusi pembelajaran mesin, untuk model yang lebih akurat. Open Datasets tersedia di cloud, di Microsoft Azure. Mereka diintegrasikan ke dalam Azure Pembelajaran Mesin dan tersedia untuk Azure Databricks dan Pembelajaran Mesin Studio (klasik). Anda juga dapat mengakses himpunan data melalui API dan Anda bisa menggunakannya di produk lain, seperti Power BI dan Azure Data Factory.
Himpunan data mencakup data domain publik untuk cuaca, sensus, hari libur, keselamatan publik, dan lokasi yang membantu Anda melatih model pembelajaran mesin dan memperkaya solusi prediktif. Anda juga dapat berbagi himpunan data publik melalui Azure Open Datasets.
Himpunan data yang dikumpulkan dan dipersiapkan
Himpunan data publik terbuka yang dikumpulkan di Azure Open Datasets dioptimalkan untuk dikonsumsi dalam alur kerja pembelajaran mesin.
Untuk informasi selengkapnya tentang himpunan data yang tersedia, kunjungi sumber daya Azure Open Datasets Catalog .
Ilmuwan data sering kali menghabiskan sebagian besar waktunya untuk membersihkan dan mempersiapkan data untuk analitik tingkat lanjut. Untuk menghemat waktu Anda, buka Himpunan Data disalin ke cloud Azure, lalu diprosces sebelumnya. Pada interval reguler, data ditarik dari sumber - misalnya, oleh koneksi FTP ke National Oceanic and Atmospheric Administration (NOAA). Selanjutnya, data diurai ke dalam format terstruktur, dan kemudian diperkaya sesuai kebutuhan, dengan fitur seperti Kode Pos atau lokasi stasiun cuaca terdekat.
Himpunan data dikohosting dengan komputasi cloud di Azure, untuk mempermudah akses dan manipulasi.
Berikut adalah contoh himpunan data yang tersedia:
Data cuaca
Dataset | Notebook | Deskripsi |
---|---|---|
Data Permukaan Terintegrasi (ISD) NOAA | Azure Notebooks Azure Databricks |
Data cuaca per jam di seluruh dunia dari NOAA dengan cakupan spasial terbaik di Amerika Utara, Eropa, Australia, dan sebagian Asia. Diperbarui setiap hari. |
Sistem Prakiraan Global (GFS) NOAA | Azure Notebooks Azure Databricks |
Data prakiraan cuaca AS per jam dalam periode 15 hari dari NOAA. Diperbarui setiap hari. |
Data kalender
Dataset | Notebook | Deskripsi |
---|---|---|
Hari Libur Nasional | Azure Notebooks Azure Databricks |
Data hari libur nasional di seluruh dunia, mencakup 41 negara atau wilayah dari 1970 hingga 2099. Termasuk negara/wilayah dan apakah sebagian besar orang telah membayar cuti. |
Akses ke himpunan data
Dengan akun Azure, Anda dapat mengakses himpunan data terbuka melalui kode atau melalui antarmuka layanan Azure. Data ini dikolokasikan dengan sumber daya komputasi cloud Azure untuk digunakan dalam solusi pembelajaran mesin Anda.
Open Datasets tersedia melalui antarmuka pengguna dan SDK Azure Machine Learning. Open Datasets juga menyediakan notebook Azure Notebooks dan Azure Databricks yang dapat menyambungkan data ke Azure Pembelajaran Mesin dan Azure Databricks. Datasets juga dapat diakses melalui Python SDK.
Namun, Anda tidak memerlukan akun Azure untuk mengakses Open Datasets; Anda dapat mengaksesnya dari lingkungan Python dengan atau tanpa Spark.
Meminta atau memberikan kontribusi pada himpunan data
Jika Anda tidak dapat menemukan data yang diinginkan, kirim email kepada kami untuk meminta himpunan data atau memberikan kontribusi pada himpunan data.