opendatasets Paket
Berisi fungsionalitas untuk menggunakan Azure Open Datasets sebagai dataframe dan untuk memperkaya data pelanggan.
Azure Open Datasets adalah himpunan data publik yang dikumpulkan yang dapat Anda gunakan untuk menambahkan fitur khusus skenario ke solusi pembelajaran mesin untuk model yang lebih akurat. Anda dapat mengonversi himpunan data publik ini menjadi dataframe Spark dan pandas dengan filter yang diterapkan. Untuk beberapa himpunan data, Anda dapat menggunakan pengaya untuk menggabungkan data publik dengan data Anda. Misalnya, Anda dapat menggabungkan data Anda dengan data cuaca dengan garis bujur dan garis lintang atau kode pos dan waktu.
Termasuk dalam Azure Open Datasets adalah data domain publik untuk cuaca, sensus, hari libur, keamanan publik, dan lokasi yang membantu Anda melatih model pembelajaran mesin dan memperkaya solusi prediktif. Open Datasets berada di cloud di Microsoft Azure dan diintegrasikan ke dalam Azure Machine Learning. Untuk informasi selengkapnya tentang bekerja dengan Azure Open Datasets, lihat Membuat himpunan data dengan Azure Open Datasets.
Untuk informasi umum tentang Azure Open Datasets, lihat Dokumentasi Azure Open Datasets.
Paket
| accessories |
Berisi fungsionalitas yang membantu mengidentifikasi jenis kolom dalam data, termasuk lat/long, zipcode, dan waktu. |
| aggregators |
Berisi fungsionalitas untuk menentukan bagaimana data yang bergabung dikumpulkan. Agregator menentukan operasi yang dapat dilakukan pada hasil menggabungkan data dari dua himpunan data. Misalnya, saat Anda menggunakan salah satu kelas di enrichers, Anda dapat menentukan agregator sebagai bagian dari operasi. Jika tidak ada agregasi yang diperlukan, gunakan AggregatorAll. |
| data |
Berisi file init untuk sumber daya data dalam modul publicholidays. |
| dataaccess |
Berisi fungsionalitas yang menyediakan metode akses file blob. Saat Anda menggunakan kelas dari opendatasets paket seperti ChicagoSafety kelas , kelas dan fungsi dataaccess dalam paket ini digunakan secara internal. Secara umum, Anda tidak perlu menggunakan fungsionalitas dalam paket dataaccess secara langsung. |
| enrichers |
Berisi fungsionalitas untuk memperkaya dan menggabungkan data dari dua himpunan data. Umumnya, pengaya menggabungkan data dari sumber yang berbeda. Secara khusus, pengaya memungkinkan Anda menggabungkan data Anda (data pelanggan) dengan data dari Azure Open Datasets atau himpunan data publik lainnya. |
| granularities |
Berisi fungsionalitas yang menentukan ukuran waktu dan jarak yang digunakan oleh pengaya. Granularitas adalah ukuran waktu atau jarak yang digunakan saat enrichers memperkaya (menggabungkan) data. Ada granularitas waktu seperti per jam atau harian, dan granularitas lokasi seperti jarak terdekat. |
| selectors |
Berisi fungsionalitas untuk memilih dan menggabungkan data dari himpunan data pelanggan dengan data dari himpunan data publik. Pemilih menentukan logika yang memungkinkan Anda memperkaya data Anda dengan himpunan data publik berdasarkan ukuran waktu dan jarak. Misalnya, dengan pemilih Anda dapat menemukan data publik untuk bergabung dengan data Anda berdasarkan lokasi terdekat, atau dengan membulatkan ke granularitas waktu yang sama. Tentukan pemilih saat bekerja dengan salah satu kelas dalam enrichers paket. |
Modul
| environ |
Menentukan kelas lingkungan runtime tempat Azure Open Datasets digunakan. Kelas dalam modul ini memastikan fungsionalitas Azure Open Datasets dioptimalkan untuk lingkungan yang berbeda.
Secara umum, Anda tidak perlu membuat instans kelas lingkungan ini atau khawatir tentang implementasinya.
Sebagai gantinya |
Kelas
| BingCOVID19Data |
Mewakili himpunan data Bing COVID-19. Himpunan data ini berisi data Bing COVID-19 dari berbagai sumber tepercaya dan dapat diandalkan, termasuk Organisasi Kesehatan Dunia (WHO), Pusat Pengendalian dan Pencegahan Penyakit (CDC), departemen kesehatan masyarakat nasional dan negara bagian, BNO News, 24/7 Wall St., dan Wikipedia. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Bing COVID-19 di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| BostonSafety |
Mewakili himpunan data publik Boston Safety. Himpunan data ini berisi 311 panggilan yang dilaporkan ke kota Boston. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Boston di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| COVID19OpenResearch |
Mewakili Himpunan Data Penelitian Terbuka COVID-19. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Himpunan Data Penelitian Terbuka COVID-19 di katalog Microsoft Azure Open Datasets. |
| COVIDTrackingProject |
Mewakili himpunan data COVID Tracking Project. Himpunan data ini berisi himpunan data COVID Tracking Project yang menyediakan angka terbaru pada pengujian, kasus yang dikonfirmasi, rawat inap, dan hasil pasien dari setiap negara bagian dan wilayah AS. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat himpunan data Proyek Pelacakan COVID di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| ChicagoSafety |
Mewakili himpunan data publik Chicago Safety. Himpunan data ini berisi 311 permintaan layanan dari kota Chicago, termasuk keluhan kode sanitasi historis, lubang pot yang dilaporkan, dan masalah lampu jalan. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keselamatan Chicago di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| CitySafety |
Kelas keamanan kota - ini adalah kelas induk yang dapat diwariskan oleh setiap kota. Menginisialisasi bidang pemfilteran. |
| Diabetes |
Mewakili himpunan data publik Diabetes Sampel. Kumpulan data Diabetes memiliki 442 sampel dengan 10 fitur, menjadikannya ideal untuk memulai dengan algoritme pembelajaran mesin. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Sampel: Diabetes di katalog Microsoft Azure Open Datasets. |
| EcdcCOVIDCases |
Mewakili Kasus Covid-19 Pusat Pencegahan dan Pengendalian Penyakit (ECDC) Eropa. Himpunan data ini berisi dari European Center for Disease Prevention and Control (ECDC). Setiap baris/entri berisi jumlah kasus baru yang dilaporkan per hari dan per negara/wilayah. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contohnya, lihat Kasus Covid-19 Pusat Pencegahan dan Pengendalian Penyakit (ECDC) Eropa di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| MNIST |
Mewakili himpunan data MNIST digit tulisan tangan. Database MNIST dari digit tulisan tangan memiliki 60.000 contoh set pelatihan dan 10.000 contoh set pengujian. Digit telah dinormalisasi ukuran dan dipusatkan dalam gambar ukuran tetap. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Database MNIST digit tulisan tangan di katalog Microsoft Azure Open Datasets. Untuk contoh penggunaan himpunan data MNIST, lihat tutorial Melatih model klasifikasi gambar dengan data MNIST dan scikit-learn menggunakan Azure Machine Learning. |
| NoParameterOpenDatasetBase |
Kelas dasar tenaga kerja AS. Menginisialisasi. |
| NoaaGfsWeather |
Mewakili himpunan data National Oceanic and Atmospheric Administration (NOAA) Global Forecast System (GFS). Himpunan data ini berisi data prakiraan cuaca per jam AS 15 hari (misalnya: suhu, curah hujan, angin) yang diproduksi oleh Global Forecast System (GFS) dari National Oceanic and Atmospheric Administration (NOAA). Untuk informasi tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Sistem Prakiraan Global NOAA di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| NoaaIsdWeather |
Mewakili Himpunan Data Permukaan Terintegrasi (ISD) National Oceanic and Atmospheric Administration (NOAA). Himpunan data ini berisi data riwayat cuaca per jam di seluruh dunia (misalnya: suhu, curah hujan, angin) yang bersumber dari National Oceanic and Atmospheric Administration (NOAA). Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Permukaan Terintegrasi NOAA di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| NycSafety |
Mewakili himpunan data publik New York City Safety. Himpunan data ini berisi semua Permintaan layanan 311 Kota New York dari tahun 2010 hingga saat ini. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Kota New York di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| NycTaxiBase |
Kelas Taksi New York - ini adalah kelas induk yang dapat diwariskan. Menginisialisasi bidang pemfilteran. |
| NycTlcFhv |
Mewakili himpunan data publik Komisi Taksi &Limousine NYC. Himpunan data ini berisi catatan perjalanan For-Hire Vechicle (FHV), yang mencakup bidang yang menangkap nomor lisensi dasar pengiriman dan ID lokasi tanggal, waktu, dan zona taksi (file bentuk di bawah). Catatan ini dihasilkan dari pengiriman Catatan Perjalanan FHV yang dibuat oleh basis. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Catatan perjalanan Taksi & Limousine Commission NYC - For-Hire Vehicle (FHV) di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| NycTlcGreen |
Mewakili himpunan data publik perjalanan taksi hijau Komisi Taksi & Limusin NYC. Catatan perjalanan taksi hijau meliputi bidang yang menangkap tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terarah, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat NYC Taxi &Limousine Commission - catatan perjalanan taksi hijau di katalog Microsoft Azure Open Datasets. Untuk contoh penggunaan kelas NycTlcGreen, lihat tutorial Menggunakan pembelajaran mesin otomatis untuk memprediksi tarif taksi. Menginisialisasi bidang pemfilteran. |
| NycTlcYellow |
Mewakili himpunan data publik perjalanan taksi kuning Komisi Taksi & Limusin NYC. Catatan perjalanan taksi kuning meliputi bidang yang menangkap tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terperinci, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Komisi Taksi &Limousine NYC - catatan perjalanan taksi kuning di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| OjSalesSimulated |
Mewakili himpunan data Simulasi Penjualan Jus Jeruk Sampel. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Sampel: Data Simulasi Penjualan OJ di katalog Microsoft Azure Open Datasets. |
| PublicHolidays |
Mewakili himpunan data publik Hari Libur Umum. Himpunan data ini berisi data hari libur umum di seluruh dunia yang bersumber dari paket liburan PyPI dan Wikipedia, mencakup 38 negara atau wilayah dari 1970 hingga 2099. Setiap baris menunjukkan info hari libur untuk tanggal, negara, atau wilayah tertentu, dan apakah sebagian besar orang telah membayar waktu libur. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Hari Libur Umum di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| PublicHolidaysOffline |
Mewakili himpunan data publik Public Holidays Offline. Untuk deskripsi baris, lihat Hari Libur Umum di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| SampleDatasetBase |
Mewakili kelas Sampel Basis Himpunan Data. |
| SanFranciscoSafety |
Mewakili himpunan data publik San Francisco Safety. Himpunan data ini berisi panggilan pemadam kebakaran untuk layanan dan 311 kasus di San Francisco. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan San Francisco di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| SeattleSafety |
Mewakili himpunan data publik Seattle Safety. Himpunan data ini berisi data pengiriman Seattle Fire Department 911. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Seattle di katalog Microsoft Azure Open Datasets. Menginisialisasi bidang pemfilteran. |
| UsLaborCPI |
Mewakili himpunan data publik Indeks Harga Konsumen AS. Indeks Harga Konsumen (IHK) adalah ukuran perubahan rata-rata dari waktu ke waktu dalam harga yang dibayarkan oleh konsumen perkotaan untuk keramaian pasar barang dan jasa konsumen. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Indeks Harga Konsumen AS di katalog Microsoft Azure Open Datasets. Menginisialisasi. |
| UsLaborEHENational |
Mewakili himpunan data publik Jam Kerja dan Penghasilan Nasional AS. Himpunan data ini berisi perkiraan industri tentang pekerjaan, jam kerja, dan penghasilan pekerja yang tidak berfungsi pada penggajian di Amerika Serikat. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Jam Kerja dan Penghasilan Nasional AS di katalog Microsoft Azure Open Datasets. Menginisialisasi. |
| UsLaborEHEState |
Mewakili himpunan data publik Jam Kerja dan Penghasilan Negara Bagian AS. Himpunan data ini berisi perkiraan industri tentang pekerjaan, jam kerja, dan penghasilan pekerja yang tidak berfungsi pada penggajian di Amerika Serikat. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Jam Kerja dan Penghasilan Status AS di katalog Microsoft Azure Open Datasets. Menginisialisasi. |
| UsLaborLAUS |
Mewakili himpunan data publik Statistik Pengangguran Area Lokal AS. Himpunan data ini berisi data pekerjaan, pengangguran, dan angkatan kerja bulanan dan tahunan untuk wilayah dan divisi Sensus, Negara Bagian, kabupaten, wilayah metropolitan, dan banyak kota di Amerika Serikat. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Statistik Pengangguran Area Lokal AS di katalog Microsoft Azure Open Datasets. Menginisialisasi. |
| UsLaborLFS |
Mewakili himpunan data publik Statistik Angkatan Kerja AS. Himpunan data ini berisi data tentang angkatan kerja di Amerika Serikat, termasuk tingkat partisipasi angkatan kerja, dan populasi noninstitusional sipil berdasarkan usia, jenis kelamin, ras, dan kelompok etnis. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Statistik Angkatan Kerja AS di katalog Microsoft Azure Open Datasets. Menginisialisasi. |
| UsLaborPPICommodity |
Mewakili Indeks Harga Produsen AS (PPI) - Himpunan data publik komoditas. Indeks Harga Produsen (PPI) adalah ukuran perubahan rata-rata dari waktu ke waktu dalam harga jual yang diterima oleh produsen domestik untuk output mereka. Harga yang termasuk dalam PPI berasal dari transaksi komersial pertama untuk produk dan layanan yang tercakup. Himpunan data ini berisi PPI untuk produk individu dan grup produk yang dirilis setiap bulan. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Indeks Harga Produsen AS - Komoditas di katalog Microsoft Azure Open Datasets. Menginisialisasi. |
| UsLaborPPIIndustry |
Mewakili Indeks Harga Produsen AS (PPI) - Himpunan data publik industri. Indeks Harga Produsen (PPI) adalah ukuran perubahan rata-rata dari waktu ke waktu dalam harga jual yang diterima oleh produsen domestik untuk output mereka. Harga yang termasuk dalam PPI berasal dari transaksi komersial pertama untuk produk dan layanan yang tercakup. Himpunan data ini berisi PPI untuk berbagai sektor industri ekonomi AS. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Indeks Harga Produsen AS - Industri di katalog Microsoft Azure Open Datasets. Untuk informasi umum tentang Azure Open Datasets, lihat Dokumentasi Azure Open Datasets. Menginisialisasi. |
| UsPopulationCounty |
Mewakili Populasi AS menurut himpunan data publik County. Himpunan data ini berisi populasi AS berdasarkan jenis kelamin dan ras untuk setiap kabupaten AS yang bersumber dari Sensus Desennial 2000 dan 2010. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Populasi AS menurut County di katalog Microsoft Azure Open Datasets. Menginisialisasi. |
| UsPopulationZip |
Mewakili Populasi AS oleh himpunan data publik Kode Pos. Himpunan data ini berisi populasi AS berdasarkan jenis kelamin dan ras untuk setiap kode pos AS yang bersumber dari Sensus Dekenial 2010. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Populasi AS menurut Kode Pos di katalog Microsoft Azure Open Datasets. Menginisialisasi. |