opendatasets Paket

Berisi fungsionalitas untuk mengonsumsi Azure Open Datasets sebagai dataframe dan untuk memperkaya data pelanggan.

Azure Open Datasets adalah himpunan data publik yang dikuratori yang dapat Anda gunakan untuk menambahkan fitur khusus skenario ke solusi pembelajaran mesin untuk model yang lebih akurat. Anda dapat mengonversi himpunan data publik ini menjadi dataframe Spark dan pandas dengan filter yang diterapkan. Untuk beberapa himpunan data, Anda dapat menggunakan pengaya untuk menggabungkan data publik dengan data Anda. Misalnya, Anda dapat menggabungkan data Anda dengan data cuaca berdasarkan bujur dan lintang atau kode zip dan waktu.

Termasuk dalam Azure Open Datasets adalah data domain publik untuk cuaca, sensus, hari libur, keselamatan publik, dan lokasi yang membantu Anda melatih model pembelajaran mesin dan memperkaya solusi prediktif. Open Datasets berada di cloud di Microsoft Azure dan diintegrasikan ke dalam Azure Machine Learning. Untuk informasi selengkapnya tentang bekerja dengan Azure Open Datasets, lihat Membuat himpunan data dengan Azure Open Datasets.

Untuk informasi umum tentang Azure Open Datasets, lihat Dokumentasi Azure Open Datasets.

Paket

accessories

Berisi fungsionalitas yang membantu mengidentifikasi jenis kolom dalam data, termasuk garis lintang/garis bujur, kode pos, dan waktu.

aggregators

Berisi fungsionalitas untuk menentukan bagaimana data yang digabungkan diagregasi.

Agregator menentukan operasi yang dapat dilakukan berdasarkan hasil penggabungan dari dua himpunan data. Misalnya, saat menggunakan salah satu kelas di enrichers, Anda dapat menentukan agregator sebagai bagian dari operasi. Jika tidak diperlukan agregasi, gunakan AggregatorAll.

data

Berisi file init untuk sumber data dalam modul publicholidays.

dataaccess

Berisi fungsionalitas yang menyediakan metode akses file blob.

Saat Anda menggunakan kelas dari paket opendatasets seperti kelas ChicagoSafety, kelas dataaccess dan fungsi dalam paket ini digunakan secara internal. Secara umum, Anda tidak perlu menggunakan fungsionalitas dalam paket dataaccess secara langsung.

enrichers

Berisi fungsionalitas untuk memperkaya dan menggabungkan data dari dua himpunan data.

Umumnya, enricher menggabungkan data dari sumber-sumber yang berbeda. Secara khusus, enricher memungkinkan Anda untuk menggabungkan data Anda (data pelanggan) dengan data dari Azure Open Datasets atau himpunan data publik lainnya.

granularities

Berisi fungsionalitas yang menentukan ukuran waktu dan jarak yang digunakan oleh enricher.

Granuralitas adalah ukuran waktu atau jarak yang digunakan oleh enrichers saat memperkaya (menggabungkan) data. Ada granuralitas waktu seperti per jam atau harian, dan granuralitas lokasi seperti jarak terdekat.

selectors

Berisi fungsionalitas untuk memilih dan menggabungkan data dari himpunan data pelanggan dengan data dari himpunan data publik.

Pemilih menentukan logika yang memungkinkan Anda untuk memperkaya data Anda dengan himpunan data publik berdasarkan ukuran waktu dan jarak. Misalnya, dengan pemilih, Anda dapat menemukan data publik untuk digabungkan dengan data Anda berdasarkan lokasi terdekat, atau dengan membulatkan ke granuralitas waktu yang sama.

Menentukan pemilih saat bekerja dengan salah satu kelas dalam paket enrichers.

Modul

environ

Menentukan kelas lingkungan runtime tempat Azure Open Datasets digunakan.

Kelas dalam modul ini memastikan fungsionalitas Azure Open Datasets dioptimalkan untuk lingkungan yang berbeda. Secara umum, Anda tidak perlu membuat instans kelas lingkungan ini atau khawatir tentang implementasinya. Sebagai gantinya, gunakan fungsi modul get_environ untuk mengembalikan lingkungan.

Kelas

BingCOVID19Data

Mewakili himpunan data COVID-19 Bing.

Himpunan data ini berisi data COVID-19 Bing dari beberapa sumber tepercaya dan dapat diandalkan yang meliputi Organisasi Kesehatan Dunia (WHO), Pusat Pencegahan dan Pengendalian Penyakit (CDC), departemen kesehatan nasional dan negara bagian, BNO News, 24/7 Wall St., dan Wikipedia. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data COVID-19 Bing di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

BostonSafety

Menunjukkan kumpulan data publik Boston Safety.

Himpunan data ini berisi 311 panggilan yang dilaporkan ke kota Boston. Untuk informasi selengkapnya tentang himpunan data ini, seperti deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Boston di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

COVID19OpenResearch

Mewakili Himpunan Data Penelitian Terbuka COVID-19.

Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Himpunan Data Penelitian Terbuka COVID-19 di katalog Microsoft Azure Open Datasets.

COVIDTrackingProject

Menunjukkan himpunan data Proyek Pelacakan COVID.

Himpunan data ini berisi himpunan data Proyek Pelacakan COVID yang memberikan angka terbaru tentang tes, kasus terkonfirmasi, rawat inap, dan hasil pasien dari setiap negara bagian dan wilayah AS. Untuk informasi selengkapnya tentang himpunan data ini, seperti deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Himpunan data Proyek Pelacakan COVID di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

ChicagoSafety

Menunjukkan himpunan data publik terkait Keamanan Chicago.

Himpunan data ini berisi 311 permintaan layanan dari kota Chicago, termasuk keluhan kode sanitasi historis, laporan lubang di jalan, dan masalah lampu jalan. Untuk informasi selengkapnya tentang himpunan data ini, seperti deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Chicago di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

CitySafety

Kelas keamanan kota - ini adalah kelas induk yang dapat diwarisi oleh masing-masing kota.

Menginisialisasi bidang pemfilteran.

Diabetes

Mewakili sampel himpunan data publik Sampel Diabetes.

Kumpulan data Diabetes memiliki 442 sampel dengan 10 fitur, menjadikannya ideal untuk memulai dengan algoritme pembelajaran mesin. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Sampel: Diabetes di katalog Microsoft Azure Open Datasets.

EcdcCOVIDCases

Mewakili Kasus Covid-19 Pusat Pencegahan dan Pengendalian Penyakit Eropa (ECDC).

Himpunan data ini berasal dari Pusat Pencegahan dan Pengendalian Penyakit Eropa (ECDC). Setiap baris/entri berisi jumlah kasus baru yang dilaporkan per hari dan per negara/wilayah. Untuk informasi selengkapnya tentang himpunan data ini, seperti deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Pusat Pencegahan dan Pengendalian Penyakit Eropa (ECDC) Kasus Covid-19 di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

MNIST

Mewakili himpunan data MNIST dari digit tulisan tangan.

Database MNIST dari digit tulisan tangan memiliki 60.000 contoh set pelatihan dan 10.000 contoh set pengujian. Ukuran digit telah dinormalisasi dan dipusatkan dalam gambar berukuran tetap. Untuk informasi selengkapnya tentang himpunan data ini, meliputi deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Database digit tulisan tangan MNIST di katalog Microsoft Azure Open Datasets.

Untuk contoh penggunaan himpunan data MNIST, lihat tutorial Melatih model klasifikasi gambar dengan data MNIST dan scikit-learn menggunakan Azure Machine Learning.

NoParameterOpenDatasetBase

Kelas dasar tenaga kerja AS.

Menginisialisasi.

NoaaGfsWeather

Mewakili himpunan data Global Forecast System (GFS) National Oceanic and Atmospheric Administration (NOAA).

Himpunan data ini berisi data prakiraan cuaca AS setiap jam selama 15 hari (contoh: suhu, curah hujan, angin) yang dihasilkan oleh Global Forecast System (GFS) dari National Oceanic and Atmospheric Administration (NOAA). Untuk informasi tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Global Forecast System NOAA di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

NoaaIsdWeather

Mewakili Integrated Surface Dataset (ISD) National Oceanic and Atmospheric Administration (NOAA).

Himpunan data ini berisi data riwayat cuaca per jam di seluruh dunia (contoh: suhu, curah hujan, angin) yang bersumber dari National Oceanic and Atmospheric Administration (NOAA). Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Integrated Surface Data NOAA di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

NycSafety

Menunjukkan kumpulan data publik Keamanan Kota New York.

Himpunan data ini berisi semua Permintaan layanan 311 Kota New York dari tahun 2010 hingga saat ini. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Kota New York di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

NycTaxiBase

Kelas Taksi New York - ini adalah kelas induk yang dapat diwarisi.

Menginisialisasi bidang pemfilteran.

NycTlcFhv

Mewakili himpunan data publik NYC Taxi & Limousine Commission.

Himpunan data ini berisi catatan perjalanan Kendaraan Sewa (FHV), yang mencakup bidang yang mengambil nomor lisensi dasar pengiriman dan tanggal pengambilan, waktu, dan ID lokasi zona taksi (file bentuk di bawah). Catatan ini dihasilkan dari pengiriman FHV Trip Record yang dibuat oleh pangkalan. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contohnya, lihat Catatan perjalanan NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

NycTlcGreen

Mewakili himpunan data publik perjalanan taksi hijau NYC Taxi & Limousine Commission.

Catatan perjalanan taksi ramah lingkungan meliputi bidang yang mencatat tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terperinci, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat NYC Taxi & Limousine Commission - catatan perjalanan taksi hijau di katalog Microsoft Azure Open Datasets.

Untuk contoh penggunaan kelas NycTlcGreen, lihat tutorial Menggunakan pembelajaran mesin otomatis untuk memprediksi tarif taksi.

Menginisialisasi bidang pemfilteran.

NycTlcYellow

Mewakili himpunan data publik perjalanan taksi kuning NYC Taxi & Limousine Commission.

Catatan perjalanan taksi kuning meliputi bidang yang mencatat tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terperinci, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat NYC Taxi & Limousine Commission - catatan perjalanan taksi kuning di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

OjSalesSimulated

Mewakili himpunan data dari Data Sampel Simulasi Penjualan Jus Jeruk.

Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Sampel: Data Simulasi Penjualan OJ di katalog Microsoft Azure Open Datasets.

PublicHolidays

Menunjukkan himpunan data publik terkait Hari Libur Nasional.

Himpunan data ini berisi data hari libur nasional di seluruh dunia yang bersumber dari paket liburan PyPI dan Wikipedia, yang mencakup 38 negara atau wilayah dari tahun 1970 hingga 2099. Setiap baris menunjukkan info hari libur untuk tanggal, negara, atau wilayah tertentu, dan apakah sebagian besar orang memiliki gaji cuti. Untuk informasi selengkapnya tentang himpunan data ini, seperti deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Hari Libur Nasional di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

PublicHolidaysOffline

Mewakili himpunan data publik Offline Hari Libur Nasional.

Untuk deskripsi baris, lihat Hari Libur Umum di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

SampleDatasetBase

Mewakili kelas Dasar Himpunan Data Sampel.

SanFranciscoSafety

Mewakili himpunan data publik Keamanan San Francisco.

Himpunan data ini berisi panggilan pemadam kebakaran untuk layanan dan 311 kasus di San Francisco. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan San Francisco di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

SeattleSafety

Mewakili himpunan data publik Keamanan Seattle.

Himpunan data ini berisi data pengiriman Seattle Fire Department 911. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Seattle di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

UsLaborCPI

Mewakili himpunan data publik Indeks Harga Konsumen AS.

Indeks Harga Konsumen (IHK) adalah ukuran perubahan rata-rata dari waktu ke waktu dalam harga yang dibayar oleh konsumen dari kota untuk sekeranjang pasar barang konsumsi dan jasa. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Indeks Harga Konsumen AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborEHENational

Menunjukkan himpunan data publik terkait Jam Kerja dan Pendapatan Nasional AS.

Himpunan data ini berisi perkiraan industri tentang pekerjaan nonpertanian, jam kerja, dan pendapatan pekerja berdasarkan gaji di Amerika Serikat. Untuk informasi selengkapnya tentang himpunan data ini, seperti deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Jam Kerja dan Pendapatan Nasional AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborEHEState

Mewakili himpunan data publik Jam Kerja dan Pendapatan Negara Bagian AS.

Himpunan data ini berisi perkiraan industri tentang pekerjaan nonpertanian, jam kerja, dan pendapatan pekerja berdasarkan gaji di Amerika Serikat. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Jam Kerja dan Pendapatan Negara Bagian AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborLAUS

Menunjukkan himpunan data publik terkait Statistik Pengangguran Area Lokal AS.

Himpunan data ini berisi data ketenagakerjaan, pengangguran, dan angkatan kerja bulanan maupun tahunan untuk wilayah dan divisi Sensus, Negara Bagian, kabupaten, wilayah metropolitan, dan banyak kota di Amerika Serikat. Untuk informasi selengkapnya tentang himpunan data ini, seperti deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Statistik Pengangguran Area Lokal AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborLFS

Mewakili himpunan data publik Statistik Angkatan Kerja AS.

Himpunan data ini berisi data tentang angkatan kerja di Amerika Serikat, termasuk tingkat partisipasi angkatan kerja, dan populasi sipil noninstitusional berdasarkan usia, jenis kelamin, ras, dan kelompok etnis. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Statistik Angkatan Kerja AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborPPICommodity

Mewakili himpunan data publik Indeks Harga Produsen (PPI) AS - Komoditas.

Indeks Harga Produsen (PPI) adalah ukuran perubahan rata-rata dari waktu ke waktu dalam harga jual yang diterima oleh produsen domestik untuk output mereka. Harga yang termasuk dalam PPI berasal dari transaksi komersial pertama untuk produk dan layanan yang tercakup. Himpunan data ini berisi PPI untuk masing-masing produk dan kelompok produk yang dirilis setiap bulan. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Indeks Harga Produsen AS - Komoditas di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborPPIIndustry

Mewakili himpunan data publik Indeks Harga Produsen (PPI) AS - Industri.

Indeks Harga Produsen (PPI) adalah ukuran perubahan rata-rata dari waktu ke waktu dalam harga jual yang diterima oleh produsen domestik untuk output mereka. Harga yang termasuk dalam PPI berasal dari transaksi komersial pertama untuk produk dan layanan yang tercakup. Himpunan data ini berisi PPI untuk berbagai sektor industri ekonomi AS. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Indeks Harga Produsen AS - Industri di katalog Microsoft Azure Open Datasets.

Untuk informasi umum tentang Azure Open Datasets, lihat Dokumentasi Azure Open Datasets.

Menginisialisasi.

UsPopulationCounty

Mewakili himpunan data publik Populasi AS berdasarkan County.

Himpunan data ini berisi populasi AS berdasarkan jenis kelamin dan ras untuk setiap county AS yang bersumber dari Sensus Penduduk tahun 2000 dan 2010. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Populasi AS berdasarkan County di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsPopulationZip

Mewakili himpunan data publik Populasi AS berdasarkan Kode Pos.

Himpunan data ini berisi populasi AS berdasarkan jenis kelamin dan ras untuk setiap kode pos AS yang bersumber dari Sensus Penduduk tahun 2010. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Populasi AS berdasarkan Kode Pos di katalog Microsoft Azure Open Datasets.

Menginisialisasi.