opendatasets Paket

Berisi fungsionalitas untuk menggunakan Azure Open Datasets sebagai dataframe dan untuk memperkaya data pelanggan.

Azure Open Datasets adalah himpunan data publik yang dikumpulkan yang dapat Anda gunakan untuk menambahkan fitur khusus skenario ke solusi pembelajaran mesin untuk model yang lebih akurat. Anda dapat mengonversi himpunan data publik ini menjadi dataframe Spark dan pandas dengan filter yang diterapkan. Untuk beberapa himpunan data, Anda dapat menggunakan pengaya untuk menggabungkan data publik dengan data Anda. Misalnya, Anda dapat menggabungkan data Anda dengan data cuaca dengan garis bujur dan garis lintang atau kode pos dan waktu.

Termasuk dalam Azure Open Datasets adalah data domain publik untuk cuaca, sensus, hari libur, keamanan publik, dan lokasi yang membantu Anda melatih model pembelajaran mesin dan memperkaya solusi prediktif. Open Datasets berada di cloud di Microsoft Azure dan diintegrasikan ke dalam Azure Machine Learning. Untuk informasi selengkapnya tentang bekerja dengan Azure Open Datasets, lihat Membuat himpunan data dengan Azure Open Datasets.

Untuk informasi umum tentang Azure Open Datasets, lihat Dokumentasi Azure Open Datasets.

Paket

accessories

Berisi fungsionalitas yang membantu mengidentifikasi jenis kolom dalam data, termasuk lat/long, zipcode, dan waktu.

aggregators

Berisi fungsionalitas untuk menentukan bagaimana data yang bergabung dikumpulkan.

Agregator menentukan operasi yang dapat dilakukan pada hasil menggabungkan data dari dua himpunan data. Misalnya, saat Anda menggunakan salah satu kelas di enrichers, Anda dapat menentukan agregator sebagai bagian dari operasi. Jika tidak ada agregasi yang diperlukan, gunakan AggregatorAll.

data

Berisi file init untuk sumber daya data dalam modul publicholidays.

dataaccess

Berisi fungsionalitas yang menyediakan metode akses file blob.

Saat Anda menggunakan kelas dari opendatasets paket seperti ChicagoSafety kelas , kelas dan fungsi dataaccess dalam paket ini digunakan secara internal. Secara umum, Anda tidak perlu menggunakan fungsionalitas dalam paket dataaccess secara langsung.

enrichers

Berisi fungsionalitas untuk memperkaya dan menggabungkan data dari dua himpunan data.

Umumnya, pengaya menggabungkan data dari sumber yang berbeda. Secara khusus, pengaya memungkinkan Anda menggabungkan data Anda (data pelanggan) dengan data dari Azure Open Datasets atau himpunan data publik lainnya.

granularities

Berisi fungsionalitas yang menentukan ukuran waktu dan jarak yang digunakan oleh pengaya.

Granularitas adalah ukuran waktu atau jarak yang digunakan saat enrichers memperkaya (menggabungkan) data. Ada granularitas waktu seperti per jam atau harian, dan granularitas lokasi seperti jarak terdekat.

selectors

Berisi fungsionalitas untuk memilih dan menggabungkan data dari himpunan data pelanggan dengan data dari himpunan data publik.

Pemilih menentukan logika yang memungkinkan Anda memperkaya data Anda dengan himpunan data publik berdasarkan ukuran waktu dan jarak. Misalnya, dengan pemilih Anda dapat menemukan data publik untuk bergabung dengan data Anda berdasarkan lokasi terdekat, atau dengan membulatkan ke granularitas waktu yang sama.

Tentukan pemilih saat bekerja dengan salah satu kelas dalam enrichers paket.

Modul

environ

Menentukan kelas lingkungan runtime tempat Azure Open Datasets digunakan.

Kelas dalam modul ini memastikan fungsionalitas Azure Open Datasets dioptimalkan untuk lingkungan yang berbeda. Secara umum, Anda tidak perlu membuat instans kelas lingkungan ini atau khawatir tentang implementasinya. Sebagai gantinya get_environ , gunakan fungsi modul untuk mengembalikan lingkungan.

Kelas

BingCOVID19Data

Mewakili himpunan data Bing COVID-19.

Himpunan data ini berisi data Bing COVID-19 dari berbagai sumber tepercaya dan dapat diandalkan, termasuk Organisasi Kesehatan Dunia (WHO), Pusat Pengendalian dan Pencegahan Penyakit (CDC), departemen kesehatan masyarakat nasional dan negara bagian, BNO News, 24/7 Wall St., dan Wikipedia. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Bing COVID-19 di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

BostonSafety

Mewakili himpunan data publik Boston Safety.

Himpunan data ini berisi 311 panggilan yang dilaporkan ke kota Boston. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Boston di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

COVID19OpenResearch

Mewakili Himpunan Data Penelitian Terbuka COVID-19.

Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Himpunan Data Penelitian Terbuka COVID-19 di katalog Microsoft Azure Open Datasets.

COVIDTrackingProject

Mewakili himpunan data COVID Tracking Project.

Himpunan data ini berisi himpunan data COVID Tracking Project yang menyediakan angka terbaru pada pengujian, kasus yang dikonfirmasi, rawat inap, dan hasil pasien dari setiap negara bagian dan wilayah AS. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat himpunan data Proyek Pelacakan COVID di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

ChicagoSafety

Mewakili himpunan data publik Chicago Safety.

Himpunan data ini berisi 311 permintaan layanan dari kota Chicago, termasuk keluhan kode sanitasi historis, lubang pot yang dilaporkan, dan masalah lampu jalan. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keselamatan Chicago di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

CitySafety

Kelas keamanan kota - ini adalah kelas induk yang dapat diwariskan oleh setiap kota.

Menginisialisasi bidang pemfilteran.

Diabetes

Mewakili himpunan data publik Diabetes Sampel.

Kumpulan data Diabetes memiliki 442 sampel dengan 10 fitur, menjadikannya ideal untuk memulai dengan algoritme pembelajaran mesin. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Sampel: Diabetes di katalog Microsoft Azure Open Datasets.

EcdcCOVIDCases

Mewakili Kasus Covid-19 Pusat Pencegahan dan Pengendalian Penyakit (ECDC) Eropa.

Himpunan data ini berisi dari European Center for Disease Prevention and Control (ECDC). Setiap baris/entri berisi jumlah kasus baru yang dilaporkan per hari dan per negara/wilayah. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contohnya, lihat Kasus Covid-19 Pusat Pencegahan dan Pengendalian Penyakit (ECDC) Eropa di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

MNIST

Mewakili himpunan data MNIST digit tulisan tangan.

Database MNIST dari digit tulisan tangan memiliki 60.000 contoh set pelatihan dan 10.000 contoh set pengujian. Digit telah dinormalisasi ukuran dan dipusatkan dalam gambar ukuran tetap. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Database MNIST digit tulisan tangan di katalog Microsoft Azure Open Datasets.

Untuk contoh penggunaan himpunan data MNIST, lihat tutorial Melatih model klasifikasi gambar dengan data MNIST dan scikit-learn menggunakan Azure Machine Learning.

NoParameterOpenDatasetBase

Kelas dasar tenaga kerja AS.

Menginisialisasi.

NoaaGfsWeather

Mewakili himpunan data National Oceanic and Atmospheric Administration (NOAA) Global Forecast System (GFS).

Himpunan data ini berisi data prakiraan cuaca per jam AS 15 hari (misalnya: suhu, curah hujan, angin) yang diproduksi oleh Global Forecast System (GFS) dari National Oceanic and Atmospheric Administration (NOAA). Untuk informasi tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Sistem Prakiraan Global NOAA di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

NoaaIsdWeather

Mewakili Himpunan Data Permukaan Terintegrasi (ISD) National Oceanic and Atmospheric Administration (NOAA).

Himpunan data ini berisi data riwayat cuaca per jam di seluruh dunia (misalnya: suhu, curah hujan, angin) yang bersumber dari National Oceanic and Atmospheric Administration (NOAA). Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Permukaan Terintegrasi NOAA di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

NycSafety

Mewakili himpunan data publik New York City Safety.

Himpunan data ini berisi semua Permintaan layanan 311 Kota New York dari tahun 2010 hingga saat ini. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Kota New York di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

NycTaxiBase

Kelas Taksi New York - ini adalah kelas induk yang dapat diwariskan.

Menginisialisasi bidang pemfilteran.

NycTlcFhv

Mewakili himpunan data publik Komisi Taksi &Limousine NYC.

Himpunan data ini berisi catatan perjalanan For-Hire Vechicle (FHV), yang mencakup bidang yang menangkap nomor lisensi dasar pengiriman dan ID lokasi tanggal, waktu, dan zona taksi (file bentuk di bawah). Catatan ini dihasilkan dari pengiriman Catatan Perjalanan FHV yang dibuat oleh basis. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Catatan perjalanan Taksi & Limousine Commission NYC - For-Hire Vehicle (FHV) di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

NycTlcGreen

Mewakili himpunan data publik perjalanan taksi hijau Komisi Taksi & Limusin NYC.

Catatan perjalanan taksi hijau meliputi bidang yang menangkap tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terarah, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat NYC Taxi &Limousine Commission - catatan perjalanan taksi hijau di katalog Microsoft Azure Open Datasets.

Untuk contoh penggunaan kelas NycTlcGreen, lihat tutorial Menggunakan pembelajaran mesin otomatis untuk memprediksi tarif taksi.

Menginisialisasi bidang pemfilteran.

NycTlcYellow

Mewakili himpunan data publik perjalanan taksi kuning Komisi Taksi & Limusin NYC.

Catatan perjalanan taksi kuning meliputi bidang yang menangkap tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terperinci, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Komisi Taksi &Limousine NYC - catatan perjalanan taksi kuning di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

OjSalesSimulated

Mewakili himpunan data Simulasi Penjualan Jus Jeruk Sampel.

Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Sampel: Data Simulasi Penjualan OJ di katalog Microsoft Azure Open Datasets.

PublicHolidays

Mewakili himpunan data publik Hari Libur Umum.

Himpunan data ini berisi data hari libur umum di seluruh dunia yang bersumber dari paket liburan PyPI dan Wikipedia, mencakup 38 negara atau wilayah dari 1970 hingga 2099. Setiap baris menunjukkan info hari libur untuk tanggal, negara, atau wilayah tertentu, dan apakah sebagian besar orang telah membayar waktu libur. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Hari Libur Umum di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

PublicHolidaysOffline

Mewakili himpunan data publik Public Holidays Offline.

Untuk deskripsi baris, lihat Hari Libur Umum di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

SampleDatasetBase

Mewakili kelas Sampel Basis Himpunan Data.

SanFranciscoSafety

Mewakili himpunan data publik San Francisco Safety.

Himpunan data ini berisi panggilan pemadam kebakaran untuk layanan dan 311 kasus di San Francisco. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan San Francisco di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

SeattleSafety

Mewakili himpunan data publik Seattle Safety.

Himpunan data ini berisi data pengiriman Seattle Fire Department 911. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Data Keamanan Seattle di katalog Microsoft Azure Open Datasets.

Menginisialisasi bidang pemfilteran.

UsLaborCPI

Mewakili himpunan data publik Indeks Harga Konsumen AS.

Indeks Harga Konsumen (IHK) adalah ukuran perubahan rata-rata dari waktu ke waktu dalam harga yang dibayarkan oleh konsumen perkotaan untuk keramaian pasar barang dan jasa konsumen. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Indeks Harga Konsumen AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborEHENational

Mewakili himpunan data publik Jam Kerja dan Penghasilan Nasional AS.

Himpunan data ini berisi perkiraan industri tentang pekerjaan, jam kerja, dan penghasilan pekerja yang tidak berfungsi pada penggajian di Amerika Serikat. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Jam Kerja dan Penghasilan Nasional AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborEHEState

Mewakili himpunan data publik Jam Kerja dan Penghasilan Negara Bagian AS.

Himpunan data ini berisi perkiraan industri tentang pekerjaan, jam kerja, dan penghasilan pekerja yang tidak berfungsi pada penggajian di Amerika Serikat. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Jam Kerja dan Penghasilan Status AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborLAUS

Mewakili himpunan data publik Statistik Pengangguran Area Lokal AS.

Himpunan data ini berisi data pekerjaan, pengangguran, dan angkatan kerja bulanan dan tahunan untuk wilayah dan divisi Sensus, Negara Bagian, kabupaten, wilayah metropolitan, dan banyak kota di Amerika Serikat. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Statistik Pengangguran Area Lokal AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborLFS

Mewakili himpunan data publik Statistik Angkatan Kerja AS.

Himpunan data ini berisi data tentang angkatan kerja di Amerika Serikat, termasuk tingkat partisipasi angkatan kerja, dan populasi noninstitusional sipil berdasarkan usia, jenis kelamin, ras, dan kelompok etnis. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Statistik Angkatan Kerja AS di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborPPICommodity

Mewakili Indeks Harga Produsen AS (PPI) - Himpunan data publik komoditas.

Indeks Harga Produsen (PPI) adalah ukuran perubahan rata-rata dari waktu ke waktu dalam harga jual yang diterima oleh produsen domestik untuk output mereka. Harga yang termasuk dalam PPI berasal dari transaksi komersial pertama untuk produk dan layanan yang tercakup. Himpunan data ini berisi PPI untuk produk individu dan grup produk yang dirilis setiap bulan. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Indeks Harga Produsen AS - Komoditas di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsLaborPPIIndustry

Mewakili Indeks Harga Produsen AS (PPI) - Himpunan data publik industri.

Indeks Harga Produsen (PPI) adalah ukuran perubahan rata-rata dari waktu ke waktu dalam harga jual yang diterima oleh produsen domestik untuk output mereka. Harga yang termasuk dalam PPI berasal dari transaksi komersial pertama untuk produk dan layanan yang tercakup. Himpunan data ini berisi PPI untuk berbagai sektor industri ekonomi AS. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Indeks Harga Produsen AS - Industri di katalog Microsoft Azure Open Datasets.

Untuk informasi umum tentang Azure Open Datasets, lihat Dokumentasi Azure Open Datasets.

Menginisialisasi.

UsPopulationCounty

Mewakili Populasi AS menurut himpunan data publik County.

Himpunan data ini berisi populasi AS berdasarkan jenis kelamin dan ras untuk setiap kabupaten AS yang bersumber dari Sensus Desennial 2000 dan 2010. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Populasi AS menurut County di katalog Microsoft Azure Open Datasets.

Menginisialisasi.

UsPopulationZip

Mewakili Populasi AS oleh himpunan data publik Kode Pos.

Himpunan data ini berisi populasi AS berdasarkan jenis kelamin dan ras untuk setiap kode pos AS yang bersumber dari Sensus Dekenial 2010. Untuk informasi selengkapnya tentang himpunan data ini, termasuk deskripsi kolom, berbagai cara untuk mengakses himpunan data, dan contoh, lihat Populasi AS menurut Kode Pos di katalog Microsoft Azure Open Datasets.

Menginisialisasi.