Azure Open Datasets
Tingkatkan akurasi model pembelajaran mesin Anda dengan himpunan data yang tersedia untuk publik. Untuk menghemat waktu pada penemuan dan persiapan data, gunakan himpunan data yang dikumpulkan yang siap untuk proyek pembelajaran mesin.
Transportasi
Dataset | Deskripsi |
---|---|
TartanAir: Himpunan Data Simulasi AirSim | Data kendaraan Otonom AirSim yang dihasilkan untuk menyelesaikan Pelokalan dan Pemetaan Berkelanjutan (SLAM). |
Komisi Taksi & Limusin NYC - catatan perjalanan taksi kuning | Catatan perjalanan taksi kuning meliputi tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terperinci, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi. |
Komisi Taksi & Limusin NYC - catatan perjalanan taksi hijau | Catatan perjalanan taksi hijau meliputi tanggal/waktu penjemputan dan pengantaran, lokasi penjemputan dan pengantaran, jarak perjalanan, tarif terperinci, jenis tarif, jenis pembayaran, dan jumlah penumpang yang dilaporkan pengemudi. |
Komisi Taksi & Limusin NYC - catatan perjalanan Kendaraan yang Disewakan (FHV) | Catatan perjalanan FHV meliputi nomor lisensi dasar pengiriman dan tanggal penjemputan, waktu, dan ID lokasi zona taksi. |
Kesehatan dan genomika
Dataset | Deskripsi |
---|---|
COVID-19 Data Lake | Kumpulan Data Lake COVID-19 adalah kumpulan himpunan data terkait COVID-19 dari berbagai sumber yang meliputi data pengujia dan pelacakan hasil pasien, kebijakan jaga jarak sosial, kapasitas rumah sakit, mobilitas, dll. |
Himpunan Data Penelitian Terbuka COVID-19 | Himpunan data teks lengkap dan metadata artikel sarjana terkait COVID-19 dan coronavirus, dioptimalkan untuk keterbacaan mesin dan tersedia untuk digunakan oleh komunitas penelitian global. |
Data Lake Microsoft Genomics | Data Lake Genomics menyediakan berbagai himpunan data publik yang tersedia secara gratis, siap diintegrasikan ke dalam alur kerja dan aplikasi analisis genomika Anda. Himpunan data ini mencakup urutan genom, info varian, dan metadata subjek/sampel dalam format file BAM, FASTA, VCF, CSV. |
Tenaga kerja dan ekonomi
Dataset | Deskripsi |
---|---|
Statistik Angkatan Kerja AS | Statistik Angkatan Kerja AS menyediakan Statistik Angkatan Kerja, tingkat partisipasi angkatan kerja, dan populasi noninstitusional sipil berdasarkan usia, jenis kelamin, ras, dan kelompok etnis di Amerika Serikat. |
Jam Kerja dan Pendapatan Nasional AS | Program Statistik Pekerjaan Saat Ini (CES) menghasilkan perkiraan industri terperinci tentang pekerjaan nonpertanian, jam kerja, dan pendapatan pekerja pada penggajian di Amerika Serikat. |
Jam Kerja dan Pendapatan Negara Bagian AS | Program Statistik Pekerjaan Saat Ini (CES) menghasilkan perkiraan industri terperinci tentang pekerjaan nonpertanian, jam kerja, dan pendapatan pekerja pada penggajian di Amerika Serikat. |
Statistik Pengangguran Area Lokal AS | Himpunan data Statistik Pengangguran Area Lokal (LAUS) menyediakan data ketenagakerjaan, pengangguran, dan angkatan kerja bulanan dan tahunan untuk Wilayah sensus dan divisi, Negara Bagian, Daerah, wilayah metropolitan, dan banyak kota di Amerika Serikat. |
Indeks Harga Konsumen AS | Indeks Harga Konsumen (IHK) mengukur perubahan rata-rata dari waktu ke waktu dalam harga yang dibayarkan oleh konsumen perkotaan untuk keramaian pasar barang dan jasa konsumen. |
Indeks Harga Produsen AS - Industri | Indeks Harga Produsen (PPI) mengukur perubahan rata-rata, dari waktu ke waktu, dalam harga jual yang diterima oleh produsen domestik untuk output mereka. |
Indeks Harga Produsen AS - Komoditas | Indeks Harga Produsen (PPI) mengukur perubahan rata-rata, dari waktu ke waktu, dalam harga jual yang diterima oleh produsen domestik untuk komoditas mereka. |
Populasi dan keselamatan
Dataset | Deskripsi |
---|---|
Populasi AS menurut Daerah | Populasi AS berdasarkan jenis kelamin dan ras untuk setiap kabupaten AS, bersumber dari Sensus Desennial 2000 dan 2010. Himpunan data ini bersumber dari Biro Sennsu Amerika Serikat. |
Populasi AS menurut Kode Pos | Populasi AS berdasarkan jenis kelamin dan ras untuk setiap kode pos AS, bersumber dari Sensus Dekennial 2010. Himpunan data ini bersumber dari Biro Sennsu Amerika Serikat. |
Data Keamanan Boston | Baca data tentang panggilan 311 yang dilaporkan ke kota Boston. Himpunan data ini disimpan dalam format Parquet dan menerima pembaruan harian. |
Data Keamanan Chicago | Baca data tentang panggilan 311 yang dilaporkan ke kota Chicago. Himpunan data ini disimpan dalam format Parquet dan menerima pembaruan harian. |
Data Keamanan Kota New York | Himpunan data ini berisi semua Permintaan layanan 311 Kota New York dari tahun 2010 hingga saat ini. Himpunan data ini disimpan dalam format Parquet dan menerima pembaruan harian. |
Data Keamanan San Francisco | Panggilan layanan pemadam kebakaran dan kasus 311 di San Francisco. Himpunan data ini berisi catatan historis yang diakumulasi dari 2015 hingga sekarang. |
Data Keamanan Seattle | Pemadam Kebakaran Seattle 911 dikirimkan. Himpunan data ini diperbarui setiap hari, dan berisi catatan historis yang diakumulasi dari 2010 hingga sekarang |
Himpunan data umum dan dukungan
Dataset | Deskripsi |
---|---|
Diabetes | Kumpulan data Diabetes memiliki 442 sampel dengan 10 fitur, menjadikannya ideal untuk memulai dengan algoritme pembelajaran mesin. |
Data Simulasi Penjualan OJ | Himpunan data ini berasal dari himpunan data OJ Dominick dan mencakup data simulasi ekstra, dengan tujuan menyediakan himpunan data yang memudahkan untuk melatih ribuan model secara bersamaan di Azure Pembelajaran Mesin. |
Database MNIST dari digit tulisan tangan | Database MNIST dari digit tulisan tangan memiliki 60.000 contoh set pelatihan dan 10.000 contoh set pengujian. Digit dinormalisasi ukuran dan berpusat dalam gambar ukuran tetap. |
Himpunan data rekomendasi Microsoft News | Microsoft News Dataset (MIND) adalah himpunan data skala besar untuk penelitian rekomendasi berita. MIND berfungsi sebagai tolok ukur himpunan data untuk rekomendasi berita dan memfasilitasi penelitian dalam rekomendasi berita dan sistem pemberi rekomendasi. |
Hari Libur Nasional | Data hari libur nasional di seluruh dunia yang bersumber dari paket liburan PyPI dan Wikipedia, mencakup 38 negara atau wilayah dari 1970 hingga 2099. |
Ucapan ke teks terbuka bahasa Rusia | Ucapan ke Teks (STT) Terbuka Rusia adalah himpunan data ucapan ke teks terbuka berskala besar untuk bahasa Rusia |