Test ve prototip oluşturma için genel veri kümeleri
Şunlar için geçerlidir: Azure VM'deSQL Server Azure SQL VeritabanıAzure SQL Yönetilen Örneği
Depolama ve analiz hizmetlerinin ve çözümlerinin prototipini yapmak ve test etmek için kullanabileceğiniz veriler için bu genel veri kümeleri listesine göz atın.
ABD Kamu ve kuruluş verileri
Data source | Veriler hakkında | Dosyalar hakkında |
---|---|---|
US Government verileri | Tarım, iklim, tüketici, ekosistemler, eğitim, enerji, finans, sağlık, yerel yönetim, üretim, deniz, okyanus, kamu güvenliği ve ABD'de bilim ve araştırma konularını kapsayan 250.000'den fazla veri kümesi | HTML, XML, CSV, JSON, Excel ve diğerleri gibi çeşitli biçimlerdeki çeşitli boyutlardaki dosyalar. Kullanılabilir veri kümelerini dosya biçimine göre filtreleyebilirsiniz. |
ABD Nüfus Sayımı verileri | ABD'nin nüfusu hakkında istatistiksel veriler | Veri kümeleri çeşitli biçimlerdedir. |
NASA'dan yer bilimi verileri | Tarım, atmosfer, biyosfer, iklim, kriyosfer, insan boyutları, hidrosfer, kara yüzeyi, okyanuslar, güneş-dünya etkileşimleri ve daha fazlasını kapsayan 32.000'den fazla veri koleksiyonu. | Veri kümeleri çeşitli biçimlerdedir. |
Havayolu uçuş gecikmeleri ve diğer ulaşım verileri | "ABD Ulaştırma Bakanlığı'nın (DOT) Ulaşım İstatistikleri Bürosu (BTS), büyük hava kargo firmaları tarafından işletilen iç hat uçuşlarının zamanında performansını takip ediyor. Zamanında, gecikmeli, iptal edilen ve yönlendirilen uçuşların sayısıyla ilgili özet bilgiler görüntülenir... bu web sitesine gönderilen özet tablolarda." | Dosyalar CSV biçimindedir. |
Trafik ölümleri - ABD Ölüm Analizi Raporlama Sistemi (FARS) | "FARS, NHTSA, Kongre ve Amerikan kamu yıllık verilerini motorlu araç trafik kazalarında oluşan ölümcül yaralanmalarla ilgili olarak sağlayan ülke çapında bir nüfus sayımıdır." | "FARS Sorgu Sistemi'ni kullanarak çevrimiçi çalıştırılan kendi önemli verilerinizi oluşturun. Veya FTP Sitesinden sunmak için 1975'ten itibaren tüm FARS verilerini indirin." |
Toksik kimyasal veriler - EPA Toksisitesi ForeCaster (ToxCast™) verileri | "EPA'nın binlerce kimyasalla ilgili en güncel, genel kullanıma açık yüksek aktarım hızı toksisite verileri. Bu veriler, EPA'nın ToxCast araştırma çalışması aracılığıyla oluşturulur." | Veri kümeleri elektronik tablolar, R paketleri ve MySQL veritabanı dosyaları gibi çeşitli biçimlerde kullanılabilir. |
Toksik kimyasal veriler - NIH Tox21 Data Challenge 2014 | "2014 Tox21 veri sınaması, bilim insanlarının toksik etkilere yol açabilecek yollarla biyolojik yolları bozma girişiminde Toksikoloji aracılığıyla test edilen kimyasalların ve bileşiklerin potansiyelini anlamasına yardımcı olmak için tasarlanmıştır." | Veri kümeleri SMILES ve SDF biçimlerinde kullanılabilir. Veriler "Tox21 koleksiyonunda yaklaşık 10.000 bileşikten oluşan (Tox21 10K) araştırma etkinlik verileri ve kimyasal yapılar" sağlar. |
NCBI'dan biyoteknoloji ve genom verileri | Genleri, genomları ve proteinleri kapsayan birden çok veri kümesi. | Veri kümeleri metin, XML, BLAST ve diğer biçimlerdedir. Bir BLAST uygulaması mevcuttur. |
Diğer istatistiksel ve bilimsel veriler
Data source | Veriler hakkında | Dosyalar hakkında |
---|---|---|
New York City taksi verileri | "Taksi yolculuğu kayıtları, teslim alma ve bırakma tarihlerini/saatlerini, teslim alma ve bırakma konumlarını, seyahat mesafelerini, listelenmiş ücretleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayısını yakalayan alanları içerir." | Veri kümeleri, aylara göre CSV dosyalarında bulunur. |
Microsoft Research veri kümeleri - "Araştırma için Veri Bilimi" | İnsan-bilgisayar etkileşimi, ses/video, veri madenciliği/bilgi alma, jeo-uzamsal/konum, doğal dil işleme ve robot/görüntü işlemeyi kapsayan birden çok veri kümesi. | Veri kümeleri çeşitli biçimlerdedir ve indirme için sıkıştırılmıştır. |
Açık Bilim Verileri Bulutu verileri | "Açık Bilim Veri Bulutu, bilimsel topluluğa terabayt ve petabayt ölçekli bilimsel veri kümelerini depolamak, paylaşmak ve analiz etmek için kaynaklar sağlar." | Veri kümeleri çeşitli biçimlerdedir. |
Küresel iklim verileri - WorldClim | "WorldClim, yaklaşık 1 km2 uzamsal çözünürlüğe sahip bir dizi küresel iklim katmanıdır (kılavuzlu iklim verileri). Bu veriler eşleme ve uzamsal modelleme için kullanılabilir." | Bu dosyalar jeo-uzamsal veriler içerir. |
İnsan toplumuyla ilgili veriler - GDELT Projesi | "GDELT Projesi, insan toplumunun şimdiye kadar oluşturduğu en büyük, en kapsamlı ve en yüksek çözünürlüklü açık veritabanıdır." | Ham veri dosyaları CSV biçimindedir. |
Criteo'dan makine öğrenmesi için reklam tıklama tahmini verileri | "Genel kullanıma açık en büyük ML veri kümesi." Daha fazla bilgi için bkz . Criteo'nun 1 TB Tıklama Tahmini Veri Kümesi. |
Çevrimiçi hizmet verileri
Data source | Veriler hakkında | Dosyalar hakkında |
---|---|---|
GitHub arşivi | "GitHub Arşivi, genel GitHub zaman çizelgesini [olayların] kaydetme, arşivle ve daha fazla analiz için kolayca erişilebilir hale getirme projesidir." | Bir web istemcisinden .gz (Gzip) biçiminde JSON ile kodlanmış olay arşivlerini indirin. |
GHTorrent projesinden GitHub etkinlik verileri | "GHTorrent projesi , GitHub REST API aracılığıyla sunulan verilerin ölçeklenebilir, sorgulanabilir, çevrimdışı bir yansıtmasını oluşturmaya yönelik bir çabadır. GHTorrent, GitHub genel olay zaman çizgisini izler. Her olay için içeriklerini ve bağımlılıklarını kapsamlı bir şekilde alır." | MySQL veritabanı dökümleri CSV biçimindedir. |
Yığın Taşması veri dökümü | "Bu, Stack Exchange ağındaki [Stack Overflow dahil] kullanıcı tarafından katkıda bulunan tüm içeriğin anonimleştirilmiş dökümüdür." | "Her site [Stack Overflow gibi] bzip2 sıkıştırması kullanılarak 7 zip ile sıkıştırılmış XML dosyalarından oluşan ayrı bir arşiv olarak biçimlendirilir. Her site arşivi Gönderiler, Kullanıcılar, Oylar, Yorumlar, PostHistory ve PostLink'ler içerir." |
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin