Test ve prototip oluşturma için genel veri kümeleri

Şunlar için geçerlidir: Azure VM'deSQL Server Azure SQL VeritabanıAzure SQL Yönetilen Örneği

Depolama ve analiz hizmetlerinin ve çözümlerinin prototipini yapmak ve test etmek için kullanabileceğiniz veriler için bu genel veri kümeleri listesine göz atın.

ABD Kamu ve kuruluş verileri

Data source Veriler hakkında Dosyalar hakkında
US Government verileri Tarım, iklim, tüketici, ekosistemler, eğitim, enerji, finans, sağlık, yerel yönetim, üretim, deniz, okyanus, kamu güvenliği ve ABD'de bilim ve araştırma konularını kapsayan 250.000'den fazla veri kümesi HTML, XML, CSV, JSON, Excel ve diğerleri gibi çeşitli biçimlerdeki çeşitli boyutlardaki dosyalar. Kullanılabilir veri kümelerini dosya biçimine göre filtreleyebilirsiniz.
ABD Nüfus Sayımı verileri ABD'nin nüfusu hakkında istatistiksel veriler Veri kümeleri çeşitli biçimlerdedir.
NASA'dan yer bilimi verileri Tarım, atmosfer, biyosfer, iklim, kriyosfer, insan boyutları, hidrosfer, kara yüzeyi, okyanuslar, güneş-dünya etkileşimleri ve daha fazlasını kapsayan 32.000'den fazla veri koleksiyonu. Veri kümeleri çeşitli biçimlerdedir.
Havayolu uçuş gecikmeleri ve diğer ulaşım verileri "ABD Ulaştırma Bakanlığı'nın (DOT) Ulaşım İstatistikleri Bürosu (BTS), büyük hava kargo firmaları tarafından işletilen iç hat uçuşlarının zamanında performansını takip ediyor. Zamanında, gecikmeli, iptal edilen ve yönlendirilen uçuşların sayısıyla ilgili özet bilgiler görüntülenir... bu web sitesine gönderilen özet tablolarda." Dosyalar CSV biçimindedir.
Trafik ölümleri - ABD Ölüm Analizi Raporlama Sistemi (FARS) "FARS, NHTSA, Kongre ve Amerikan kamu yıllık verilerini motorlu araç trafik kazalarında oluşan ölümcül yaralanmalarla ilgili olarak sağlayan ülke çapında bir nüfus sayımıdır." "FARS Sorgu Sistemi'ni kullanarak çevrimiçi çalıştırılan kendi önemli verilerinizi oluşturun. Veya FTP Sitesinden sunmak için 1975'ten itibaren tüm FARS verilerini indirin."
Toksik kimyasal veriler - EPA Toksisitesi ForeCaster (ToxCast™) verileri "EPA'nın binlerce kimyasalla ilgili en güncel, genel kullanıma açık yüksek aktarım hızı toksisite verileri. Bu veriler, EPA'nın ToxCast araştırma çalışması aracılığıyla oluşturulur." Veri kümeleri elektronik tablolar, R paketleri ve MySQL veritabanı dosyaları gibi çeşitli biçimlerde kullanılabilir.
Toksik kimyasal veriler - NIH Tox21 Data Challenge 2014 "2014 Tox21 veri sınaması, bilim insanlarının toksik etkilere yol açabilecek yollarla biyolojik yolları bozma girişiminde Toksikoloji aracılığıyla test edilen kimyasalların ve bileşiklerin potansiyelini anlamasına yardımcı olmak için tasarlanmıştır." Veri kümeleri SMILES ve SDF biçimlerinde kullanılabilir. Veriler "Tox21 koleksiyonunda yaklaşık 10.000 bileşikten oluşan (Tox21 10K) araştırma etkinlik verileri ve kimyasal yapılar" sağlar.
NCBI'dan biyoteknoloji ve genom verileri Genleri, genomları ve proteinleri kapsayan birden çok veri kümesi. Veri kümeleri metin, XML, BLAST ve diğer biçimlerdedir. Bir BLAST uygulaması mevcuttur.

Diğer istatistiksel ve bilimsel veriler

Data source Veriler hakkında Dosyalar hakkında
New York City taksi verileri "Taksi yolculuğu kayıtları, teslim alma ve bırakma tarihlerini/saatlerini, teslim alma ve bırakma konumlarını, seyahat mesafelerini, listelenmiş ücretleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayısını yakalayan alanları içerir." Veri kümeleri, aylara göre CSV dosyalarında bulunur.
Microsoft Research veri kümeleri - "Araştırma için Veri Bilimi" İnsan-bilgisayar etkileşimi, ses/video, veri madenciliği/bilgi alma, jeo-uzamsal/konum, doğal dil işleme ve robot/görüntü işlemeyi kapsayan birden çok veri kümesi. Veri kümeleri çeşitli biçimlerdedir ve indirme için sıkıştırılmıştır.
Açık Bilim Verileri Bulutu verileri "Açık Bilim Veri Bulutu, bilimsel topluluğa terabayt ve petabayt ölçekli bilimsel veri kümelerini depolamak, paylaşmak ve analiz etmek için kaynaklar sağlar." Veri kümeleri çeşitli biçimlerdedir.
Küresel iklim verileri - WorldClim "WorldClim, yaklaşık 1 km2 uzamsal çözünürlüğe sahip bir dizi küresel iklim katmanıdır (kılavuzlu iklim verileri). Bu veriler eşleme ve uzamsal modelleme için kullanılabilir." Bu dosyalar jeo-uzamsal veriler içerir.
İnsan toplumuyla ilgili veriler - GDELT Projesi "GDELT Projesi, insan toplumunun şimdiye kadar oluşturduğu en büyük, en kapsamlı ve en yüksek çözünürlüklü açık veritabanıdır." Ham veri dosyaları CSV biçimindedir.
Criteo'dan makine öğrenmesi için reklam tıklama tahmini verileri "Genel kullanıma açık en büyük ML veri kümesi." Daha fazla bilgi için bkz . Criteo'nun 1 TB Tıklama Tahmini Veri Kümesi.

Çevrimiçi hizmet verileri

Data source Veriler hakkında Dosyalar hakkında
GitHub arşivi "GitHub Arşivi, genel GitHub zaman çizelgesini [olayların] kaydetme, arşivle ve daha fazla analiz için kolayca erişilebilir hale getirme projesidir." Bir web istemcisinden .gz (Gzip) biçiminde JSON ile kodlanmış olay arşivlerini indirin.
GHTorrent projesinden GitHub etkinlik verileri "GHTorrent projesi , GitHub REST API aracılığıyla sunulan verilerin ölçeklenebilir, sorgulanabilir, çevrimdışı bir yansıtmasını oluşturmaya yönelik bir çabadır. GHTorrent, GitHub genel olay zaman çizgisini izler. Her olay için içeriklerini ve bağımlılıklarını kapsamlı bir şekilde alır." MySQL veritabanı dökümleri CSV biçimindedir.
Yığın Taşması veri dökümü "Bu, Stack Exchange ağındaki [Stack Overflow dahil] kullanıcı tarafından katkıda bulunan tüm içeriğin anonimleştirilmiş dökümüdür." "Her site [Stack Overflow gibi] bzip2 sıkıştırması kullanılarak 7 zip ile sıkıştırılmış XML dosyalarından oluşan ayrı bir arşiv olarak biçimlendirilir. Her site arşivi Gönderiler, Kullanıcılar, Oylar, Yorumlar, PostHistory ve PostLink'ler içerir."