Test ve prototip oluşturma için genel veri kümeleri

Şunlar için geçerlidir: Azure VM'de veritabanı Azure SQL Yönetilen Örneği SQL Server Azure SQL

Depolama ve analiz hizmetlerinin ve çözümlerinin prototipini yapmak ve test etmek için kullanabileceğiniz veriler için bu genel veri kümeleri listesine göz atın.

ABD Kamu ve kuruluş verileri

Veri kaynağı Veriler hakkında Dosyalar hakkında
US Government verileri Tarım, iklim, tüketici, ekosistemler, eğitim, enerji, finans, sağlık, yerel yönetim, üretim, denizcilik, okyanus, kamu güvenliği ve ABD'deki bilim ve araştırmaları kapsayan 250.000'den fazla veri kümesi HTML, XML, CSV, JSON, Excel gibi çeşitli biçimlerdeki çeşitli boyutlardaki dosyalar. Kullanılabilir veri kümelerini dosya biçimine göre filtreleyebilirsiniz.
ABD Nüfus Sayımı verileri ABD'nin nüfusuyla ilgili istatistiksel veriler Veri kümeleri çeşitli biçimlerdedir.
NASA'dan yer bilimi verileri Tarım, atmosfer, biyosfer, iklim, kriyofer, insan boyutları, hidrosfer, kara yüzeyi, okyanuslar, güneş-dünya etkileşimleri ve daha fazlasını kapsayan 32.000'den fazla veri koleksiyonu. Veri kümeleri çeşitli biçimlerdedir.
Havayolu uçuş gecikmeleri ve diğer ulaşım verileri "ABD Ulaştırma Bakanlığı'nın (DOT) Ulaşım İstatistikleri Bürosu (BTS), büyük hava kargo firmaları tarafından kullanılabilecek iç hat uçuşlarının zamanında performansını izler. Zamanında, gecikmeli, iptal edilen ve yönlendirilen uçuşların sayısıyla ilgili özet bilgiler görüntülenir... bu web sitesinde yayınlanan özet tablolarında." Dosyalar CSV biçimindedir.
Trafik ölümleri - ABD Önemlilik Analizi Raporlama Sistemi (FARS) "FARS, NHTSA, Kongre ve Amerikan kamu yıllık verilerini motorlu araç trafik kazalarında oluşan ölümcül yaralanmalarla ilgili olarak sağlayan ülke çapında bir nüfus sayımıdır." "FARS Sorgu Sistemi'ni kullanarak çevrimiçi çalıştırılan kendi önemli verilerinizi oluşturun. Veya FTP Sitesinden sunmak için 1975'ten itibaren tüm FARS verilerini indirin."
Toksik kimyasal veriler - EPA Toksisite ForeCaster (ToxCast™) verileri "EPA'nın binlerce kimyasalla ilgili en güncel, genel kullanıma açık yüksek aktarım hızına sahip toksisite verileri. Bu veriler EPA'nın ToxCast araştırma çalışması aracılığıyla oluşturulur." Veri kümeleri elektronik tablolar, R paketleri ve MySQL veritabanı dosyaları gibi çeşitli biçimlerde kullanılabilir.
Toksik kimyasal veriler - NIH Tox21 Veri Sınaması 2014 "2014 Tox21 veri sınaması, bilim adamlarının toksik etkilere yol açabilecek yollarla biyolojik yolları bozma girişiminde Toksikoloji aracılığıyla test edilen kimyasalların ve bileşiklerin potansiyelini anlamasına yardımcı olmak için tasarlanmıştır." Veri kümeleri SMILES ve SDF biçimlerinde kullanılabilir. Veriler "Yaklaşık 10.000 bileşikten oluşan Tox21 koleksiyonunda (Tox21 10K) assay etkinlik verileri ve kimyasal yapılar sağlar."
NCBI'dan biyoteknoloji ve genom verileri Genleri, genomları ve proteinleri kapsayan birden çok veri kümesi. Veri kümeleri metin, XML, BLAST ve diğer biçimlerdedir. BIR BLAST uygulaması kullanılabilir.

Diğer istatistiksel ve bilimsel veriler

Veri kaynağı Veriler hakkında Dosyalar hakkında
New York City taksi verileri "Taksi yolculuğu kayıtları teslim alma ve bırakma tarihlerini/saatlerini, teslim alma ve bırakma konumlarını, seyahat mesafelerini, öğeli tarifeleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayısını yakalayan alanları içerir." Veri kümeleri aya göre CSV dosyalarında bulunur.
Microsoft Research veri kümeleri - "Araştırma için Veri Bilimi" İnsan-bilgisayar etkileşimi, ses/video, veri madenciliği/bilgi alma, jeo-uzamsal/konum, doğal dil işleme ve robotik/görüntü işlemeyi kapsayan birden çok veri kümesi. Veri kümeleri indirilsin diye sıkıştırılmış çeşitli biçimlerdedir.
Science Data Cloud verilerini açma "Açık Bilim Veri Bulutu, bilimsel topluluğa terabayt ve petabayt ölçeğindeki bilimsel veri kümelerini depolama, paylaşma ve analiz etme kaynakları sağlar." Veri kümeleri çeşitli biçimlerdedir.
Küresel iklim verileri - WorldClim "WorldClim, yaklaşık 1 km2 uzamsal çözünürlüğe sahip bir dizi küresel iklim katmanıdır (kılavuzlu iklim verileri). Bu veriler eşleme ve uzamsal modelleme için kullanılabilir." Bu dosyalar jeo-uzamsal veriler içerir. Daha fazla bilgi için bkz . Veri biçimi.
İnsan toplumu hakkında veriler - GDELT Projesi "GDELT Projesi, insan toplumunun şimdiye kadar oluşturduğu en büyük, en kapsamlı ve en yüksek çözünürlüklü açık veritabanıdır." Ham veri dosyaları CSV biçimindedir.
Criteo'dan makine öğrenmesi için reklam tıklama tahmini verileri "Genel kullanıma açık en büyük ML veri kümesi." Daha fazla bilgi için bkz. Criteo'nun 1 TB'lık Tahmin Veri Kümesi'ne tıklayın.
Lemur Projesi'nden ClueWeb09 metin madenciliği veri kümesi "ClueWeb09 veri kümesi, bilgi alma ve ilgili insan dili teknolojileriyle ilgili araştırmaları desteklemek için oluşturulmuştur. Ocak ve Şubat 2009'da toplanan 10 dilde yaklaşık 1 milyar web sayfasından oluşmaktadır." Bkz. Veri Kümesi Bilgileri.

Çevrimiçi hizmet verileri

Veri kaynağı Veriler hakkında Dosyalar hakkında
GitHub arşivi "GitHub Arşivi, genel GitHub zaman çizelgesini [olayların] kaydetme, arşivle ve daha fazla analiz için kolayca erişilebilir hale getirme projesidir." Bir web istemcisinden .gz (Gzip) biçiminde JSON ile kodlanmış olay arşivlerini indirin.
GHTorrent projesinden GitHub etkinlik verileri "GHTorrent projesi [, GitHub REST API aracılığıyla sunulan verilerin ölçeklenebilir, sorgulanabilir, çevrimdışı bir yansıtmasını oluşturma çabası. GHTorrent, GitHub genel olay zaman çizgisini izler. Her olay için içeriklerini ve bağımlılıklarını kapsamlı bir şekilde alır." MySQL veritabanı dökümleri CSV biçimindedir.
Yığın Taşması veri dökümü "Bu, [Stack Overflow dahil] Stack Exchange ağındaki tüm kullanıcı tarafından katkıda bulunan içeriğin anonimleştirilmiş dökümüdür." "[Stack Overflow gibi] her site, bzip2 sıkıştırması kullanılarak 7-zip aracılığıyla sıkıştırılmış XML dosyalarından oluşan ayrı bir arşiv olarak biçimlendirilir. Her site arşivi Gönderiler, Kullanıcılar, Oylar, Yorumlar, PostHistory ve PostLink'ler içerir."