Aracılığıyla paylaş


opendatasets Paket

Azure Açık Veri Kümelerini veri çerçeveleri olarak kullanma ve müşteri verilerini zenginleştirme işlevleri içerir.

Azure Açık Veri Kümeleri, daha doğru modeller için makine öğrenmesi çözümlerine senaryoya özgü özellikler eklemek için kullanabileceğiniz genel veri kümeleridir. Bu genel veri kümelerini, uygulanan filtrelerle Spark ve pandas veri çerçevelerine dönüştürebilirsiniz. Bazı veri kümelerinde, genel verileri verilerinizle birleştirmek için zenginleştirici kullanabilirsiniz. Örneğin, verilerinizi hava durumu verileriyle boylam, enlem veya posta kodu ve saate göre birleştirebilirsiniz.

Azure Açık Veri Kümelerine makine öğrenmesi modellerini eğitip tahmine dayalı çözümleri zenginleştirmenize yardımcı olan hava durumu, nüfus sayımı, tatiller, kamu güvenliği ve konum için genel etki alanı verileri dahildir. Açık Veri Kümeleri Microsoft Azure'da buluttadır ve Azure Machine Learning ile tümleşiktir. Azure Açık Veri Kümeleri ile çalışma hakkında daha fazla bilgi için bkz. Azure Açık Veri Kümeleri ile veri kümeleri oluşturma.

Azure Açık Veri Kümeleri hakkında genel bilgi için bkz. Azure Açık Veri Kümeleri Belgeleri.

Paketler

accessories

Lat/long, zipcode ve time gibi verilerdeki sütun türlerini tanımlamaya yardımcı olan işlevler içerir.

aggregators

Birleştirilmiş verilerin nasıl toplanmış olduğunu tanımlamaya yönelik işlevler içerir.

Toplayıcılar, iki veri kümesinden veri birleştirme sonucunda gerçekleştirilebilecek işlemleri tanımlar. Örneğin, içinde enricherssınıflardan birini kullandığınızda, işlemin bir parçası olarak bir toplayıcı belirtebilirsiniz. Toplama gerekmiyorsa kullanın AggregatorAll.

data

publicholidays modülündeki veri kaynakları için init dosyasını içerir.

dataaccess

Blob dosya erişim yöntemleri sağlayan işlevselliği içerir.

sınıfı gibi opendatasets paketten ChicagoSafety bir sınıf kullandığınızda, bu paketteki dataaccess sınıfları ve işlevleri dahili olarak kullanılır. Genel olarak, dataaccess paketindeki işlevselliği doğrudan kullanmanız gerekmez.

enrichers

İki veri kümesindeki verileri zenginleştirmeye ve birleştirmeye yönelik işlevler içerir.

Genellikle zenginleştiriciler farklı kaynaklardan gelen verileri birleştirir. Özellikle zenginleştiriciler, Verilerinizi (müşteri verileri) Azure Açık Veri Kümelerindeki veya diğer genel veri kümelerindeki verilerle birleştirmenizi sağlar.

granularities

Zenginleştiriciler tarafından kullanılan zaman ve mesafe ölçülerini tanımlayan işlevleri içerir.

Ayrıntı düzeyleri, verileri zenginleştirirken (birleştirirken) kullanılan enrichers zaman veya mesafe ölçüleridir. Saatlik veya günlük gibi zaman tanecikleri ve en yakın mesafe gibi konum tanecikliği vardır.

selectors

Müşteri veri kümesinden verileri seçme ve birleştirme ve genel veri kümesindeki verilerle birleştirme işlevselliğini içerir.

Seçiciler, zaman ve mesafe ölçülerine göre verilerinizi genel veri kümeleriyle zenginleştirmenizi sağlayan mantığı tanımlar. Örneğin, bir seçici ile en yakın konuma göre veya aynı zaman ayrıntı düzeyine yuvarlayarak verilerinizle birleştirebileceğiniz genel verileri bulabilirsiniz.

Paketteki enrichers sınıflardan biriyle çalışırken seçicileri belirtin.

Modül

environ

Azure Açık Veri Kümelerinin kullanıldığı çalışma zamanı ortam sınıflarını tanımlar.

Bu modüldeki sınıflar, Azure Açık Veri Kümeleri işlevselliğinin farklı ortamlar için iyileştirildiğinden emin olur. Genel olarak, bu ortam sınıflarının örneğini oluşturmanız veya bunların uygulanması konusunda endişelenmeniz gerekmez. Bunun yerine, ortamı döndürmek için modül işlevini kullanın get_environ .

Sınıflar

BingCOVID19Data

Bing COVID-19 veri kümesini temsil eder.

Bu veri kümeleri, Dünya Sağlık Örgütü (WHO), Hastalık Kontrol ve Önleme Merkezleri (CDC), ulusal ve eyalet kamu sağlığı departmanları, BNO News, 7/24 Wall St. ve Wikipedia dahil olmak üzere birçok güvenilir, güvenilir kaynaktan Bing COVID-19 verilerini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda Bing COVID-19 Verileri .

Filtreleme alanlarını başlatın.

BostonSafety

Boston Safety genel veri kümesini temsil eder.

Bu veri kümesi, Boston şehrine bildirilen 311 çağrı içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda Boston Güvenlik Verileri .

Filtreleme alanlarını başlatın.

COVID19OpenResearch

COVID-19 Açık Araştırma Veri Kümesini temsil eder.

Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğunda COVID-19 Açık Araştırma Veri Kümesi'ne bakın.

COVIDTrackingProject

COVID İzleme Projesi veri kümesini temsil eder.

Bu veri kümeleri, her ABD eyaleti ve bölgesinden testler, doğrulanmış vakalar, hastaneye kaldırılanlar ve hasta sonuçlarıyla ilgili en son sayıları sağlayan COVID İzleme Projesi veri kümesini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki COVID İzleme Projesi veri kümesi .

Filtreleme alanlarını başlatın.

ChicagoSafety

Chicago Safety genel veri kümesini temsil eder.

Bu veri kümesi geçmiş temizlik kodu şikayetleri, bildirilen pot delikleri ve sokak ışığı sorunları da dahil olmak üzere Chicago şehrinden 311 hizmet isteği içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki Chicago Güvenlik Verileri .

Filtreleme alanlarını başlatın.

CitySafety

Şehir güvenliği sınıfı - Bu, her bir şehir tarafından devralınabilen bir üst sınıftır.

Filtreleme alanlarını başlatın.

Diabetes

Örnek Diyabet genel veri kümesini temsil eder.

10 özelliğe sahip 442 örnek içeren Diabetes (Diyabet) adlı veri kümesi, makine öğrenmesi algoritmalarıyla çalışmaya başlamak için idealdir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki Örnek: Diyabet .

EcdcCOVIDCases

Avrupa Hastalık Önleme ve Kontrol Merkezi (ECDC) Covid-19 Vakalarını temsil eder.

Bu veri kümeleri, Avrupa Hastalık Önleme ve Kontrol Merkezi'nden (ECDC) içerir. Her satır/giriş, günlük ve ülke/bölge başına bildirilen yeni servis talebi sayısını içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki Avrupa Hastalık Önleme ve Denetim Merkezi (ECDC) Covid-19 Vakaları .

Filtreleme alanlarını başlatın.

MNIST

El yazısı basamakların MNIST veri kümesini temsil eder.

El yazısı rakamlardan oluşan MNIST veritabanı, 60.000 örnekli bir eğitim seti ve 10.000 örnekli bir test seti içerir. Basamaklar boyut normalleştirilmiş ve sabit boyutlu bir görüntüde ortalanmıştır. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki el yazısı basamakların MNIST veritabanı .

MNIST veri kümesini kullanma örneği için Azure Machine Learning kullanarak MNIST verileri ve scikit-learn ile görüntü sınıflandırma modellerini eğitma öğreticisine bakın.

NoParameterOpenDatasetBase

ABD iş tabanı sınıfı.

Başlatmak.

NoaaGfsWeather

Ulusal Okyanus ve Atmosfer Yönetimi (NOAA) Küresel Tahmin Sistemi (GFS) veri kümesini temsil eder.

Bu veri kümesi, Ulusal Okyanus ve Atmosfer Dairesi'nden (NOAA) Küresel Tahmin Sistemi (GFS) tarafından üretilen 15 günlük ABD saatlik hava durumu tahmin verilerini (örneğin, sıcaklık, yağış, rüzgar) içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında bilgi için, Microsoft Azure Açık Veri Kümeleri kataloğundaki NOAA Genel Tahmin Sistemi'ne bakın.

Filtreleme alanlarını başlatın.

NoaaIsdWeather

Ulusal Okyanus ve Atmosfer İdaresi (NOAA) Tümleşik Yüzey Veri Kümesini (ISD) temsil eder.

Bu veri kümesi, Ulusal Okyanus ve Atmosfer Dairesi'nden (NOAA) alınan dünya çapında saatlik hava durumu geçmişi verilerini (örneğin, sıcaklık, yağış, rüzgar) içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda NOAA Tümleşik Surface Verileri .

Filtreleme alanlarını başlatın.

NycSafety

New York City Safety genel veri kümesini temsil eder.

Bu veri kümesi 2010’dan günümüze kadar tüm New York City 311 hizmet aramalarını içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda New York City Safety Data .

Filtreleme alanlarını başlatın.

NycTaxiBase

New York Taxi sınıfı - Bu devralınabilecek bir üst sınıftır.

Filtreleme alanlarını başlatın.

NycTlcFhv

NYC Taxi & Limousine Commission genel veri kümesini temsil eder.

Bu veri kümesi For-Hire Vechicle (FHV) seyahat kayıtlarını içerir. Bu kayıtlar, gönderim temel lisans numarasını ve teslim alma tarihini, saatini ve taksi bölgesi konum kimliğini (aşağıdaki şekil dosyası) yakalayan alanları içerir. Bu kayıtlar, tabanlar tarafından yapılan FHV Seyahat Kaydı gönderimlerinden oluşturulur. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) gezi kayıtları .

Filtreleme alanlarını başlatın.

NycTlcGreen

NYC Taxi & Limousine Commission yeşil taksi gezisi genel veri kümesini temsil eder.

Yeşil taksi seyahati kayıtları, teslim ve bırakma tarihlerini/saatlerini, teslim ve bırakma konumlarını, seyahat mesafelerini, öğeli tarifeleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayısını yakalayan alanları içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki NYC Taxi & Limousine Commission - yeşil taksi yolculuğu kayıtları .

NycTlcGreen sınıfını kullanma örneği için taksi ücretlerini tahmin etmek için otomatik makine öğrenmesini kullanma öğreticisine bakın.

Filtreleme alanlarını başlatın.

NycTlcYellow

NYC Taxi & Limousine Commission sarı taksi gezisi genel veri kümesini temsil eder.

Sarı taksi seyahati kayıtları, teslim ve bırakma tarihlerini/saatlerini, teslim ve bırakma konumlarını, seyahat mesafelerini, öğeli tarifeleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayısını yakalayan alanları içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki NYC Taxi & Limousine Commission - sarı taksi yolculuğu kayıtları .

Filtreleme alanlarını başlatın.

OjSalesSimulated

Örnek Orange Juice Sales Simulated veri kümesini temsil eder.

Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda Örnek: OJ Satış Simülasyon Verileri .

PublicHolidays

Resmi Tatiller genel veri kümesini temsil eder.

Bu veri kümeleri, 1970 ile 2099 arasında 38 ülke veya bölgeyi kapsayan PyPI tatil paketi ve Wikipedia'dan alınan dünya çapında resmi tatil verilerini içerir. Her satır belirli bir tarih, ülke veya bölge için tatil bilgilerini ve çoğu kişinin ücretli izin alıp almadığını gösterir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda Resmi Tatiller .

Filtreleme alanlarını başlatın.

PublicHolidaysOffline

Resmi Tatiller Çevrimdışı genel veri kümesini temsil eder.

Satırların açıklaması için Microsoft Azure Açık Veri Kümeleri kataloğundaki Resmi Tatiller'e bakın.

Filtreleme alanlarını başlatın.

SampleDatasetBase

Örnek Veri Kümesi Temel sınıfını temsil eder.

SanFranciscoSafety

San Francisco Safety genel veri kümesini temsil eder.

Bu veri kümesi İtfaiye departmanının San Francisco'daki hizmet çağrılarını ve 311 servis talebi içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda San Francisco Güvenlik Verileri .

Filtreleme alanlarını başlatın.

SeattleSafety

Seattle Safety genel veri kümesini temsil eder.

Bu veri kümesi Seattle İtfaiyeSi 911 dağıtım verilerini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki Seattle Güvenlik Verileri .

Filtreleme alanlarını başlatın.

UsLaborCPI

ABD Tüketici Fiyat Endeksi genel veri kümesini temsil eder.

Tüketici Fiyat Endeksi (CPI), tüketici mal ve hizmet pazar sepeti için kentsel tüketicilerin ödediği fiyatlardaki zaman içindeki ortalama değişimin bir ölçüsüdür. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki ABD Tüketici Fiyat Dizini .

Başlatmak.

UsLaborEHENational

ABD Ulusal İstihdam Saatleri ve Kazançlar genel veri kümesini temsil eder.

Bu veri kümesi, ABD'deki bordrolarda çalışan işçilerin ülke dışı istihdam, saat ve kazançlarına ilişkin sektör tahminlerini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğunda ABD Ulusal çalışma saatleri ve kazanç konusuna bakın.

Başlatmak.

UsLaborEHEState

ABD State Employment Hours and Earnings genel veri kümesini temsil eder.

Bu veri kümesi, ABD'deki bordrolarda çalışan işçilerin ülke dışı istihdam, saat ve kazançlarına ilişkin sektör tahminlerini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğunda ABD Durum çalışma saatleri ve kazanç konusuna bakın.

Başlatmak.

UsLaborLAUS

ABD Yerel Bölge İşsizlik İstatistikleri genel veri kümesini temsil eder.

Bu veri kümesi, Nüfus Sayımı bölgeleri ve bölümleri, Eyaletler, ilçeler, metropol alanları ve ABD'deki birçok şehir için aylık ve yıllık istihdam, işsizlik ve iş gücü verilerini içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğundaki ABD Yerel Alan İşsizlik İstatistikleri bölümüne bakın.

Başlatmak.

UsLaborLFS

ABD İş Gücü İstatistikleri genel veri kümesini temsil eder.

Bu veri kümesi, ABD'deki iş gücüyle ilgili olarak iş gücüne katılım oranları ve yaş, cinsiyet, ırk ve etnik gruplara göre sivil fuhuşlu nüfus dahil olmak üzere verileri içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki ABD İş Gücü İstatistikleri .

Başlatmak.

UsLaborPPICommodity

ABD Üretici Fiyat Endeksi (PPI) - Emtia genel veri kümesini temsil eder.

Üretici Fiyat Endeksi (PPI), yerli üreticiler tarafından çıktıları için alınan satış fiyatlarındaki zaman içindeki ortalama değişimin bir ölçüsüdür. PPI'ye dahil olan fiyatlar, kapsanan ürün ve hizmetler için ilk ticari işlemden alınmıştır. Bu veri kümesi, aylık olarak yayımlanan tek tek ürünler ve ürün grupları için PPI'ler içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki US Producer Price Index - Emtialar .

Başlatmak.

UsLaborPPIIndustry

ABD Üretici Fiyat Endeksi'ni (PPI) temsil eder - Sektör genel veri kümesi.

Üretici Fiyat Endeksi (PPI), yerli üreticiler tarafından çıktıları için alınan satış fiyatlarındaki zaman içindeki ortalama değişimin bir ölçüsüdür. PPI'ye dahil olan fiyatlar, kapsanan ürün ve hizmetler için ilk ticari işlemden alınmıştır. Bu veri kümesi, ABD ekonomisinin çok çeşitli sektörlerine yönelik PPI'leri içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğunda ABD Üretici Fiyat Dizini - Sektör .

Azure Açık Veri Kümeleri hakkında genel bilgi için bkz. Azure Açık Veri Kümeleri Belgeleri.

Başlatmak.

UsPopulationCounty

İlçeye göre ABD Popülasyonu genel veri kümesini temsil eder.

Bu veri kümesi, 2000 ve 2010 Decennial Census kaynaklarından alınan her BIR ABD ilçesi için cinsiyete ve ırka göre ABD nüfusunu içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Microsoft Azure Açık Veri Kümeleri kataloğunda abd nüfusa göre ilçeye göre bölümüne bakın.

Başlatmak.

UsPopulationZip

Posta Koduna göre ABD Popülasyonu genel veri kümesini temsil eder.

Bu veri kümesi, 2010 Decennial Census'dan alınan her BIR ABD posta kodu için cinsiyete ve ırka göre ABD nüfusunu içerir. Sütun açıklamaları, veri kümesine erişmenin farklı yolları ve örnekler de dahil olmak üzere bu veri kümesi hakkında daha fazla bilgi için Bkz. Microsoft Azure Açık Veri Kümeleri kataloğundaki POSTA Koduna Göre ABD Popülasyonu .

Başlatmak.