azureml-opendatasets Paket

Paketler

opendatasets

Azure Açık Veri Kümelerini veri çerçeveleri olarak kullanma ve müşteri verilerini zenginleştirme işlevleri içerir.

Azure Açık Veri Kümeleri, daha doğru modeller için makine öğrenmesi çözümlerine senaryoya özgü özellikler eklemek için kullanabileceğiniz genel veri kümeleridir. Bu genel veri kümelerini, filtrelerin uygulandığı Spark ve pandas veri çerçevelerine dönüştürebilirsiniz. Bazı veri kümelerinde, genel verileri verilerinizle birleştirmek için zenginleştirici kullanabilirsiniz. Örneğin, verilerinizi hava durumu verileriyle boylam, enlem veya posta kodu ile zamana göre birleştirebilirsiniz.

Azure Açık Veri Kümelerine makine öğrenmesi modellerini eğitip tahmine dayalı çözümleri zenginleştirmenize yardımcı olan hava durumu, nüfus sayımı, tatiller, kamu güvenliği ve konum için genel etki alanı verileri dahildir. Açık Veri Kümeleri Microsoft Azure'da buluttadır ve Azure Machine Learning ile tümleşiktir. Azure Açık Veri Kümeleri ile çalışma hakkında daha fazla bilgi için bkz. Azure Açık Veri Kümeleri ile veri kümeleri oluşturma.

Azure Açık Veri Kümeleri hakkında genel bilgi için bkz. Azure Açık Veri Kümeleri Belgeleri.

Modül

country_or_region_time_customer_data

Konum ve saat sütunlarına sahip müşteri verileri bu sınıf kullanılarak sarmalanmalıdır.

country_or_region_time_public_data

country_or_region ve saat sütunlarına sahip genel veriler bu sınıfla sarmalanabilir.

country_region_data

Desteklenen sütun sınıflarıyla konum verileriyle çalışmak için işlevsellik içerir.

customer_data

Tüm müşteri verilerinin temel sınıfını içerir.

location_data

Desteklenen sütun sınıflarıyla konum verileriyle çalışmaya yönelik işlevler içerir.

location_time_customer_data

Konum ve saat sütunlarıyla müşteri verilerini sarmalama işlevselliğini içerir.

location_time_public_data

Genel verileri konum ve saat sütunlarıyla sarmalama işlevselliğini içerir.

open_dataset_base

Tablosal açık veri kümeleri için temel sınıf.

public_data

Genel veri tabanı sınıfını içerir.

time_data

Opendataset'lerde zaman verilerini ve ilgili işlemleri temsil etme işlevselliğini içerir.

aggregator

Tüm toplayıcılar için temel sınıfı tanımlar.

aggregator_all

Toplama yapılmadığında tüm sütunları dahil etme toplayıcısını içerir.

aggregator_avg

Toplayıcı ortalama sınıfını içerir.

aggregator_max

Toplayıcı maksimum sınıfını içerir.

aggregator_min

Toplayıcı min sınıfını içerir.

aggregator_top

Toplayıcı üst sınıfını içerir.

base_blob_info

Blob bilgisi temel sınıfını içerir.

blob_parquet_descriptor

Blob parquet tanımlayıcısını içerir.

dataset_partition_prep

Veri kümesi bölüm hazırlığı belirtme işlevselliğini içerir.

Bölüm hazırlığı, sınıf gibi bir veri bölümü gerektiren bir opendatasets sınıf kullandığınızda otomatik olarak NycTlcGreen gerçekleşir.

pandas_data_load_limit

Parke dosyaları büyük olduğunda pandas verisi sınırının nasıl yükleyebileceğinizi denetleyebilmek için işlevler içerir.

Bu modülün işlevselliğiyle, parquet dosyaları yüklenemeyecek kadar büyük olduğunda pandas verilerinin yüklenme biçimini sınırlamayı belirtebilirsiniz.

common_weather_enricher

Hava durumu genel verileriyle özel verileri zenginleştirme işlevselliği içerir.

enricher

Verileri farklı taneciklik ve toplayıcılarla birleştirmek için genel zenginleştirici sınıfını tanımlar.

Bu modül statik işlev aşırı yüklemelerini içerir: get_max_date_by_granularity(max_date, granularity) taneciklik , DayGranularityveya HourGranularity' lerden MonthGranularitybiridir. Bu statik yöntemler, belirtilen ayrıntı düzeyine göre maksimum verileri döndürür.

holiday_enricher

Tatil genel verileriyle özel verileri zenginleştirmeye yönelik işlevler içerir.

environ

Azure Açık Veri Kümelerinin kullanıldığı çalışma zamanı ortam sınıflarını tanımlar.

Bu modüldeki sınıflar, Azure Açık Veri Kümeleri işlevinin farklı ortamlar için iyileştirildiğinden emin olur. Genel olarak, bu ortam sınıflarının örneğini oluşturmanız veya bunların uygulanması konusunda endişelenmeniz gerekmez. Bunun yerine, ortamı döndürmek için modül işlevini kullanın get_environ .

granularity

Saat ve konum için ayrıntı tanımları içerir.

Tanecikler aşağıdaki gibi düzenlenmiştir:

Daha zengin bir işlevde belirterek ayrıntı düzeyiyle çalışırsınız. Örneğin, verileri zenginleştirmek için sınıf yöntemlerini kullanırken HolidayEnricher yöntemini giriş parametresi olarak belirtin TimeGranularity .

country_region_selector

Ülke bölgesi seçici sınıfını içerir.

enricher_selector

Konum ve zaman seçicileri için temel sınıfları içerir.

EnricherSelector'ın iki alt sınıfı vardır:

EnricherSelector, ve TimeNearestSelectorkök sınıfıdırLocationClosestSelector.

location_closest_selector

En yakın seçici sınıfını içerir.

time_nearest_selector

En yakın seçici sınıfını içerir.