Aracılığıyla paylaş


TabularDataset Sınıf

Azure Machine Learning'de kullanılacak tablosal veri kümesini temsil eder.

TabularDataset, veri kaynağından tablosal gösterime veri yüklemek için bir dizi yavaş değerlendirilen, sabit işlem tanımlar. TabularDataset'ten veri teslimi istenene kadar veriler kaynaktan yüklenmez.

TabularDataset, sınıfından TabularDatasetFactory gibi from_delimited_files yöntemler kullanılarak oluşturulur.

Daha fazla bilgi için Veri kümeleri ekleme & kaydetme makalesine bakın. Tablosal veri kümesiyle çalışmaya başlamak için bkz https://aka.ms/tabulardataset-samplenotebook. .

TabularDataset nesnesini başlatın.

Bu oluşturucu doğrudan çağrılmamalıdır. Veri kümesinin sınıfı kullanılarak TabularDatasetFactory oluşturulması amaçlanmıştır.

Devralma
TabularDataset

Oluşturucu

TabularDataset()

Açıklamalar

Sınıfının yöntemleri TabularDatasetFactory kullanılarak from_* CSV, TSV, Parquet dosyaları veya SQL sorgusundan TabularDataset oluşturulabilir. TabularDataset üzerinde kayıtları bölme, atlama ve filtreleme gibi alt sıfırlama işlemleri gerçekleştirebilirsiniz. Alt ayarın sonucu her zaman bir veya daha fazla yeni TabularDataset nesnesidir.

TabularDataset'i pandas DataFrame gibi başka biçimlere de dönüştürebilirsiniz. Gerçek veri yükleme işlemi, TabularDataset'in verileri başka bir depolama mekanizmasına (pandas Dataframe veya CSV dosyası gibi) teslim etmesinin istenmesi halinde gerçekleşir.

TabularDataset bir deneme çalıştırmasının girişi olarak kullanılabilir. Ayrıca, belirtilen adla çalışma alanına kaydedilebilir ve daha sonra bu adla alınabilir.

Yöntemler

download

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından tanımlanan dosya akışlarını yerel yola indirin.

drop_columns

Belirtilen sütunları veri kümesinden bırakın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

get_profile

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Bu veya çalışma alanındaki aynı veri kümesi için gönderilen en son profil çalıştırmasından veri profili alın.

get_profile_runs

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Çalışma alanında bu veya aynı veri kümesiyle ilişkili önceki profil çalıştırmalarını döndür.

keep_columns

Belirtilen sütunları tutun ve diğer tüm sütunları veri kümesinden kaldırın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

mount

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

partition_by

Bölümlenmiş veriler kopyalanır ve hedef tarafından belirtilen hedefe çıkış yapılır.

bölüm biçimine sahip çıktı veri yolundan veri kümesini oluşturun, ad sağlanmışsa veri kümesini kaydedin, bölümler içeren yeni veri yolu için veri kümesini döndürin


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
random_split

Veri kümesindeki kayıtları rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

İlk veri kümesi toplam kayıtların yaklaşık percentage bir kısmını, ikinci veri kümesini ise kalan kayıtları içerir.

skip

Belirtilen sayıya göre veri kümesinin en üstündeki kayıtları atlayın.

submit_profile_run

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri profilini hesaplamak için bir deneme çalıştırması gönderin.

Veri profili, sütun türü, eksik değerler vb. gibi veriler hakkında yararlı bilgiler sağlayarak giriş verilerini anlamak, anomalileri ve eksik değerleri tanımlamak için çok yararlı olabilir.

take

Belirtilen sayıya göre veri kümesinin en üstünden bir kayıt örneği alın.

take_sample

Veri kümesindeki kayıtların rastgele bir örneğini yaklaşık olarak belirtilen olasılığa göre alın.

time_after

Belirtilen başlangıç zamanından sonra TabularDataset'i zaman damgası sütunlarıyla filtreleyin.

time_before

TabularDataset'i belirtilen bitiş saatinden önce zaman damgası sütunlarıyla filtreleyin.

time_between

Belirtilen başlangıç ve bitiş saati arasında TabularDataset'i filtreleyin.

time_recent

TabularDataset'i yalnızca belirtilen süre (miktar) son verileri içerecek şekilde filtreleyin.

to_csv_files

Geçerli veri kümesini CSV dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla CSV dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_dask_dataframe

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesindeki verileri gizlice okuyabilen bir Dask DataFrame döndürür.

to_pandas_dataframe

Veri kümesindeki tüm kayıtları pandas DataFrame'e yükleyin.

to_parquet_files

Geçerli veri kümesini Parquet dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla Parquet dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_spark_dataframe

Veri kümesindeki tüm kayıtları bir Spark DataFrame'e yükleyin.

with_timestamp_columns

Veri kümesi için zaman damgası sütunları tanımlayın.

download

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından tanımlanan dosya akışlarını yerel yola indirin.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parametreler

Name Description
stream_column
Gerekli
str

İndirilmesi gereken akış sütunu.

target_path
Gerekli
str

Dosyaların indirilmesi için yerel dizin. Hiçbiri ise, veriler geçici bir dizine indirilir.

overwrite
Gerekli

Varolan dosyaların üzerine yazılıp yazılmayacağını gösterir. Varsayılan değer False'tur. Üzerine yazma True olarak ayarlanırsa mevcut dosyaların üzerine yazılır; aksi takdirde bir özel durum oluşturulur.

ignore_not_found
Gerekli

Veri kümesi tarafından işaret edilen bazı dosyalar bulunamazsa indirme işleminin başarısız olup olmayacağını gösterir. Varsayılan değer True'dur. ignore_not_found False olarak ayarlanırsa herhangi bir dosya indirme işlemi herhangi bir nedenle başarısız olursa indirme başarısız olur; aksi takdirde, başka hata türleriyle karşılaşılmadığı sürece bir waring bulunamadı hataları için günlüğe kaydedilir ve dowload başarılı olur.

Döndürülenler

Tür Description

İndirilen her dosya için bir dosya yolu dizisi döndürür.

drop_columns

Belirtilen sütunları veri kümesinden bırakın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

drop_columns(columns)

Parametreler

Name Description
columns
Gerekli

Bırakacak sütunların adı veya ad listesi.

Döndürülenler

Tür Description

Belirtilen sütunların bırakılmasıyla yeni bir TabularDataset nesnesi döndürür.

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

filter(expression)

Parametreler

Name Description
expression
Gerekli
any

Değerlendirilecek ifade.

Döndürülenler

Tür Description

Değiştirilen veri kümesi (kaydı kaldırılmış).

Açıklamalar

İfadeler, Veri Kümesinde bir sütunun adıyla dizin oluşturarak başlatılır. Bunlar çeşitli işlevleri ve işleçleri destekler ve mantıksal işleçler kullanılarak birleştirilebilir. Sonuçta elde edilen ifade, tanımlandığı yerde değil, bir veri çekme işlemi gerçekleştiğinde her kayıt için gevşek bir şekilde değerlendirilir.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Bu veya çalışma alanındaki aynı veri kümesi için gönderilen en son profil çalıştırmasından veri profili alın.

get_profile(workspace=None)

Parametreler

Name Description
workspace
Gerekli

Profil çalıştırmasının gönderildiği çalışma alanı. Varsayılan olarak bu veri kümesinin çalışma alanını kullanır. Veri kümesi bir çalışma alanıyla ilişkilendirilmemişse gereklidir. Çalışma alanları hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .

Döndürülenler

Tür Description

DatasetProfile türünde en son profil çalıştırmasından elde edilen profil sonucu.

get_profile_runs

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Çalışma alanında bu veya aynı veri kümesiyle ilişkili önceki profil çalıştırmalarını döndür.

get_profile_runs(workspace=None)

Parametreler

Name Description
workspace
Gerekli

Profil çalıştırmasının gönderildiği çalışma alanı. Varsayılan olarak bu veri kümesinin çalışma alanını kullanır. Veri kümesi bir çalışma alanıyla ilişkilendirilmemişse gereklidir. Çalışma alanları hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .

Döndürülenler

Tür Description

azureml.core.Run türünde yineleyici nesnesi.

keep_columns

Belirtilen sütunları tutun ve diğer tüm sütunları veri kümesinden kaldırın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

keep_columns(columns, validate=False)

Parametreler

Name Description
columns
Gerekli

Tutulacak sütunların adı veya ad listesi.

validate
Gerekli

Döndürülen veri kümesinden veri yüklenip yüklenemeyeceğinin doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer False'tur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür Description

Yalnızca belirtilen sütunların tutulduğu yeni bir TabularDataset nesnesi döndürür.

mount

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

mount(stream_column, mount_point=None)

Parametreler

Name Description
stream_column
Gerekli
str

Bağlanacak akış sütunu.

mount_point
Gerekli
str

Dosyaların bağlanacak yerel dizin. Hiçbiri ise, veriler geçici bir dizine bağlanır ve bunu MountContext.mount_point örnek yöntemini çağırarak bulabilirsiniz.

Döndürülenler

Tür Description
<xref:azureml.dataprep.fuse.daemon.MountContext>

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür.

partition_by

Bölümlenmiş veriler kopyalanır ve hedef tarafından belirtilen hedefe çıkış yapılır.

bölüm biçimine sahip çıktı veri yolundan veri kümesini oluşturun, ad sağlanmışsa veri kümesini kaydedin, bölümler içeren yeni veri yolu için veri kümesini döndürin


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parametreler

Name Description
partition_keys
Gerekli

Gerekli, bölüm anahtarları

target
Gerekli

Gerekli, veri çerçevesi parquet verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur.

name
Gerekli
str

İsteğe bağlı, Kayıt adı.

show_progress
Gerekli

İsteğe bağlı olarak, yükleme işleminin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur.

partition_as_file_dataset
Gerekli

İsteğe bağlı, bir filedataset döndürerek döndürmediğini gösterir. Varsayılan değer False olur.

Döndürülenler

Tür Description

Kaydedilen veya kaydedilen veri kümesi.

random_split

Veri kümesindeki kayıtları rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

İlk veri kümesi toplam kayıtların yaklaşık percentage bir kısmını, ikinci veri kümesini ise kalan kayıtları içerir.

random_split(percentage, seed=None)

Parametreler

Name Description
percentage
Gerekli

Veri kümesinin bölündüğü yaklaşık yüzde. Bu, 0,0 ile 1,0 arasında bir sayı olmalıdır.

seed
Gerekli
int

Rastgele oluşturucu için kullanılacak isteğe bağlı tohum.

Döndürülenler

Tür Description

Bölme işleminden sonra iki veri kümesini temsil eden yeni TabularDataset nesnelerinin bir demetini döndürür.

skip

Belirtilen sayıya göre veri kümesinin en üstündeki kayıtları atlayın.

skip(count)

Parametreler

Name Description
count
Gerekli
int

Atlana kayıtların sayısı.

Döndürülenler

Tür Description

Kayıtları atlanmış bir veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür.

submit_profile_run

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri profilini hesaplamak için bir deneme çalıştırması gönderin.

Veri profili, sütun türü, eksik değerler vb. gibi veriler hakkında yararlı bilgiler sağlayarak giriş verilerini anlamak, anomalileri ve eksik değerleri tanımlamak için çok yararlı olabilir.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parametreler

Name Description
compute_target
Gerekli

Profil hesaplama denemesinin çalıştırılacak işlem hedefi. Yerel işlem kullanmak için 'local' değerini belirtin. İşlem hedefleri hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget .

experiment
Gerekli

Deneme nesnesi. Denemeler hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment .

cache_datastore_name
Gerekli
str

Profil önbelleğini depolamak için veri deposunun adı, Hiçbiri ise varsayılan veri deposu kullanılır

Döndürülenler

Tür Description

DatasetProfileRun sınıfı türünde bir nesne.

take

Belirtilen sayıya göre veri kümesinin en üstünden bir kayıt örneği alın.

take(count)

Parametreler

Name Description
count
Gerekli
int

Alınacak kayıt sayısı.

Döndürülenler

Tür Description

Örneklenen veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür.

take_sample

Veri kümesindeki kayıtların rastgele bir örneğini yaklaşık olarak belirtilen olasılığa göre alın.

take_sample(probability, seed=None)

Parametreler

Name Description
probability
Gerekli

Bir kaydın örneğine dahil edilme olasılığı.

seed
Gerekli
int

Rastgele oluşturucu için kullanılacak isteğe bağlı tohum.

Döndürülenler

Tür Description

Örneklenen veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür.

time_after

Belirtilen başlangıç zamanından sonra TabularDataset'i zaman damgası sütunlarıyla filtreleyin.

time_after(start_time, include_boundary=True, validate=True)

Parametreler

Name Description
start_time
Gerekli

Verileri filtrelemek için alt sınır.

include_boundary
Gerekli

Sınır saatiyle (start_time) ilişkili satırın dahil edilmesi gerekip gerekmediğini belirtin.

validate
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür Description

Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

time_before

TabularDataset'i belirtilen bitiş saatinden önce zaman damgası sütunlarıyla filtreleyin.

time_before(end_time, include_boundary=True, validate=True)

Parametreler

Name Description
end_time
Gerekli

Verileri filtrelemek için üst sınır.

include_boundary
Gerekli

Sınır saatiyle (end_time) ilişkili satırın dahil edilmesi gerekip gerekmediğini belirtin.

validate
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür Description

Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

time_between

Belirtilen başlangıç ve bitiş saati arasında TabularDataset'i filtreleyin.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parametreler

Name Description
start_time
Gerekli

Verileri filtrelemek için Alt sınır.

end_time
Gerekli

Verileri filtrelemek için üst sınır.

include_boundary
Gerekli

Sınır süresiyle (start_end ve end_time) ilişkili satırın dahil edilmesi gerekip gerekmediğini gösterir.

validate
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür Description

Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

time_recent

TabularDataset'i yalnızca belirtilen süre (miktar) son verileri içerecek şekilde filtreleyin.

time_recent(time_delta, include_boundary=True, validate=True)

Parametreler

Name Description
time_delta
Gerekli

Alınacak son verilerin süresi (miktarı).

include_boundary
Gerekli

Sınır saatiyle (time_delta) ilişkili satırın dahil edilmesi gerekip gerekmediğini belirtin.

validate
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür Description

Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

to_csv_files

Geçerli veri kümesini CSV dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla CSV dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_csv_files(separator=',')

Parametreler

Name Description
separator
Gerekli
str

Sonuçta elde edilen dosyadaki değerleri ayırmak için kullanılacak ayırıcı.

Döndürülenler

Tür Description

Bu veri kümesindeki verileri içeren bir dizi CSV dosyası içeren yeni bir FileDataset nesnesi döndürür.

to_dask_dataframe

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesindeki verileri gizlice okuyabilen bir Dask DataFrame döndürür.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parametreler

Name Description
sample_size
Gerekli

Şemayı ve türleri belirlemek için okunacak kayıt sayısı.

dtypes
Gerekli

Beklenen sütunları ve bunların dtype'lerini belirten isteğe bağlı bir dikte. sample_size sağlanırsa yoksayılır.

on_error
Gerekli

Değerleri ayrıştırırken bir hata tarafından üretilenler gibi veri kümesindeki hata değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

out_of_range_datetime
Gerekli

Pandas tarafından desteklenen aralığın dışında olan tarih-saat değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

Döndürülenler

Tür Description

dask.dataframe.core.DataFrame

to_pandas_dataframe

Veri kümesindeki tüm kayıtları pandas DataFrame'e yükleyin.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parametreler

Name Description
on_error
Gerekli

Değerleri ayrıştırırken bir hata tarafından üretilenler gibi veri kümesindeki hata değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

out_of_range_datetime
Gerekli

Pandas tarafından desteklenen aralığın dışında olan tarih-saat değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

Döndürülenler

Tür Description

Pandas DataFrame döndürür.

to_parquet_files

Geçerli veri kümesini Parquet dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla Parquet dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_parquet_files()

Döndürülenler

Tür Description

Bu veri kümesindeki verileri içeren parquet dosyaları kümesine sahip yeni bir FileDataset nesnesi döndürür.

to_spark_dataframe

Veri kümesindeki tüm kayıtları bir Spark DataFrame'e yükleyin.

to_spark_dataframe()

Döndürülenler

Tür Description

Spark DataFrame döndürür.

with_timestamp_columns

Veri kümesi için zaman damgası sütunları tanımlayın.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parametreler

Name Description
timestamp
Gerekli
str

Sütunun zaman damgası olarak adı (fine_grain_timestamp olarak adlandırılır) (isteğe bağlı). Varsayılan değer None(clear) değeridir.

partition_timestamp
Gerekli
str

Sütun partition_timestamp adı (kaba taneli zaman damgası olarak adlandırılır) (isteğe bağlı). Varsayılan değer None(clear) değeridir.

validate
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer False'tur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Tür Description

Zaman damgası sütunlarının tanımlandığı yeni bir TabularDataset döndürür.

Açıklamalar

yöntemi, zaman damgası olarak kullanılacak sütunları tanımlar. Bir veri kümesindeki zaman damgası sütunları, verileri zaman serisi verileri olarak ele alma ve ek özellikleri etkinleştirmeyi mümkün hale getirir. Bir veri kümesinde hem hem de timestamp (used to be referred as fine_grain_timestamp)partition_timestamp (used to be referred as coarse grain timestamp) belirtildiğinde, iki sütun aynı zaman çizelgesini temsil etmelidir.

Öznitelikler

timestamp_columns

Zaman damgası sütunlarını döndür.

Döndürülenler

Tür Description
(str, str)

Veri kümesi için tanımlanan zaman damgası (fine_grain_timestamp olarak adlandırılır) ve partition_timestamp (kaba taneli zaman damgası olarak adlandırılır) için sütun adları.