TabularDataset Sınıf

Azure Machine Learning'de kullanılacak tablosal veri kümesini temsil eder.

TabularDataset, veri kaynağından tablosal gösterime veri yüklemek için bir dizi yavaş değerlendirilen, sabit işlem tanımlar. TabularDataset'ten veri teslimi istenene kadar veriler kaynaktan yüklenmez.

TabularDataset, sınıfından TabularDatasetFactory gibi from_delimited_files yöntemler kullanılarak oluşturulur.

Daha fazla bilgi için Veri kümeleri ekleme & kaydetme makalesine bakın. Tablosal veri kümesiyle çalışmaya başlamak için bkz https://aka.ms/tabulardataset-samplenotebook. .

TabularDataset nesnesini başlatın.

Bu oluşturucu doğrudan çağrılmamalıdır. Veri kümesinin sınıfı kullanılarak TabularDatasetFactory oluşturulması amaçlanmıştır.

Devralma
TabularDataset

Oluşturucu

TabularDataset()

Açıklamalar

Sınıfının yöntemleri TabularDatasetFactory kullanılarak from_* CSV, TSV, Parquet dosyaları veya SQL sorgusundan TabularDataset oluşturulabilir. TabularDataset üzerinde kayıtları bölme, atlama ve filtreleme gibi alt sıfırlama işlemleri gerçekleştirebilirsiniz. Alt ayarın sonucu her zaman bir veya daha fazla yeni TabularDataset nesnesidir.

TabularDataset'i pandas DataFrame gibi başka biçimlere de dönüştürebilirsiniz. Gerçek veri yükleme işlemi, TabularDataset'in verileri başka bir depolama mekanizmasına (pandas Dataframe veya CSV dosyası gibi) teslim etmesinin istenmesi halinde gerçekleşir.

TabularDataset bir deneme çalıştırmasının girişi olarak kullanılabilir. Ayrıca, belirtilen adla çalışma alanına kaydedilebilir ve daha sonra bu adla alınabilir.

Yöntemler

download

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından tanımlanan dosya akışlarını yerel yola indirin.

drop_columns

Belirtilen sütunları veri kümesinden bırakın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

get_profile

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Bu veya çalışma alanındaki aynı veri kümesi için gönderilen en son profil çalıştırmasından veri profili alın.

get_profile_runs

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Çalışma alanında bu veya aynı veri kümesiyle ilişkili önceki profil çalıştırmalarını döndür.

keep_columns

Belirtilen sütunları tutun ve diğer tüm sütunları veri kümesinden kaldırın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

mount

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

partition_by

Bölümlenmiş veriler kopyalanır ve hedef tarafından belirtilen hedefe çıkış yapılır.

bölüm biçimine sahip çıktı veri yolundan veri kümesini oluşturun, ad sağlanmışsa veri kümesini kaydedin, bölümler içeren yeni veri yolu için veri kümesini döndürin


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
random_split

Veri kümesindeki kayıtları rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

İlk veri kümesi toplam kayıtların yaklaşık percentage bir kısmını, ikinci veri kümesini ise kalan kayıtları içerir.

skip

Belirtilen sayıya göre veri kümesinin en üstündeki kayıtları atlayın.

submit_profile_run

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri profilini hesaplamak için bir deneme çalıştırması gönderin.

Veri profili, sütun türü, eksik değerler vb. gibi veriler hakkında yararlı bilgiler sağlayarak giriş verilerini anlamak, anomalileri ve eksik değerleri tanımlamak için çok yararlı olabilir.

take

Belirtilen sayıya göre veri kümesinin en üstünden bir kayıt örneği alın.

take_sample

Veri kümesindeki kayıtların rastgele bir örneğini yaklaşık olarak belirtilen olasılığa göre alın.

time_after

Belirtilen başlangıç zamanından sonra TabularDataset'i zaman damgası sütunlarıyla filtreleyin.

time_before

TabularDataset'i belirtilen bitiş saatinden önce zaman damgası sütunlarıyla filtreleyin.

time_between

Belirtilen başlangıç ve bitiş saati arasında TabularDataset'i filtreleyin.

time_recent

TabularDataset'i yalnızca belirtilen süre (miktar) son verileri içerecek şekilde filtreleyin.

to_csv_files

Geçerli veri kümesini CSV dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla CSV dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_dask_dataframe

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesindeki verileri gizlice okuyabilen bir Dask DataFrame döndürür.

to_pandas_dataframe

Veri kümesindeki tüm kayıtları pandas DataFrame'e yükleyin.

to_parquet_files

Geçerli veri kümesini Parquet dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla Parquet dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_spark_dataframe

Veri kümesindeki tüm kayıtları bir Spark DataFrame'e yükleyin.

with_timestamp_columns

Veri kümesi için zaman damgası sütunları tanımlayın.

download

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından tanımlanan dosya akışlarını yerel yola indirin.

download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)

Parametreler

stream_column
str
Gerekli

İndirilmesi gereken akış sütunu.

target_path
str
Gerekli

Dosyaların indirilmesi için yerel dizin. Hiçbiri ise, veriler geçici bir dizine indirilir.

overwrite
bool
Gerekli

Varolan dosyaların üzerine yazılıp yazılmayacağını gösterir. Varsayılan değer False'tur. Üzerine yazma True olarak ayarlanırsa mevcut dosyaların üzerine yazılır; aksi takdirde bir özel durum oluşturulur.

ignore_not_found
bool
Gerekli

Veri kümesi tarafından işaret edilen bazı dosyalar bulunamazsa indirme işleminin başarısız olup olmayacağını gösterir. Varsayılan değer True'dur. ignore_not_found False olarak ayarlanırsa herhangi bir dosya indirme işlemi herhangi bir nedenle başarısız olursa indirme başarısız olur; aksi takdirde, başka hata türleriyle karşılaşılmadığı sürece bir waring bulunamadı hataları için günlüğe kaydedilir ve dowload başarılı olur.

Döndürülenler

İndirilen her dosya için bir dosya yolu dizisi döndürür.

Dönüş türü

drop_columns

Belirtilen sütunları veri kümesinden bırakın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

drop_columns(columns)

Parametreler

columns
Union[str, list[str]]
Gerekli

Bırakacak sütunların adı veya ad listesi.

Döndürülenler

Belirtilen sütunların bırakılmasıyla yeni bir TabularDataset nesnesi döndürür.

Dönüş türü

filter

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.

filter(expression)

Parametreler

expression
any
Gerekli

Değerlendirilecek ifade.

Döndürülenler

Değiştirilen veri kümesi (kaydı kaldırılmış).

Dönüş türü

Açıklamalar

İfadeler, Veri Kümesinde bir sütunun adıyla dizin oluşturarak başlatılır. Bunlar çeşitli işlevleri ve işleçleri destekler ve mantıksal işleçler kullanılarak birleştirilebilir. Sonuçta elde edilen ifade, tanımlandığı yerde değil, bir veri çekme işlemi gerçekleştiğinde her kayıt için gevşek bir şekilde değerlendirilir.


   dataset['myColumn'] > dataset['columnToCompareAgainst']
   dataset['myColumn'].starts_with('prefix')

get_profile

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Bu veya çalışma alanındaki aynı veri kümesi için gönderilen en son profil çalıştırmasından veri profili alın.

get_profile(workspace=None)

Parametreler

workspace
Workspace
Gerekli

Profil çalıştırmasının gönderildiği çalışma alanı. Varsayılan olarak bu veri kümesinin çalışma alanını kullanır. Veri kümesi bir çalışma alanıyla ilişkilendirilmemişse gereklidir. Çalışma alanları hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .

Döndürülenler

DatasetProfile türünde en son profil çalıştırmasından elde edilen profil sonucu.

Dönüş türü

get_profile_runs

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Çalışma alanında bu veya aynı veri kümesiyle ilişkili önceki profil çalıştırmalarını döndür.

get_profile_runs(workspace=None)

Parametreler

workspace
Workspace
Gerekli

Profil çalıştırmasının gönderildiği çalışma alanı. Varsayılan olarak bu veri kümesinin çalışma alanını kullanır. Veri kümesi bir çalışma alanıyla ilişkilendirilmemişse gereklidir. Çalışma alanları hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace .

Döndürülenler

azureml.core.Run türünde yineleyici nesnesi.

Dönüş türü

keep_columns

Belirtilen sütunları tutun ve diğer tüm sütunları veri kümesinden kaldırın.

Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.

keep_columns(columns, validate=False)

Parametreler

columns
Union[str, list[str]]
Gerekli

Tutulacak sütunların adı veya ad listesi.

validate
bool
Gerekli

Döndürülen veri kümesinden veri yüklenip yüklenemeyeceğinin doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer False'tur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Yalnızca belirtilen sütunların tutulduğu yeni bir TabularDataset nesnesi döndürür.

Dönüş türü

mount

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.

mount(stream_column, mount_point=None)

Parametreler

stream_column
str
Gerekli

Bağlanacak akış sütunu.

mount_point
str
Gerekli

Dosyaların bağlanacak yerel dizin. Hiçbiri ise, veriler geçici bir dizine bağlanır ve bunu MountContext.mount_point örnek yöntemini çağırarak bulabilirsiniz.

Döndürülenler

Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür.

Dönüş türü

<xref:azureml.dataprep.fuse.daemon.MountContext>

partition_by

Bölümlenmiş veriler kopyalanır ve hedef tarafından belirtilen hedefe çıkış yapılır.

bölüm biçimine sahip çıktı veri yolundan veri kümesini oluşturun, ad sağlanmışsa veri kümesini kaydedin, bölümler içeren yeni veri yolu için veri kümesini döndürin


   ds = Dataset.get_by_name('test') # indexed by country, state, partition_date

   # #1: call partition_by locally
   new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
               target=DataPath(datastore, "repartition"))
   partition_keys = newds.partition_keys # ['country']

   # new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)

Parametreler

partition_keys
list[str]
Gerekli

Gerekli, bölüm anahtarları

target
DataPath, Datastore veya tuple(Datastore, str) object
Gerekli

Gerekli, veri çerçevesi parquet verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur.

name
str
Gerekli

İsteğe bağlı, Kayıt adı.

show_progress
bool
Gerekli

İsteğe bağlı olarak, yükleme işleminin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur.

partition_as_file_dataset
Gerekli

İsteğe bağlı, bir filedataset döndürerek döndürmediğini gösterir. Varsayılan değer False olur.

Döndürülenler

Kaydedilen veya kaydedilen veri kümesi.

Dönüş türü

random_split

Veri kümesindeki kayıtları rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.

İlk veri kümesi toplam kayıtların yaklaşık percentage bir kısmını, ikinci veri kümesini ise kalan kayıtları içerir.

random_split(percentage, seed=None)

Parametreler

percentage
float
Gerekli

Veri kümesinin bölündüğü yaklaşık yüzde. Bu, 0,0 ile 1,0 arasında bir sayı olmalıdır.

seed
int
Gerekli

Rastgele oluşturucu için kullanılacak isteğe bağlı tohum.

Döndürülenler

Bölme işleminden sonra iki veri kümesini temsil eden yeni TabularDataset nesnelerinin bir demetini döndürür.

Dönüş türü

skip

Belirtilen sayıya göre veri kümesinin en üstündeki kayıtları atlayın.

skip(count)

Parametreler

count
int
Gerekli

Atlana kayıtların sayısı.

Döndürülenler

Kayıtları atlanmış bir veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür.

Dönüş türü

submit_profile_run

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri profilini hesaplamak için bir deneme çalıştırması gönderin.

Veri profili, sütun türü, eksik değerler vb. gibi veriler hakkında yararlı bilgiler sağlayarak giriş verilerini anlamak, anomalileri ve eksik değerleri tanımlamak için çok yararlı olabilir.

submit_profile_run(compute_target, experiment, cache_datastore_name=None)

Parametreler

compute_target
Union[str, ComputeTarget]
Gerekli

Profil hesaplama denemesinin çalıştırılacak işlem hedefi. Yerel işlem kullanmak için 'local' değerini belirtin. İşlem hedefleri hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget .

experiment
Experiment
Gerekli

Deneme nesnesi. Denemeler hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment .

cache_datastore_name
str
Gerekli

Profil önbelleğini depolamak için veri deposunun adı, Hiçbiri ise varsayılan veri deposu kullanılır

Döndürülenler

DatasetProfileRun sınıfı türünde bir nesne.

Dönüş türü

take

Belirtilen sayıya göre veri kümesinin en üstünden bir kayıt örneği alın.

take(count)

Parametreler

count
int
Gerekli

Alınacak kayıt sayısı.

Döndürülenler

Örneklenen veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür.

Dönüş türü

take_sample

Veri kümesindeki kayıtların rastgele bir örneğini yaklaşık olarak belirtilen olasılığa göre alın.

take_sample(probability, seed=None)

Parametreler

probability
float
Gerekli

Bir kaydın örneğine dahil edilme olasılığı.

seed
int
Gerekli

Rastgele oluşturucu için kullanılacak isteğe bağlı tohum.

Döndürülenler

Örneklenen veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür.

Dönüş türü

time_after

Belirtilen başlangıç zamanından sonra TabularDataset'i zaman damgası sütunlarıyla filtreleyin.

time_after(start_time, include_boundary=True, validate=True)

Parametreler

start_time
datetime
Gerekli

Verileri filtrelemek için alt sınır.

include_boundary
bool
Gerekli

Sınır saatiyle (start_time) ilişkili satırın dahil edilmesi gerekip gerekmediğini belirtin.

validate
bool
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

Dönüş türü

time_before

TabularDataset'i belirtilen bitiş saatinden önce zaman damgası sütunlarıyla filtreleyin.

time_before(end_time, include_boundary=True, validate=True)

Parametreler

end_time
datetime
Gerekli

Verileri filtrelemek için üst sınır.

include_boundary
bool
Gerekli

Sınır saatiyle (end_time) ilişkili satırın dahil edilmesi gerekip gerekmediğini belirtin.

validate
bool
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

Dönüş türü

time_between

Belirtilen başlangıç ve bitiş saati arasında TabularDataset'i filtreleyin.

time_between(start_time, end_time, include_boundary=True, validate=True)

Parametreler

start_time
datetime
Gerekli

Verileri filtrelemek için Alt sınır.

end_time
datetime
Gerekli

Verileri filtrelemek için üst sınır.

include_boundary
bool
Gerekli

Sınır süresiyle (start_end ve end_time) ilişkili satırın dahil edilmesi gerekip gerekmediğini gösterir.

validate
bool
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

Dönüş türü

time_recent

TabularDataset'i yalnızca belirtilen süre (miktar) son verileri içerecek şekilde filtreleyin.

time_recent(time_delta, include_boundary=True, validate=True)

Parametreler

time_delta
timedelta
Gerekli

Alınacak son verilerin süresi (miktarı).

include_boundary
bool
Gerekli

Sınır saatiyle (time_delta) ilişkili satırın dahil edilmesi gerekip gerekmediğini belirtin.

validate
bool
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Yeni filtrelenmiş veri kümesine sahip bir TabularDataset.

Dönüş türü

to_csv_files

Geçerli veri kümesini CSV dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla CSV dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_csv_files(separator=',')

Parametreler

separator
str
Gerekli

Sonuçta elde edilen dosyadaki değerleri ayırmak için kullanılacak ayırıcı.

Döndürülenler

Bu veri kümesindeki verileri içeren bir dizi CSV dosyası içeren yeni bir FileDataset nesnesi döndürür.

Dönüş türü

to_dask_dataframe

Not

Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.

Veri kümesindeki verileri gizlice okuyabilen bir Dask DataFrame döndürür.

to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')

Parametreler

sample_size
Gerekli

Şemayı ve türleri belirlemek için okunacak kayıt sayısı.

dtypes
Gerekli

Beklenen sütunları ve bunların dtype'lerini belirten isteğe bağlı bir dikte. sample_size sağlanırsa yoksayılır.

on_error
Gerekli

Değerleri ayrıştırırken bir hata tarafından üretilenler gibi veri kümesindeki hata değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

out_of_range_datetime
Gerekli

Pandas tarafından desteklenen aralığın dışında olan tarih-saat değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

Döndürülenler

dask.dataframe.core.DataFrame

to_pandas_dataframe

Veri kümesindeki tüm kayıtları pandas DataFrame'e yükleyin.

to_pandas_dataframe(on_error='null', out_of_range_datetime='null')

Parametreler

on_error
Gerekli

Değerleri ayrıştırırken bir hata tarafından üretilenler gibi veri kümesindeki hata değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

out_of_range_datetime
Gerekli

Pandas tarafından desteklenen aralığın dışında olan tarih-saat değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'.

Döndürülenler

Pandas DataFrame döndürür.

Dönüş türü

to_parquet_files

Geçerli veri kümesini Parquet dosyalarını içeren bir FileDataset'e dönüştürün.

Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla Parquet dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.

to_parquet_files()

Döndürülenler

Bu veri kümesindeki verileri içeren parquet dosyaları kümesine sahip yeni bir FileDataset nesnesi döndürür.

Dönüş türü

to_spark_dataframe

Veri kümesindeki tüm kayıtları bir Spark DataFrame'e yükleyin.

to_spark_dataframe()

Döndürülenler

Spark DataFrame döndürür.

Dönüş türü

with_timestamp_columns

Veri kümesi için zaman damgası sütunları tanımlayın.

with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)

Parametreler

timestamp
str
Gerekli

Sütunun zaman damgası olarak adı (fine_grain_timestamp olarak adlandırılır) (isteğe bağlı). Varsayılan değer None(clear) değeridir.

partition_timestamp
str
Gerekli

Sütun partition_timestamp adı (kaba taneli zaman damgası olarak adlandırılır) (isteğe bağlı). Varsayılan değer None(clear) değeridir.

validate
bool
Gerekli

Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer False'tur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir.

Döndürülenler

Zaman damgası sütunlarının tanımlandığı yeni bir TabularDataset döndürür.

Dönüş türü

Açıklamalar

yöntemi, zaman damgası olarak kullanılacak sütunları tanımlar. Bir veri kümesindeki zaman damgası sütunları, verileri zaman serisi verileri olarak ele alma ve ek özellikleri etkinleştirmeyi mümkün hale getirir. Bir veri kümesinde hem hem de timestamp (used to be referred as fine_grain_timestamp)partition_timestamp (used to be referred as coarse grain timestamp) belirtildiğinde, iki sütun aynı zaman çizelgesini temsil etmelidir.

Öznitelikler

timestamp_columns

Zaman damgası sütunlarını döndür.

Döndürülenler

Veri kümesi için tanımlanan zaman damgası (fine_grain_timestamp olarak adlandırılır) ve partition_timestamp (kaba taneli zaman damgası olarak adlandırılır) için sütun adları.

Dönüş türü

(str, str)