TabularDataset Sınıf
Azure Machine Learning'de kullanılacak tablosal veri kümesini temsil eder.
TabularDataset, veri kaynağından tablosal gösterime veri yüklemek için bir dizi yavaş değerlendirilen, sabit işlem tanımlar. TabularDataset'ten veri teslimi istenene kadar veriler kaynaktan yüklenmez.
TabularDataset, sınıfından TabularDatasetFactory gibi from_delimited_files yöntemler kullanılarak oluşturulur.
Daha fazla bilgi için Veri kümeleri ekleme & kaydetme makalesine bakın. Tablosal veri kümesiyle çalışmaya başlamak için bkz https://aka.ms/tabulardataset-samplenotebook. .
TabularDataset nesnesini başlatın.
Bu oluşturucu doğrudan çağrılmamalıdır. Veri kümesinin sınıfı kullanılarak TabularDatasetFactory oluşturulması amaçlanmıştır.
- Devralma
-
TabularDataset
Oluşturucu
TabularDataset()
Açıklamalar
Sınıfının yöntemleri TabularDatasetFactory kullanılarak from_*
CSV, TSV, Parquet dosyaları veya SQL sorgusundan TabularDataset oluşturulabilir. TabularDataset üzerinde kayıtları bölme, atlama ve filtreleme gibi alt sıfırlama işlemleri gerçekleştirebilirsiniz.
Alt ayarın sonucu her zaman bir veya daha fazla yeni TabularDataset nesnesidir.
TabularDataset'i pandas DataFrame gibi başka biçimlere de dönüştürebilirsiniz. Gerçek veri yükleme işlemi, TabularDataset'in verileri başka bir depolama mekanizmasına (pandas Dataframe veya CSV dosyası gibi) teslim etmesinin istenmesi halinde gerçekleşir.
TabularDataset bir deneme çalıştırmasının girişi olarak kullanılabilir. Ayrıca, belirtilen adla çalışma alanına kaydedilebilir ve daha sonra bu adla alınabilir.
Yöntemler
download |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri kümesi tarafından tanımlanan dosya akışlarını yerel yola indirin. |
drop_columns |
Belirtilen sütunları veri kümesinden bırakın. Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır. |
filter |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin. |
get_profile |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Bu veya çalışma alanındaki aynı veri kümesi için gönderilen en son profil çalıştırmasından veri profili alın. |
get_profile_runs |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Çalışma alanında bu veya aynı veri kümesiyle ilişkili önceki profil çalıştırmalarını döndür. |
keep_columns |
Belirtilen sütunları tutun ve diğer tüm sütunları veri kümesinden kaldırın. Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır. |
mount |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun. |
partition_by |
Bölümlenmiş veriler kopyalanır ve hedef tarafından belirtilen hedefe çıkış yapılır. bölüm biçimine sahip çıktı veri yolundan veri kümesini oluşturun, ad sağlanmışsa veri kümesini kaydedin, bölümler içeren yeni veri yolu için veri kümesini döndürin
|
random_split |
Veri kümesindeki kayıtları rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün. İlk veri kümesi toplam kayıtların yaklaşık |
skip |
Belirtilen sayıya göre veri kümesinin en üstündeki kayıtları atlayın. |
submit_profile_run |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri profilini hesaplamak için bir deneme çalıştırması gönderin. Veri profili, sütun türü, eksik değerler vb. gibi veriler hakkında yararlı bilgiler sağlayarak giriş verilerini anlamak, anomalileri ve eksik değerleri tanımlamak için çok yararlı olabilir. |
take |
Belirtilen sayıya göre veri kümesinin en üstünden bir kayıt örneği alın. |
take_sample |
Veri kümesindeki kayıtların rastgele bir örneğini yaklaşık olarak belirtilen olasılığa göre alın. |
time_after |
Belirtilen başlangıç zamanından sonra TabularDataset'i zaman damgası sütunlarıyla filtreleyin. |
time_before |
TabularDataset'i belirtilen bitiş saatinden önce zaman damgası sütunlarıyla filtreleyin. |
time_between |
Belirtilen başlangıç ve bitiş saati arasında TabularDataset'i filtreleyin. |
time_recent |
TabularDataset'i yalnızca belirtilen süre (miktar) son verileri içerecek şekilde filtreleyin. |
to_csv_files |
Geçerli veri kümesini CSV dosyalarını içeren bir FileDataset'e dönüştürün. Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla CSV dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir. |
to_dask_dataframe |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Veri kümesindeki verileri gizlice okuyabilen bir Dask DataFrame döndürür. |
to_pandas_dataframe |
Veri kümesindeki tüm kayıtları pandas DataFrame'e yükleyin. |
to_parquet_files |
Geçerli veri kümesini Parquet dosyalarını içeren bir FileDataset'e dönüştürün. Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla Parquet dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir. |
to_spark_dataframe |
Veri kümesindeki tüm kayıtları bir Spark DataFrame'e yükleyin. |
with_timestamp_columns |
Veri kümesi için zaman damgası sütunları tanımlayın. |
download
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Veri kümesi tarafından tanımlanan dosya akışlarını yerel yola indirin.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parametreler
Name | Description |
---|---|
stream_column
Gerekli
|
İndirilmesi gereken akış sütunu. |
target_path
Gerekli
|
Dosyaların indirilmesi için yerel dizin. Hiçbiri ise, veriler geçici bir dizine indirilir. |
overwrite
Gerekli
|
Varolan dosyaların üzerine yazılıp yazılmayacağını gösterir. Varsayılan değer False'tur. Üzerine yazma True olarak ayarlanırsa mevcut dosyaların üzerine yazılır; aksi takdirde bir özel durum oluşturulur. |
ignore_not_found
Gerekli
|
Veri kümesi tarafından işaret edilen bazı dosyalar bulunamazsa indirme işleminin başarısız olup olmayacağını gösterir. Varsayılan değer True'dur. ignore_not_found False olarak ayarlanırsa herhangi bir dosya indirme işlemi herhangi bir nedenle başarısız olursa indirme başarısız olur; aksi takdirde, başka hata türleriyle karşılaşılmadığı sürece bir waring bulunamadı hataları için günlüğe kaydedilir ve dowload başarılı olur. |
Döndürülenler
Tür | Description |
---|---|
İndirilen her dosya için bir dosya yolu dizisi döndürür. |
drop_columns
Belirtilen sütunları veri kümesinden bırakın.
Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.
drop_columns(columns)
Parametreler
Name | Description |
---|---|
columns
Gerekli
|
Bırakacak sütunların adı veya ad listesi. |
Döndürülenler
Tür | Description |
---|---|
Belirtilen sütunların bırakılmasıyla yeni bir TabularDataset nesnesi döndürür. |
filter
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Yalnızca belirtilen ifadeyle eşleşen kayıtları bırakarak verileri filtreleyin.
filter(expression)
Parametreler
Name | Description |
---|---|
expression
Gerekli
|
Değerlendirilecek ifade. |
Döndürülenler
Tür | Description |
---|---|
Değiştirilen veri kümesi (kaydı kaldırılmış). |
Açıklamalar
İfadeler, Veri Kümesinde bir sütunun adıyla dizin oluşturarak başlatılır. Bunlar çeşitli işlevleri ve işleçleri destekler ve mantıksal işleçler kullanılarak birleştirilebilir. Sonuçta elde edilen ifade, tanımlandığı yerde değil, bir veri çekme işlemi gerçekleştiğinde her kayıt için gevşek bir şekilde değerlendirilir.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Bu veya çalışma alanındaki aynı veri kümesi için gönderilen en son profil çalıştırmasından veri profili alın.
get_profile(workspace=None)
Parametreler
Name | Description |
---|---|
workspace
Gerekli
|
Profil çalıştırmasının gönderildiği çalışma alanı. Varsayılan olarak bu veri kümesinin çalışma alanını kullanır. Veri kümesi bir çalışma alanıyla ilişkilendirilmemişse gereklidir. Çalışma alanları hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace . |
Döndürülenler
Tür | Description |
---|---|
DatasetProfile türünde en son profil çalıştırmasından elde edilen profil sonucu. |
get_profile_runs
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Çalışma alanında bu veya aynı veri kümesiyle ilişkili önceki profil çalıştırmalarını döndür.
get_profile_runs(workspace=None)
Parametreler
Name | Description |
---|---|
workspace
Gerekli
|
Profil çalıştırmasının gönderildiği çalışma alanı. Varsayılan olarak bu veri kümesinin çalışma alanını kullanır. Veri kümesi bir çalışma alanıyla ilişkilendirilmemişse gereklidir. Çalışma alanları hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace . |
Döndürülenler
Tür | Description |
---|---|
azureml.core.Run türünde yineleyici nesnesi. |
keep_columns
Belirtilen sütunları tutun ve diğer tüm sütunları veri kümesinden kaldırın.
Bir timeseries sütunu bırakılırsa, döndürülen veri kümesi için ilgili özellikler de bırakılır.
keep_columns(columns, validate=False)
Parametreler
Name | Description |
---|---|
columns
Gerekli
|
Tutulacak sütunların adı veya ad listesi. |
validate
Gerekli
|
Döndürülen veri kümesinden veri yüklenip yüklenemeyeceğinin doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer False'tur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
Döndürülenler
Tür | Description |
---|---|
Yalnızca belirtilen sütunların tutulduğu yeni bir TabularDataset nesnesi döndürür. |
mount
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Veri kümesi tarafından yerel dosyalar olarak tanımlanan dosya akışlarını bağlamak için bir bağlam yöneticisi oluşturun.
mount(stream_column, mount_point=None)
Parametreler
Name | Description |
---|---|
stream_column
Gerekli
|
Bağlanacak akış sütunu. |
mount_point
Gerekli
|
Dosyaların bağlanacak yerel dizin. Hiçbiri ise, veriler geçici bir dizine bağlanır ve bunu MountContext.mount_point örnek yöntemini çağırarak bulabilirsiniz. |
Döndürülenler
Tür | Description |
---|---|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
Bağlamanın yaşam döngüsünü yönetmek için bir bağlam yöneticisi döndürür. |
partition_by
Bölümlenmiş veriler kopyalanır ve hedef tarafından belirtilen hedefe çıkış yapılır.
bölüm biçimine sahip çıktı veri yolundan veri kümesini oluşturun, ad sağlanmışsa veri kümesini kaydedin, bölümler içeren yeni veri yolu için veri kümesini döndürin
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parametreler
Name | Description |
---|---|
partition_keys
Gerekli
|
Gerekli, bölüm anahtarları |
target
Gerekli
|
Gerekli, veri çerçevesi parquet verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur. |
name
Gerekli
|
İsteğe bağlı, Kayıt adı. |
show_progress
Gerekli
|
İsteğe bağlı olarak, yükleme işleminin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur. |
partition_as_file_dataset
Gerekli
|
İsteğe bağlı, bir filedataset döndürerek döndürmediğini gösterir. Varsayılan değer False olur. |
Döndürülenler
Tür | Description |
---|---|
Kaydedilen veya kaydedilen veri kümesi. |
random_split
Veri kümesindeki kayıtları rastgele ve yaklaşık olarak belirtilen yüzdeye göre iki bölüme bölün.
İlk veri kümesi toplam kayıtların yaklaşık percentage
bir kısmını, ikinci veri kümesini ise kalan kayıtları içerir.
random_split(percentage, seed=None)
Parametreler
Name | Description |
---|---|
percentage
Gerekli
|
Veri kümesinin bölündüğü yaklaşık yüzde. Bu, 0,0 ile 1,0 arasında bir sayı olmalıdır. |
seed
Gerekli
|
Rastgele oluşturucu için kullanılacak isteğe bağlı tohum. |
Döndürülenler
Tür | Description |
---|---|
Bölme işleminden sonra iki veri kümesini temsil eden yeni TabularDataset nesnelerinin bir demetini döndürür. |
skip
Belirtilen sayıya göre veri kümesinin en üstündeki kayıtları atlayın.
skip(count)
Parametreler
Name | Description |
---|---|
count
Gerekli
|
Atlana kayıtların sayısı. |
Döndürülenler
Tür | Description |
---|---|
Kayıtları atlanmış bir veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür. |
submit_profile_run
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Veri profilini hesaplamak için bir deneme çalıştırması gönderin.
Veri profili, sütun türü, eksik değerler vb. gibi veriler hakkında yararlı bilgiler sağlayarak giriş verilerini anlamak, anomalileri ve eksik değerleri tanımlamak için çok yararlı olabilir.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parametreler
Name | Description |
---|---|
compute_target
Gerekli
|
Profil hesaplama denemesinin çalıştırılacak işlem hedefi. Yerel işlem kullanmak için 'local' değerini belirtin. İşlem hedefleri hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget . |
experiment
Gerekli
|
Deneme nesnesi. Denemeler hakkında daha fazla bilgi için bkz https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment . |
cache_datastore_name
Gerekli
|
Profil önbelleğini depolamak için veri deposunun adı, Hiçbiri ise varsayılan veri deposu kullanılır |
Döndürülenler
Tür | Description |
---|---|
DatasetProfileRun sınıfı türünde bir nesne. |
take
Belirtilen sayıya göre veri kümesinin en üstünden bir kayıt örneği alın.
take(count)
Parametreler
Name | Description |
---|---|
count
Gerekli
|
Alınacak kayıt sayısı. |
Döndürülenler
Tür | Description |
---|---|
Örneklenen veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür. |
take_sample
Veri kümesindeki kayıtların rastgele bir örneğini yaklaşık olarak belirtilen olasılığa göre alın.
take_sample(probability, seed=None)
Parametreler
Name | Description |
---|---|
probability
Gerekli
|
Bir kaydın örneğine dahil edilme olasılığı. |
seed
Gerekli
|
Rastgele oluşturucu için kullanılacak isteğe bağlı tohum. |
Döndürülenler
Tür | Description |
---|---|
Örneklenen veri kümesini temsil eden yeni bir TabularDataset nesnesi döndürür. |
time_after
Belirtilen başlangıç zamanından sonra TabularDataset'i zaman damgası sütunlarıyla filtreleyin.
time_after(start_time, include_boundary=True, validate=True)
Parametreler
Name | Description |
---|---|
start_time
Gerekli
|
Verileri filtrelemek için alt sınır. |
include_boundary
Gerekli
|
Sınır saatiyle ( |
validate
Gerekli
|
Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
Döndürülenler
Tür | Description |
---|---|
Yeni filtrelenmiş veri kümesine sahip bir TabularDataset. |
time_before
TabularDataset'i belirtilen bitiş saatinden önce zaman damgası sütunlarıyla filtreleyin.
time_before(end_time, include_boundary=True, validate=True)
Parametreler
Name | Description |
---|---|
end_time
Gerekli
|
Verileri filtrelemek için üst sınır. |
include_boundary
Gerekli
|
Sınır saatiyle ( |
validate
Gerekli
|
Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
Döndürülenler
Tür | Description |
---|---|
Yeni filtrelenmiş veri kümesine sahip bir TabularDataset. |
time_between
Belirtilen başlangıç ve bitiş saati arasında TabularDataset'i filtreleyin.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parametreler
Name | Description |
---|---|
start_time
Gerekli
|
Verileri filtrelemek için Alt sınır. |
end_time
Gerekli
|
Verileri filtrelemek için üst sınır. |
include_boundary
Gerekli
|
Sınır süresiyle ( |
validate
Gerekli
|
Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
Döndürülenler
Tür | Description |
---|---|
Yeni filtrelenmiş veri kümesine sahip bir TabularDataset. |
time_recent
TabularDataset'i yalnızca belirtilen süre (miktar) son verileri içerecek şekilde filtreleyin.
time_recent(time_delta, include_boundary=True, validate=True)
Parametreler
Name | Description |
---|---|
time_delta
Gerekli
|
Alınacak son verilerin süresi (miktarı). |
include_boundary
Gerekli
|
Sınır saatiyle ( |
validate
Gerekli
|
Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer True'dur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
Döndürülenler
Tür | Description |
---|---|
Yeni filtrelenmiş veri kümesine sahip bir TabularDataset. |
to_csv_files
Geçerli veri kümesini CSV dosyalarını içeren bir FileDataset'e dönüştürün.
Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla CSV dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.
to_csv_files(separator=',')
Parametreler
Name | Description |
---|---|
separator
Gerekli
|
Sonuçta elde edilen dosyadaki değerleri ayırmak için kullanılacak ayırıcı. |
Döndürülenler
Tür | Description |
---|---|
Bu veri kümesindeki verileri içeren bir dizi CSV dosyası içeren yeni bir FileDataset nesnesi döndürür. |
to_dask_dataframe
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Veri kümesindeki verileri gizlice okuyabilen bir Dask DataFrame döndürür.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parametreler
Name | Description |
---|---|
sample_size
Gerekli
|
Şemayı ve türleri belirlemek için okunacak kayıt sayısı. |
dtypes
Gerekli
|
Beklenen sütunları ve bunların dtype'lerini belirten isteğe bağlı bir dikte. sample_size sağlanırsa yoksayılır. |
on_error
Gerekli
|
Değerleri ayrıştırırken bir hata tarafından üretilenler gibi veri kümesindeki hata değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'. |
out_of_range_datetime
Gerekli
|
Pandas tarafından desteklenen aralığın dışında olan tarih-saat değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'. |
Döndürülenler
Tür | Description |
---|---|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
Veri kümesindeki tüm kayıtları pandas DataFrame'e yükleyin.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parametreler
Name | Description |
---|---|
on_error
Gerekli
|
Değerleri ayrıştırırken bir hata tarafından üretilenler gibi veri kümesindeki hata değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'. |
out_of_range_datetime
Gerekli
|
Pandas tarafından desteklenen aralığın dışında olan tarih-saat değerlerini işleme. Geçerli değerler, null ile değiştiren 'null' değerleridir; ve bir özel durumla sonuçlanacak 'fail'. |
Döndürülenler
Tür | Description |
---|---|
Pandas DataFrame döndürür. |
to_parquet_files
Geçerli veri kümesini Parquet dosyalarını içeren bir FileDataset'e dönüştürün.
Sonuçta elde edilen veri kümesi, her biri geçerli veri kümesindeki bir veri bölümüne karşılık gelen bir veya daha fazla Parquet dosyası içerir. Bu dosyalar indirilene veya okunana kadar gerçekleştirilmemiştir.
to_parquet_files()
Döndürülenler
Tür | Description |
---|---|
Bu veri kümesindeki verileri içeren parquet dosyaları kümesine sahip yeni bir FileDataset nesnesi döndürür. |
to_spark_dataframe
Veri kümesindeki tüm kayıtları bir Spark DataFrame'e yükleyin.
to_spark_dataframe()
Döndürülenler
Tür | Description |
---|---|
Spark DataFrame döndürür. |
with_timestamp_columns
Veri kümesi için zaman damgası sütunları tanımlayın.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parametreler
Name | Description |
---|---|
timestamp
Gerekli
|
Sütunun zaman damgası olarak adı (fine_grain_timestamp olarak adlandırılır) (isteğe bağlı). Varsayılan değer None(clear) değeridir. |
partition_timestamp
Gerekli
|
Sütun partition_timestamp adı (kaba taneli zaman damgası olarak adlandırılır) (isteğe bağlı). Varsayılan değer None(clear) değeridir. |
validate
Gerekli
|
Belirtilen sütunların veri kümesinde mevcut olup olmadığının doğrulanıp doğrulanmayacağını gösterir. Varsayılan değer False'tur. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
Döndürülenler
Tür | Description |
---|---|
Zaman damgası sütunlarının tanımlandığı yeni bir TabularDataset döndürür. |
Açıklamalar
yöntemi, zaman damgası olarak kullanılacak sütunları tanımlar. Bir veri kümesindeki zaman damgası sütunları, verileri zaman serisi verileri olarak ele alma ve ek özellikleri etkinleştirmeyi mümkün hale getirir. Bir veri kümesinde hem hem de timestamp (used to be referred as fine_grain_timestamp)
partition_timestamp (used to be referred as coarse grain timestamp)
belirtildiğinde, iki sütun aynı zaman çizelgesini temsil etmelidir.