Dataset Sınıf
Azure Machine Learning'de verileri keşfetmeye, dönüştürmeye ve yönetmeye yönelik bir kaynağı temsil eder.
Veri kümesi, genel web url'lerindeki Datastore veya arkasındaki verilere başvurudur.
Bu sınıfta kullanım dışı bırakılan yöntemler için lütfen geliştirilmiş API'ler için sınıfı denetleyin AbstractDataset .
Aşağıdaki Veri kümeleri türleri desteklenir:
TabularDataset , sağlanan dosya veya dosya listesi ayrıştırılarak oluşturulan tablo biçimindeki verileri temsil eder.
FileDataset veri depolarındaki veya genel URL'lerdeki tek veya birden çok dosyaya başvurur.
Veri kümelerini kullanmaya başlamak için Veri kümeleri ekleme ve kaydetme makalesine bakın veya ve not defterlerine https://aka.ms/tabulardataset-samplenotebook bakın https://aka.ms/filedataset-samplenotebook.
Dataset nesnesini başlatın.
Çalışma alanına önceden kaydedilmiş bir Veri Kümesi almak için get yöntemini kullanın.
Oluşturucu
Dataset(definition, workspace=None, name=None, id=None)
Parametreler
| Name | Description |
|---|---|
|
definition
Gerekli
|
<xref:azureml.data.DatasetDefinition>
Veri kümesi tanımı. |
|
workspace
Gerekli
|
Veri Kümesinin bulunduğu çalışma alanı. |
|
name
Gerekli
|
Veri Kümesinin adı. |
|
id
Gerekli
|
Veri Kümesinin benzersiz tanımlayıcısı. |
Açıklamalar
Dataset sınıfı, karşılık gelen fabrika yöntemleriyle çalışmadan Veri Kümesi oluşturmak için kullanabileceğiniz iki kolaylık sınıfı özniteliğini (File ve Tabular) kullanıma sunar. Örneğin, şu öznitelikleri kullanarak bir veri kümesi oluşturmak için:
Dataset.Tabular.from_delimited_files()Dataset.File.from_files()
ayrıca ve TabularDatasetFactoryiçinde tanımlanan FileDatasetFactory sınıfının ilgili fabrika yöntemlerini doğrudan çağırarak yeni bir TabularDataset veya FileDataset oluşturabilirsiniz.
Aşağıdaki örnekte, bir veri deposunda tek bir yola işaret eden bir TabularDataset'in nasıl oluşturulacağı gösterilmektedir.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Tam örnek şu kaynaktan edinilebilir: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Değişkenler
| Name | Description |
|---|---|
|
azureml.core.Dataset.File
|
Yeni FileDataset nesneleri oluşturmak için FileDatasetFactory yöntemlerine erişim sağlayan bir sınıf özniteliği. Kullanım: Dataset.File.from_files(). |
|
azureml.core.Dataset.Tabular
|
Yeni TabularDataset nesneleri oluşturmak için TabularDatasetFactory yöntemlerine erişim sağlayan bir sınıf özniteliği. Kullanım: Dataset.Tabular.from_delimited_files(). |
Yöntemler
| archive |
Etkin veya kullanım dışı bırakılmış bir veri kümesini arşivler. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| auto_read_files |
Belirtilen yoldaki dosyaları analiz eder ve yeni bir Veri Kümesi döndürür. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Dosyaları okumak için Dataset.Tabular.from_* yöntemlerini kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| compare_profiles |
Geçerli Veri Kümesinin profilini başka bir veri kümesi profiliyle karşılaştırın. Bu, iki veri kümesi arasındaki özet istatistiklerin farklarını gösterir. 'rhs_dataset' parametresi "sağ taraf" anlamına gelir ve yalnızca ikinci veri kümesidir. İlk veri kümesi (geçerli veri kümesi nesnesi) "sol taraf" olarak kabul edilir. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| create_snapshot |
Kayıtlı Veri Kümesinin anlık görüntüsünü oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| delete_snapshot |
Veri kümesinin anlık görüntüsünü ada göre silin. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| deprecate |
Çalışma alanındaki etkin bir veri kümesini başka bir veri kümesine göre kullanımdan kaldırın. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| diff |
Geçerli Veri Kümesini rhs_dataset ile fark edin. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| from_binary_files |
İkili dosyalardan kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Bunun yerine Dataset.File.from_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| from_delimited_files |
Sınırlandırılmış dosyalardan kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Bunun yerine Dataset.Tabular.from_delimited_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
|
| from_excel_files |
Excel dosyalarından kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| from_json_files |
JSON dosyalarından kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. JSON satırları dosyasından okumak için bunun yerine Dataset.Tabular.from_json_lines_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| from_pandas_dataframe |
Pandas veri çerçevesinden kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Bunun yerine Dataset.Tabular.register_pandas_dataframe kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| from_parquet_files |
Parquet dosyalarından kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Bunun yerine Dataset.Tabular.from_parquet_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| from_sql_query |
SQL sorgusundan kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Bunun yerine Dataset.Tabular.from_sql_query kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| generate_profile |
Veri Kümesi için yeni profil oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| get |
Adını veya kimliğini belirterek çalışma alanında zaten var olan bir Veri Kümesini alın. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. bunun yerine ve'i get_by_name kullanmanızı get_by_id öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| get_all |
Çalışma alanındaki tüm kayıtlı veri kümelerini alın. |
| get_all_snapshots |
Veri Kümesinin tüm anlık görüntülerini alın. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| get_by_id |
Çalışma alanına kaydedilen bir Veri Kümesi alın. |
| get_by_name |
Kayıt adına göre çalışma alanından kayıtlı bir Veri Kümesi alın. |
| get_definition |
Veri Kümesinin belirli bir tanımını alın. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| get_definitions |
Veri Kümesinin tüm tanımlarını alın. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| get_profile |
Daha önce hesaplanan Veri Kümesiyle ilgili özet istatistikleri alın. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| get_snapshot |
Ada göre Veri Kümesinin anlık görüntüsünü alın. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| head |
Bu Veri Kümesinden belirtilen kayıt sayısını çekin ve bunları DataFrame olarak döndürür. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| list |
Özelliği False'a eşit olanlar da dahil olmak üzere çalışma alanındaki tüm Veri Kümelerini Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Bunun yerine kullanılması get_all önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| reactivate |
Arşivlenmiş veya kullanım dışı bırakılmış bir veri kümesini yeniden etkinleştirme. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| register |
Veri Kümesini çalışma alanına kaydederek çalışma alanının diğer kullanıcılarının kullanımına açın. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Bunun yerine kullanılması register önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| sample |
Sağlanan örnekleme stratejisini ve parametreleri kullanarak kaynak Veri Kümesinden yeni bir örnek oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın take_sample . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| to_pandas_dataframe |
Bu Veri Kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürüterek bir Pandas veri çerçevesi oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın to_pandas_dataframe . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| to_spark_dataframe |
Bu Veri Kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürütebilen bir Spark DataFrame oluşturun. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın to_spark_dataframe . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| update |
Çalışma alanındaki Veri kümesi değiştirilebilir özniteliklerini güncelleştirin ve çalışma alanından güncelleştirilmiş Veri Kümesini döndürin. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
| update_definition |
Veri kümesi tanımını güncelleştirin. Uyarı Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation. |
archive
Etkin veya kullanım dışı bırakılmış bir veri kümesini arşivler.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
archive()
Döndürülenler
| Tür | Description |
|---|---|
|
Yok. |
Açıklamalar
Arşivlemeden sonra, Veri Kümesini kullanma girişimleri bir hatayla sonuçlanır. Yanlışlıkla arşivlenirse yeniden etkinleştir seçeneği etkinleştirilecektir.
auto_read_files
Belirtilen yoldaki dosyaları analiz eder ve yeni bir Veri Kümesi döndürür.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Dosyaları okumak için Dataset.Tabular.from_* yöntemlerini kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Parametreler
| Name | Description |
|---|---|
|
path
Gerekli
|
DataReference veya
str
Kayıtlı bir veri deposundaki veri yolu, yerel yol veya HTTP URL'si (CSV/TSV). |
|
include_path
Gerekli
|
Verilerin okunduğu dosyanın yolunu içeren bir sütun eklenip eklenmeyeceği. Birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan geldiğini bilmek istediğinizde kullanışlıdır. Ayrıca, dosya yolunda veya adında bir sütunda olmasını istediğiniz bilgiler varsa kullanışlıdır. |
|
partition_format
Gerekli
|
Yolda bölüm biçimini belirtin ve '{x}' biçiminden ve '{x:yyyy/MM/dd/HH/mm/ss}' biçimindeki tarih saat sütunundan dize sütunları oluşturun; burada 'yyyy', 'MM', 'dd', 'HH', 'mm' ve 'ss' tarih saat türü için fazladan yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.csv'data.csv; burada veriler bölüm adı ve saate göre bölümleniyor, dize türünde 'Department' ve datetime türünde 'PartitionDate' sütunlarını oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' tanımlayabiliriz. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi nesnesi. |
Açıklamalar
Dosya biçimlerinin ve sınırlayıcıların otomatik olarak algılandığında bu yöntemi kullanın.
Veri Kümesi oluşturduktan sonra, her sütun için algılanan sütun türlerini ve özet istatistikleri listelemek için komutunu kullanmalısınız get_profile .
Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.
compare_profiles
Geçerli Veri Kümesinin profilini başka bir veri kümesi profiliyle karşılaştırın.
Bu, iki veri kümesi arasındaki özet istatistiklerin farklarını gösterir. 'rhs_dataset' parametresi "sağ taraf" anlamına gelir ve yalnızca ikinci veri kümesidir. İlk veri kümesi (geçerli veri kümesi nesnesi) "sol taraf" olarak kabul edilir.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametreler
| Name | Description |
|---|---|
|
rhs_dataset
Gerekli
|
Karşılaştırma için "sağ taraf" veri kümesi olarak da adlandırılan ikinci bir Veri Kümesi. |
|
profile_arguments
Gerekli
|
Belirli bir profili yeniden deneme bağımsız değişkenleri. |
|
include_columns
Gerekli
|
Karşılaştırmaya dahil edilecek sütun adlarının listesi. |
|
exclude_columns
Gerekli
|
Karşılaştırmada dışlanacak sütun adlarının listesi. |
|
histogram_compare_method
Gerekli
|
Karşılaştırma yöntemini açıklayan sabit listesi, örneğin: Wasserstein veya Energy |
Döndürülenler
| Tür | Description |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
İki veri kümesi profili arasındaki fark. |
Açıklamalar
Bu yalnızca kayıtlı Veri Kümeleri içindir. Geçerli Veri Kümesinin profili yoksa bir özel durum oluşturur. Kaydedilmemiş Veri kümeleri için profile.compare yöntemini kullanın.
create_snapshot
Kayıtlı Veri Kümesinin anlık görüntüsünü oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametreler
| Name | Description |
|---|---|
|
snapshot_name
Gerekli
|
Anlık görüntü adı. Anlık görüntü adları bir Veri Kümesi içinde benzersiz olmalıdır. |
|
compute_target
Gerekli
|
Anlık görüntü profili oluşturmayı gerçekleştirmek için isteğe bağlı işlem hedefi. Belirtilmezse, yerel işlem kullanılır. |
|
create_data_snapshot
Gerekli
|
True ise verilerin gerçekleştirilmiş bir kopyası oluşturulur. |
|
target_datastore
Gerekli
|
Anlık görüntüyü kaydetmek için hedef veri deposu. Atlanırsa, anlık görüntü çalışma alanının varsayılan depolama alanında oluşturulur. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi anlık görüntüsü nesnesi. |
Açıklamalar
Anlık görüntüler, temel alınan verilerin zaman özet istatistiklerini ve verilerin isteğe bağlı bir kopyasını yakalar. Anlık görüntü oluşturma hakkında daha fazla bilgi edinmek için adresine https://aka.ms/azureml/howto/createsnapshotsgidin.
delete_snapshot
Veri kümesinin anlık görüntüsünü ada göre silin.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Parametreler
| Name | Description |
|---|---|
|
snapshot_name
Gerekli
|
Anlık görüntü adı. |
Döndürülenler
| Tür | Description |
|---|---|
|
Yok. |
Açıklamalar
Artık ihtiyacınız olmayan anlık görüntülerde kaydedilen veriler tarafından tüketilen depolama alanını boşaltmak için bunu kullanın.
deprecate
Çalışma alanındaki etkin bir veri kümesini başka bir veri kümesine göre kullanımdan kaldırın.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Parametreler
| Name | Description |
|---|---|
|
deprecate_by_dataset_id
Gerekli
|
Bu Veri Kümesinin değiştirilmesi amaçlanan Veri Kümesi Kimliği. |
Döndürülenler
| Tür | Description |
|---|---|
|
Yok. |
Açıklamalar
Kullanım dışı bırakılan Veri Kümeleri, tüketilen uyarıları günlüğe kaydeder. Bir veri kümesinin kullanımdan kaldırılması tüm tanımlarını kullanım dışı bırakmaktadır.
Kullanım dışı bırakılmış Veri Kümeleri yine de kullanılabilir. Bir Veri Kümesinin tüketilmesini tamamen engellemek için bu veri kümesini arşivleyin.
Yanlışlıkla kullanım dışı bırakıldıysa, yeniden etkinleştirme etkinleştirildiğinde etkinleştirilir.
diff
Geçerli Veri Kümesini rhs_dataset ile fark edin.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Parametreler
| Name | Description |
|---|---|
|
rhs_dataset
Gerekli
|
Karşılaştırma için sağ taraftaki Veri Kümesi olarak da adlandırılan başka bir Veri Kümesi |
|
compute_target
Gerekli
|
farkını gerçekleştirmek için işlem hedefi. Belirtilmezse, yerel işlem kullanılır. |
|
columns
Gerekli
|
Diff'e dahil edilecek sütun adlarının listesi. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi eylemi çalıştırma nesnesi. |
from_binary_files
İkili dosyalardan kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Bunun yerine Dataset.File.from_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Parametreler
| Name | Description |
|---|---|
|
path
Gerekli
|
DataReference veya
str
Kayıtlı bir veri deposundaki veya yerel bir yoldaki veri yolu. |
Döndürülenler
| Tür | Description |
|---|---|
|
Dataset nesnesi. |
Açıklamalar
Dosyaları ikili veri akışları olarak okumak için bu yöntemi kullanın. Dosya okuma başına bir dosya akışı nesnesi döndürür. Görüntüleri, videoları, sesleri veya diğer ikili verileri okurken bu yöntemi kullanın.
get_profile ve create_snapshot bu yöntem tarafından oluşturulan bir Veri Kümesi için beklendiği gibi çalışmaz.
Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.
from_delimited_files
Sınırlandırılmış dosyalardan kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Bunun yerine Dataset.Tabular.from_delimited_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Parametreler
| Name | Description |
|---|---|
|
path
Gerekli
|
DataReference veya
str
Kayıtlı bir veri deposundaki veri yolu, yerel yol veya HTTP URL'si. |
|
separator
Gerekli
|
Sütunları bölmek için kullanılan ayırıcı. |
|
header
Gerekli
|
Dosyalardan okurken sütun üst bilgilerinin nasıl yükseltilir denetler. |
|
encoding
Gerekli
|
Okunan dosyaların kodlaması. |
|
quoting
Gerekli
|
Tırnak içinde yeni satır karakterlerinin nasıl işleneceğini belirtin. Varsayılan (Yanlış) yeni satır karakterlerini, yeni satır karakterlerinin tırnak içinde olup olmadığına bakılmaksızın yeni satır başlatma olarak yorumlamaktır. True olarak ayarlanırsa, tırnak içindeki yeni satır karakterleri yeni satırlara neden olmaz ve dosya okuma hızı yavaşlar. |
|
infer_column_types
Gerekli
|
Sütun veri türlerinin çıkarılıp çıkarılmadığını gösterir. |
|
skip_rows
Gerekli
|
Okunan dosyalarda kaç satırın atlandığı. |
|
skip_mode
Gerekli
|
Dosyalardan okurken satırların nasıl atlandığı denetler. |
|
comment
Gerekli
|
Okunan dosyalardaki açıklama satırlarını belirtmek için kullanılan karakter. Bu dizeyle başlayan satırlar atlanır. |
|
include_path
Gerekli
|
Verilerin okunduğu dosyanın yolunu içeren bir sütun eklenip eklenmeyeceği. Bu, birden çok dosya okurken ve belirli bir kaydın kaynağı olan dosyayı öğrenmek veya dosya yolunda yararlı bilgileri tutmak istediğinizde yararlıdır. |
|
archive_options
Gerekli
|
<xref:azureml.dataprep.ArchiveOptions>
Arşiv türü ve giriş glob deseni de dahil olmak üzere arşiv dosyası seçenekleri. Şu anda yalnızca zip'i arşiv türü olarak destekliyoruz. Örneğin,
ZIP'te adı "10-20.csv" ile biten tüm dosyaları okur. |
|
partition_format
Gerekli
|
Yolda bölüm biçimini belirtin ve '{x}' biçiminden ve '{x:yyyy/MM/dd/HH/mm/ss}' biçimindeki tarih saat sütunundan dize sütunları oluşturun; burada 'yyyy', 'MM', 'dd', 'HH', 'mm' ve 'ss' tarih saat türü için fazladan yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.csv'data.csv; burada veriler bölüm adı ve saate göre bölümleniyor, dize türünde 'Department' ve datetime türünde 'PartitionDate' sütunlarını oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' tanımlayabiliriz. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi nesnesi. |
Açıklamalar
Kullanılan seçenekleri denetlemek istediğinizde sınırlandırılmış metin dosyalarını okumak için bu yöntemi kullanın.
Veri Kümesi oluşturduktan sonra, her sütun için algılanan sütun türlerini ve özet istatistikleri listelemek için komutunu kullanmalısınız get_profile .
Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.
from_excel_files
Excel dosyalarından kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Parametreler
| Name | Description |
|---|---|
|
path
Gerekli
|
DataReference veya
str
Kayıtlı bir veri deposundaki veya yerel bir yoldaki veri yolu. |
|
sheet_name
Gerekli
|
Yüklenecek Excel sayfasının adı. Varsayılan olarak her Excel dosyasından ilk sayfayı okuruz. |
|
use_column_headers
Gerekli
|
İlk satırın sütun başlığı olarak kullanılıp kullanılmayacağını denetler. |
|
skip_rows
Gerekli
|
Okunan dosyalarda kaç satırın atlandığı. |
|
include_path
Gerekli
|
Verilerin okunduğu dosyanın yolunu içeren bir sütun eklenip eklenmeyeceği. Bu, birden çok dosya okurken ve belirli bir kaydın kaynağı olan dosyayı öğrenmek veya dosya yolunda yararlı bilgileri tutmak istediğinizde yararlıdır. |
|
infer_column_types
Gerekli
|
True ise, sütun veri türleri çıkarılır. |
|
partition_format
Gerekli
|
Yolda bölüm biçimini belirtin ve '{x}' biçiminden ve '{x:yyyy/MM/dd/HH/mm/ss}' biçimindeki tarih saat sütunundan dize sütunları oluşturun; burada 'yyyy', 'MM', 'dd', 'HH', 'mm' ve 'ss' tarih saat türü için fazladan yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.xlsx'data.xlsx; burada veriler bölüm adı ve saate göre bölümleniyor, dize türünde 'Department' ve datetime türünde 'PartitionDate' sütunlarını oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' tanımlayabiliriz. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi nesnesi. |
Açıklamalar
Excel dosyalarını .xlsx biçimde okumak için bu yöntemi kullanın. Veriler her Excel dosyasındaki bir sayfadan okunabilir. Veri Kümesi oluşturduktan sonra, her sütun için algılanan sütun türlerini ve özet istatistikleri listelemek için komutunu kullanmalısınız get_profile . Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.
from_json_files
JSON dosyalarından kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
JSON satırları dosyasından okumak için bunun yerine Dataset.Tabular.from_json_lines_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Parametreler
| Name | Description |
|---|---|
|
path
Gerekli
|
DataReference veya
str
Yüklemek ve ayrıştırmak istediğiniz dosya veya klasörün yolu. Yerel bir yol veya Azure Blob URL'si olabilir. Globbing desteklenir. Örneğin, "data" ile başlayan adla tüm dosyaları okumak için path = "./data*" kullanabilirsiniz. |
|
encoding
Gerekli
|
Okunan dosyaların kodlaması. |
|
flatten_nested_arrays
Gerekli
|
Programın iç içe dizileri işlemesini denetleye özellik. İç içe JSON dizilerini düzleştirmeyi seçerseniz, çok daha fazla sayıda satıra neden olabilir. |
|
include_path
Gerekli
|
Verilerin okunduğu yolu içeren bir sütun eklenip eklenmeyeceği. Bu, birden çok dosya okurken yararlıdır ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya dosya yolunda yararlı bilgileri tutmak isteyebilirsiniz. |
|
partition_format
Gerekli
|
Yolda bölüm biçimini belirtin ve '{x}' biçiminden ve '{x:yyyy/MM/dd/HH/mm/ss}' biçimindeki tarih saat sütunundan dize sütunları oluşturun; burada 'yyyy', 'MM', 'dd', 'HH', 'mm' ve 'ss' tarih saat türü için fazladan yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.jsonve veriler bölüm adı ve saatlerine göre bölümlendi, dize türünde 'Department' ve datetime türünde 'PartitionDate' sütunlarını oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' tanımlayabiliriz. |
Döndürülenler
| Tür | Description |
|---|---|
|
Yerel Veri Kümesi nesnesi. |
from_pandas_dataframe
Pandas veri çerçevesinden kayıtlı olmayan, bellek içi bir Veri Kümesi oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Bunun yerine Dataset.Tabular.register_pandas_dataframe kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Parametreler
| Name | Description |
|---|---|
|
dataframe
Gerekli
|
Pandas Veri Çerçevesi. |
|
path
Gerekli
|
Kayıtlı veri deposundaki veya yerel klasör yolundaki bir veri yolu. |
|
in_memory
Gerekli
|
Diskte kalıcı hale getirmek yerine DataFrame'in bellekten okunup okunmayacağı. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi nesnesi. |
Açıklamalar
Pandas veri çerçevesini Bir Dataset nesnesine dönüştürmek için bu yöntemi kullanın. Veriler bellekten olduğundan, bu yöntem tarafından oluşturulan veri kümesi kaydedilemez.
False ise in_memory , Pandas DataFrame yerel olarak bir CSV dosyasına dönüştürülür. DataReference türündeyse pat Pandas çerçevesi veri deposuna yüklenir ve Veri Kümesi DataReference'ı temel alır. ''path' yerel bir klasörse, Veri Kümesi silinemeyen yerel dosyadan oluşturulur.
Geçerli DataReference bir klasör yolu değilse bir özel durum oluşturur.
from_parquet_files
Parquet dosyalarından kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Bunun yerine Dataset.Tabular.from_parquet_files kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Parametreler
| Name | Description |
|---|---|
|
path
Gerekli
|
DataReference veya
str
Kayıtlı bir veri deposundaki veya yerel bir yoldaki veri yolu. |
|
include_path
Gerekli
|
Verilerin okunduğu dosyanın yolunu içeren bir sütun eklenip eklenmeyeceği. Bu, birden çok dosya okurken ve belirli bir kaydın kaynağı olan dosyayı öğrenmek veya dosya yolunda yararlı bilgileri tutmak istediğinizde yararlıdır. |
|
partition_format
Gerekli
|
Yolda bölüm biçimini belirtin ve '{x}' biçiminden ve '{x:yyyy/MM/dd/HH/mm/ss}' biçimindeki tarih saat sütunundan dize sütunları oluşturun; burada 'yyyy', 'MM', 'dd', 'HH', 'mm' ve 'ss' tarih saat türü için fazladan yıl, ay, gün, saat, dakika ve saniye için kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.parquet' burada veriler bölüm adı ve saatlerine göre bölümlenmiştir. Dize türünde 'Bölüm' ve tarih saat türünde 'BölümTarihi' sütunları oluşturmak için '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' tanımlayabiliriz. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi nesnesi. |
Açıklamalar
Parquet dosyalarını okumak için bu yöntemi kullanın.
Veri Kümesi oluşturduktan sonra, her sütun için algılanan sütun türlerini ve özet istatistikleri listelemek için komutunu kullanmalısınız get_profile .
Döndürülen Veri Kümesi çalışma alanına kaydedilmedi.
from_sql_query
SQL sorgusundan kaydedilmemiş, bellek içi bir Veri Kümesi oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Bunun yerine Dataset.Tabular.from_sql_query kullanmanızı öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Parametreler
| Name | Description |
|---|---|
|
data_source
Gerekli
|
Azure SQL veri deposunun ayrıntıları. |
|
query
Gerekli
|
Verileri okumak için yürütülecek sorgu. |
Döndürülenler
| Tür | Description |
|---|---|
|
Yerel Veri Kümesi nesnesi. |
generate_profile
Veri Kümesi için yeni profil oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Parametreler
| Name | Description |
|---|---|
|
compute_target
Gerekli
|
Anlık görüntü profili oluşturmayı gerçekleştirmek için isteğe bağlı bir işlem hedefi. Belirtilmezse, yerel işlem kullanılır. |
|
workspace
Gerekli
|
Geçici (kayıtlı olmayan) Veri Kümeleri için gereken çalışma alanı. |
|
arguments
Gerekli
|
Profil bağımsız değişkenleri. Geçerli bağımsız değişkenler şunlardır:
|
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi eylemi çalıştırma nesnesi. |
Açıklamalar
Zaman uyumlu çağrı, tamamlanana kadar engellenir. Eylemin sonucunu almak için çağrısı get_result .
get
Adını veya kimliğini belirterek çalışma alanında zaten var olan bir Veri Kümesini alın.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
bunun yerine ve'i get_by_name kullanmanızı get_by_id öneririz. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Parametreler
| Name | Description |
|---|---|
|
workspace
Gerekli
|
Veri Kümesinin oluşturulduğu mevcut AzureML çalışma alanı. |
|
name
Gerekli
|
Alınacak Veri Kümesinin adı. |
|
id
Gerekli
|
Çalışma alanındaki Veri Kümesinin benzersiz tanımlayıcısı. |
Döndürülenler
| Tür | Description |
|---|---|
|
Belirtilen ada veya kimliğine sahip Veri Kümesi. |
Açıklamalar
veya namesağlayabilirsinizid. Şu durumlarda bir özel durum oluşur:
hem hem de
nameidbelirtilir ancak eşleşmiyor.belirtilen
nameveyaidile veri kümesi çalışma alanında bulunamıyor.
get_all
Çalışma alanındaki tüm kayıtlı veri kümelerini alın.
get_all()
Parametreler
| Name | Description |
|---|---|
|
workspace
Gerekli
|
Veri Kümelerinin kaydedildiği mevcut AzureML çalışma alanı. |
Döndürülenler
| Tür | Description |
|---|---|
|
Kayıt adıyla anahtarlanan TabularDataset ve FileDataset nesnelerinin sözlüğü. |
get_all_snapshots
Veri Kümesinin tüm anlık görüntülerini alın.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
get_all_snapshots()
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi anlık görüntülerinin listesi. |
get_by_id
Çalışma alanına kaydedilen bir Veri Kümesi alın.
get_by_id(id, **kwargs)
Parametreler
| Name | Description |
|---|---|
|
workspace
Gerekli
|
Veri Kümesinin kaydedildiği mevcut AzureML çalışma alanı. |
|
id
Gerekli
|
Veri kümesinin kimliği. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi nesnesi. Veri kümesi kayıtlıysa, kayıt adı ve sürümü de döndürülür. |
get_by_name
Kayıt adına göre çalışma alanından kayıtlı bir Veri Kümesi alın.
get_by_name(name, version='latest', **kwargs)
Parametreler
| Name | Description |
|---|---|
|
workspace
Gerekli
|
Veri Kümesinin kaydedildiği mevcut AzureML çalışma alanı. |
|
name
Gerekli
|
Kayıt adı. |
|
version
Gerekli
|
Kayıt sürümü. Varsayılan olarak 'en son' olarak gösterilir. |
Döndürülenler
| Tür | Description |
|---|---|
|
Kayıtlı veri kümesi nesnesi. |
get_definition
Veri Kümesinin belirli bir tanımını alın.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Parametreler
| Name | Description |
|---|---|
|
version_id
Gerekli
|
Veri Kümesi tanımının sürüm kimliği |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi tanımı. |
Açıklamalar
Sağlanırsa version_id Azure Machine Learning bu sürüme karşılık gelen tanımı almaya çalışır. Bu sürüm yoksa, bir özel durum oluşturulur.
Atlanırsa version_id en son sürüm alınır.
get_definitions
Veri Kümesinin tüm tanımlarını alın.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
get_definitions()
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi tanımları sözlüğü. |
Açıklamalar
AzureML çalışma alanına kayıtlı bir Veri kümesinde, her birinin çağrılarak update_definitionoluşturulan birden çok tanımı olabilir. Her tanımın benzersiz bir tanımlayıcısı vardır. Geçerli tanım, oluşturulan en son tanımdır.
Kayıtlı olmayan Veri Kümeleri için yalnızca bir tanım vardır.
get_profile
Daha önce hesaplanan Veri Kümesiyle ilgili özet istatistikleri alın.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Parametreler
| Name | Description |
|---|---|
|
arguments
Gerekli
|
Profil bağımsız değişkenleri. |
|
generate_if_not_exist
Gerekli
|
Yoksa profil oluşturulup oluşturulmayacağını gösterir. |
|
workspace
Gerekli
|
Geçici (kayıtlı olmayan) Veri Kümeleri için gereken çalışma alanı. |
|
compute_target
Gerekli
|
Profil eylemini yürütmek için bir işlem hedefi. |
Döndürülenler
| Tür | Description |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
Veri Kümesinin DataProfile'i. |
Açıklamalar
Azure Machine Learning çalışma alanına kayıtlı bir Veri Kümesi için bu yöntem, hala geçerliyse çağırarak get_profile daha önce oluşturulmuş mevcut bir profili alır. Veri kümesinde değiştirilen veriler algılandığında profiller geçersiz kılınıyor veya için bağımsız değişkenler get_profile profil oluşturulurken kullanılanlardan farklı. Profil yoksa veya geçersiz kılındıysa, generate_if_not_exist yeni bir profil oluşturulacağını belirler.
Azure Machine Learning çalışma alanına kayıtlı olmayan bir Veri Kümesi için bu yöntem her zaman çalışır generate_profile ve sonucu döndürür.
get_snapshot
Ada göre Veri Kümesinin anlık görüntüsünü alın.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Parametreler
| Name | Description |
|---|---|
|
snapshot_name
Gerekli
|
Anlık görüntü adı. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi anlık görüntüsü nesnesi. |
head
Bu Veri Kümesinden belirtilen kayıt sayısını çekin ve bunları DataFrame olarak döndürür.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
head(count)
Parametreler
| Name | Description |
|---|---|
|
count
Gerekli
|
Çekecek kayıt sayısı. |
Döndürülenler
| Tür | Description |
|---|---|
|
A Pandas DataFrame. |
list
Özelliği False'a eşit olanlar da dahil olmak üzere çalışma alanındaki tüm Veri Kümelerini is_visible listeleyin.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Bunun yerine kullanılması get_all önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
static list(workspace)
Parametreler
| Name | Description |
|---|---|
|
workspace
Gerekli
|
Veri Kümeleri listesini almak istediğiniz çalışma alanı. |
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi nesnelerinin listesi. |
reactivate
Arşivlenmiş veya kullanım dışı bırakılmış bir veri kümesini yeniden etkinleştirme.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
reactivate()
Döndürülenler
| Tür | Description |
|---|---|
|
Yok. |
register
Veri Kümesini çalışma alanına kaydederek çalışma alanının diğer kullanıcılarının kullanımına açın.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Bunun yerine kullanılması register önerilir. Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Parametreler
| Name | Description |
|---|---|
|
workspace
Gerekli
|
Veri kümesinin kaydedildiği AzureML çalışma alanı. |
|
name
Gerekli
|
Çalışma alanındaki Veri Kümesinin adı. |
|
description
Gerekli
|
Veri Kümesinin açıklaması. |
|
tags
Gerekli
|
Veri Kümesi ile ilişkilendirilecek etiketler. |
|
visible
Gerekli
|
Veri Kümesinin kullanıcı arabiriminde görünür olup olmadığını gösterir. False ise Veri Kümesi kullanıcı arabiriminde gizlenir ve SDK aracılığıyla kullanılabilir. |
|
exist_ok
Gerekli
|
True ise, yöntem veri kümesi verilen çalışma alanında zaten varsa veri kümesini döndürür, aksi takdirde hata. |
|
update_if_exist
Gerekli
|
|
Döndürülenler
| Tür | Description |
|---|---|
|
Çalışma alanında kayıtlı bir Veri Kümesi nesnesi. |
sample
Sağlanan örnekleme stratejisini ve parametreleri kullanarak kaynak Veri Kümesinden yeni bir örnek oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın take_sample . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Parametreler
| Name | Description |
|---|---|
|
sample_strategy
Gerekli
|
Kullanılacak örnek strateji. Kabul edilen değerler "top_n", "simple_random" veya "katmanlı" değerlerdir. |
|
arguments
Gerekli
|
Yukarıda gösterilen listede "İsteğe bağlı bağımsız değişkenden" anahtarlar ve tye "Type" sütunundan değerler içeren bir sözlük. Yalnızca ilgili örnekleme yönteminden bağımsız değişkenler kullanılabilir. Örneğin, "simple_random" örnek türü için yalnızca "olasılık" ve "tohum" anahtarlarıyla bir sözlük belirtebilirsiniz. |
Döndürülenler
| Tür | Description |
|---|---|
|
Özgün veri kümesinin bir örneği olarak veri kümesi nesnesi. |
Açıklamalar
Örnekler, bu Veri Kümesi tarafından tanımlanan dönüştürme işlem hattı yürütülerek ve ardından çıktı verilerine örnekleme stratejisi ve parametreleri uygulanarak oluşturulur. Her örnekleme yöntemi aşağıdaki isteğe bağlı bağımsız değişkenleri destekler:
top_n
İsteğe bağlı bağımsız değişkenler
- n, tamsayı yazın. Örneğiniz olarak ilk N satırı seçin.
simple_random
İsteğe bağlı bağımsız değişkenler
olasılık, float yazın. Her satırın seçilme olasılığı eşit olan basit rastgele örnekleme. Olasılık 0 ile 1 arasında bir sayı olmalıdır.
seed, float yazın. Rastgele sayı oluşturucu tarafından kullanılır. Tekrarlanabilirlik için kullanın.
Tabakalı
İsteğe bağlı bağımsız değişkenler
sütunlarını seçin, list[str] yazın. Verilerdeki katman sütunlarının listesi.
seed, float yazın. Rastgele sayı oluşturucu tarafından kullanılır. Tekrarlanabilirlik için kullanın.
kesirler, dict[tanımlama grubu, float] yazın. Tanımlama grubu: Katman tanımlayan sütun değerleri, sütun adlarıyla aynı sırada olmalıdır. Float: Örnekleme sırasında bir katmana bağlı ağırlık.
Aşağıdaki kod parçacıkları, farklı örnek yöntemler için örnek tasarım desenleridir.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Bu Veri Kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürüterek bir Pandas veri çerçevesi oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın to_pandas_dataframe . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Döndürülenler
| Tür | Description |
|---|---|
|
A Pandas DataFrame. |
Açıklamalar
Tam olarak bellekte gerçekleştirilmiş bir Pandas DataFrame döndürür.
to_spark_dataframe
Bu Veri Kümesi tanımı tarafından tanımlanan dönüştürme işlem hattını yürütebilen bir Spark DataFrame oluşturun.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Dataset.Tabular üzerindeki statik yöntemleri çağırarak bir TabularDataset oluşturun ve yöntemini orada kullanın to_spark_dataframe . Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Döndürülenler
| Tür | Description |
|---|---|
|
A Spark DataFrame. |
Açıklamalar
Döndürülen Spark Veri Çerçevesi yalnızca bir yürütme planıdır ve Spark Veri Çerçeveleri gevşek bir şekilde değerlendirildiğinden aslında herhangi bir veri içermez.
update
Çalışma alanındaki Veri kümesi değiştirilebilir özniteliklerini güncelleştirin ve çalışma alanından güncelleştirilmiş Veri Kümesini döndürin.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Parametreler
| Name | Description |
|---|---|
|
name
Gerekli
|
Çalışma alanındaki Veri Kümesinin adı. |
|
description
Gerekli
|
Verilerin açıklaması. |
|
tags
Gerekli
|
Veri Kümesini ilişkilendirilecek etiketler. |
|
visible
Gerekli
|
Veri Kümesinin kullanıcı arabiriminde görünür olup olmadığını gösterir. |
Döndürülenler
| Tür | Description |
|---|---|
|
Çalışma alanından güncelleştirilmiş bir Veri Kümesi nesnesi. |
update_definition
Veri kümesi tanımını güncelleştirin.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Parametreler
| Name | Description |
|---|---|
|
definition
Gerekli
|
Bu Veri Kümesinin yeni tanımı. |
|
definition_update_message
Gerekli
|
Tanım güncelleştirme iletisi. |
Döndürülenler
| Tür | Description |
|---|---|
|
Çalışma alanından güncelleştirilmiş bir Veri Kümesi nesnesi. |
Açıklamalar
Güncelleştirilmiş Veri Kümesini kullanmak için bu yöntem tarafından döndürülen nesneyi kullanın.
Öznitelikler
definition
Geçerli Veri Kümesi tanımını döndürür.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi tanımı. |
Açıklamalar
Veri kümesi tanımı, verilerin nasıl okunacağını ve dönüştürüleceğini belirten bir dizi adımdır.
AzureML çalışma alanına kayıtlı bir Veri kümesinde, her birinin çağrılarak update_definitionoluşturulan birden çok tanımı olabilir. Her tanımın benzersiz bir tanımlayıcısı vardır. Birden çok tanıma sahip olmak, eski tanıma bağlı modelleri ve işlem hatlarını bozmadan mevcut Veri Kümelerinde değişiklik yapmanıza olanak tanır.
Kayıtlı olmayan Veri Kümeleri için yalnızca bir tanım vardır.
definition_version
Veri Kümesinin geçerli tanımının sürümünü döndürür.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi tanımı sürümü. |
Açıklamalar
Veri kümesi tanımı, verilerin nasıl okunacağını ve dönüştürüleceğini belirten bir dizi adımdır.
AzureML çalışma alanına kayıtlı bir Veri kümesinde, her birinin çağrılarak update_definitionoluşturulan birden çok tanımı olabilir. Her tanımın benzersiz bir tanımlayıcısı vardır. Geçerli tanım, kimliği bu tarafından döndürülen en son oluşturulan tanımdır.
Kayıtlı olmayan Veri Kümeleri için yalnızca bir tanım vardır.
description
Veri Kümesinin açıklamasını döndür.
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi açıklaması. |
Açıklamalar
Veri Kümesindeki verilerin açıklamasının belirtilmesi, çalışma alanı kullanıcılarının verilerin neyi temsil ettiği ve bunları nasıl kullanabileceğini anlamasına olanak tanır.
id
Veri Kümesi bir çalışma alanına kaydedildiyse Veri Kümesinin kimliğini döndürür. Aksi takdirde Hiçbiri'ne dönün.
Döndürülenler
| Tür | Description |
|---|---|
|
Veri Kümesi Kimliği. |
is_visible
Azure ML çalışma alanı kullanıcı arabiriminde kayıtlı veri kümesinin görünürlüğünü denetleyin.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi görünürlüğü. |
Açıklamalar
Döndürülen değerler:
Doğru: Veri kümesi çalışma alanı kullanıcı arabiriminde görünür. Varsayılan.
Yanlış: Veri kümesi çalışma alanı kullanıcı arabiriminde gizlidir.
Kayıtlı olmayan Veri Kümeleri üzerinde hiçbir etkisi yoktur.
name
state
Veri Kümesinin durumunu döndürür.
Uyarı
Bu yöntem kullanım dışıdır ve artık desteklenmeyecektir.
Daha fazla bilgi için bkz. https://aka.ms/dataset-deprecation.
Döndürülenler
| Tür | Description |
|---|---|
|
Veri kümesi durumu. |
Açıklamalar
Durumların anlamı ve etkisi aşağıdaki gibidir:
Etkin. Etkin tanımlar tam olarak göründüğü gibidir, tüm eylemler etkin tanımlar üzerinde gerçekleştirilebilir.
Kullanımdan kaldırıldı. kullanım dışı bırakılmış tanım kullanılabilir, ancak temel alınan verilere her erişildiğinde günlüklerde bir uyarının günlüğe kaydedilmesine neden olur.
Arşivlenmiş. Arşivlenmiş bir tanım herhangi bir eylem gerçekleştirmek için kullanılamaz. Arşivlenmiş bir tanımda eylem gerçekleştirmek için yeniden etkinleştirilmesi gerekir.
tags
workspace
Veri Kümesi bir çalışma alanına kaydedildiyse, bunu döndürebilirsiniz. Aksi takdirde Hiçbiri'ne dönün.
Döndürülenler
| Tür | Description |
|---|---|
|
Çalışma alanı. |
Tabular
Oluşturmak için fabrika FileDataset
diğer adı TabularDatasetFactory