TabularDatasetFactory Sınıf
Azure Machine Learning için tablosal veri kümesi oluşturma yöntemlerini içerir.
TabularDataset, bu sınıftaki from_*
yöntemler kullanılarak oluşturulur, örneğin yöntemifrom_delimited_files.
Tablosal veri kümeleriyle çalışma hakkında daha fazla bilgi için not defterine https://aka.ms/tabulardataset-samplenotebookbakın.
- Devralma
-
builtins.objectTabularDatasetFactory
Oluşturucu
TabularDatasetFactory()
Yöntemler
from_delimited_files |
Sınırlandırılmış dosyalarda (e.g. CSV ve TSV) tablo verilerini göstermek için bir TabularDataset oluşturun. |
from_json_lines_files |
JSON Satırları dosyalarındaki tablosal verileri temsil eden bir TabularDataset oluşturun (http://jsonlines.org/). |
from_parquet_files |
Parquet dosyalarındaki tablo verilerini temsil eden bir TabularDataset oluşturun. |
from_sql_query |
SQL veritabanlarındaki tablo verilerini temsil eden bir TabularDataset oluşturun. |
register_dask_dataframe |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. dask dataframe'den bir veri kümesi oluşturun. |
register_pandas_dataframe |
pandas veri çerçevesinden bir veri kümesi oluşturun. |
register_spark_dataframe |
Not Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental. Spark veri çerçevesinden bir veri kümesi oluşturun. |
from_delimited_files
Sınırlandırılmış dosyalarda (e.g. CSV ve TSV) tablo verilerini göstermek için bir TabularDataset oluşturun.
static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')
Parametreler
Name | Description |
---|---|
path
Gerekli
|
|
validate
Gerekli
|
Döndürülen veri kümesinden veri yüklenip yüklenmediğini doğrulamak için Boole değeri. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. Doğrulamayı devre dışı bırakmak için "infer_column_types" değerinin de False olarak ayarlanması gerekir. |
include_path
Gerekli
|
Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır. |
infer_column_types
Gerekli
|
Sütun veri türlerini çıkarsamak için Boole değeri. Varsayılan değer True'dır. Tür çıkarımı, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. Şu anda tür çıkarımı yalnızca ilk 200 satırı çeker. Veriler birden çok değer türü içeriyorsa, set_column_types bağımsız değişkeni aracılığıyla istenen türü geçersiz kılma olarak sağlamak daha iyidir. set_column_types hakkında kod örnekleri için lütfen Açıklamalar bölümüne bakın. |
set_column_types
Gerekli
|
Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType. |
separator
Gerekli
|
Sütunları bölmek için kullanılan ayırıcı. |
header
Gerekli
|
Dosyalardan okurken sütun üst bilgilerinin nasıl yükseltilir olduğunu denetler. Aynı üst bilgisine sahip tüm dosyalar için varsayılan değer True'dır. Dosyalar üst bilgi olmadan okunacak When header=False. enum değeri PromoteHeadersBehaviorkullanılarak daha fazla seçenek belirtilebilir. |
partition_format
Gerekli
|
Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.csv'; burada bölüm bölüm adına ve saat değerine göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv', 'Accounts' değeriyle 'Department' dize sütunu ve 'PartitionDate' değeri '2019-01-01' olan bir tarih saat sütunu oluşturur. |
support_multi_line
Gerekli
|
Varsayılan olarak (support_multi_line=Yanlış), tırnak içindeki alan değerleri dahil olmak üzere tüm satır sonları kayıt sonu olarak yorumlanır. Verileri bu şekilde okumak, birden çok CPU çekirdeğinde paralel yürütme için daha hızlı ve daha iyileştirilmiştir. Ancak, yanlış hizalanmış alan değerlerine sahip daha fazla kaydın sessizce üretilmesine neden olabilir. Sınırlandırılmış dosyaların tırnak içine alınmış satır sonları içerdiği biliniyorsa, bu True olarak ayarlanmalıdır. Örnek olarak bu csv dosyası göz önüne alındığında, veriler support_multi_line göre farklı şekilde okunur. A,B,C A1,B1,C1 A2,"B 2",C2
|
empty_as_string
Gerekli
|
Boş alan değerlerinin boş dizeler olarak yüklenip yüklenmeyeceğini belirtin. Varsayılan (Yanlış) boş alan değerlerini null olarak okur. Bunu True olarak geçirmek boş alan değerlerini boş dizeler olarak okur. Değerler sayısal veya tarih saatine dönüştürülürse, boş değerler null değerlere dönüştürüleceğinden bunun bir etkisi olmaz. |
encoding
Gerekli
|
Dosya kodlamasını belirtin. Desteklenen kodlamalar şunlardır: 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' ve 'windows1252' |
Döndürülenler
Tür | Description |
---|---|
Döndürür bir TabularDataset nesne. |
Açıklamalar
from_delimited_files , sınırlandırılmış dosyalardan tablosal gösterime veri yükleme işlemlerini tanımlayan bir sınıf nesnesi TabularDataset oluşturur.
Verilerin Azure Machine Learning tarafından erişilebilir olması için , yol tarafından belirtilen sınırlandırılmış dosyaların Blob, ADLS 1. Nesil ve ADLS 2. Nesil'in genel web url'lerinde veya url'lerinde veya url'lerinde veya arkasında bulunması Datastore gerekir. kullanıcıların AAD belirteci, doğrudan şu işlevlerden birini çağırırsa not defterinde veya yerel Python programında kullanılır: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files işlem hedefinin kimliği, veri erişimi kimlik doğrulaması için Experiment.submit tarafından gönderilen işlerde kullanılır. Daha fazla bilgi edinin: https://aka.ms/data-access
Sütun veri türleri, sınırlandırılmış dosyalardaki verilerden varsayılan olarak çıkarılır. set_column_types sağlanması, döndürülen TabularDataset içindeki belirtilen sütunlar için veri türünü geçersiz kılar.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))
# create tabular dataset from all csv files in the directory
tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.csv',
'https://url/weather/2018/12.csv'
]
tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)
from_json_lines_files
JSON Satırları dosyalarındaki tablosal verileri temsil eden bir TabularDataset oluşturun (http://jsonlines.org/).
static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')
Parametreler
Name | Description |
---|---|
path
Gerekli
|
|
validate
Gerekli
|
Döndürülen veri kümesinden veri yüklenip yüklenmediğini doğrulamak için Boole değeri. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
include_path
Gerekli
|
Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır. |
set_column_types
Gerekli
|
Anahtar sütun adı ve değer olan sütun veri türünü ayarlamak için bir sözlük DataType |
partition_format
Gerekli
|
Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.jsonl' bölümünde bölüm adı ve zamanına göre, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' değeri 'Accounts' olan bir 'Department' dize sütunu ve '2019-01-01' değeriyle 'PartitionDate' tarih saat sütunu oluşturur. |
invalid_lines
Gerekli
|
Geçersiz JSON olan satırları işleme. Desteklenen değerler 'error' ve 'drop' değerleridir. |
encoding
Gerekli
|
Dosya kodlamasını belirtin. Desteklenen kodlamalar şunlardır: 'utf8', 'iso88591', 'latin1', 'ascii', 'utf16', 'utf32', 'utf8bom' ve 'windows1252' |
Döndürülenler
Tür | Description |
---|---|
Döndürür bir TabularDataset nesne. |
Açıklamalar
from_json_lines_files , JSON Satırları dosyalarından tablosal gösterime veri yükleme işlemlerini tanımlayan bir sınıf nesnesi TabularDataset oluşturur.
Verilerin Azure Machine Learning tarafından erişilebilir olması için , yol tarafından belirtilen JSON Satırları dosyalarının blob, ADLS 1. Nesil ve ADLS 2. Nesil'in genel web url'lerinde veya url'lerinde veya arkasında bulunması Datastore gerekir. kullanıcıların AAD belirteci, doğrudan şu işlevlerden birini çağırırsa not defterinde veya yerel Python programında kullanılır: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files işlem hedefinin kimliği, veri erişimi kimlik doğrulaması için Experiment.submit tarafından gönderilen işlerde kullanılır. Daha fazla bilgi edinin: https://aka.ms/data-access
Sütun veri türleri, JSON Satırları dosyalarına kaydedilen veri türlerinden okunur. set_column_types sağlanması, döndürülen TabularDataset içindeki belirtilen sütunlar için veri türünü geçersiz kılar.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))
# create tabular dataset from all jsonl files in the directory
tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.jsonl',
'https://url/weather/2018/12.jsonl'
]
tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)
from_parquet_files
Parquet dosyalarındaki tablo verilerini temsil eden bir TabularDataset oluşturun.
static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)
Parametreler
Name | Description |
---|---|
path
Gerekli
|
|
validate
Gerekli
|
Döndürülen veri kümesinden veri yüklenip yüklenmediğini doğrulamak için Boole değeri. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
include_path
Gerekli
|
Veri kümesinde yol bilgilerini sütun olarak tutmak için Boole değeri. Varsayılan değer False'tur. Bu, birden çok dosyayı okurken ve belirli bir kaydın hangi dosyadan kaynaklandığını bilmek veya yararlı bilgileri dosya yolunda tutmak istediğinizde yararlıdır. |
set_column_types
Gerekli
|
Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType. |
partition_format
Gerekli
|
Yolun bölüm biçimini belirtin. Varsayılan değer Yok'tır. Her yolun bölüm bilgileri belirtilen biçime göre sütunlara ayıklanır. '{column_name}' biçim bölümü dize sütunu oluşturur ve '{column_name:yyyy/AA/GG/HH/aa/ss}' datetime sütunu oluşturur; burada tarih saat türü için yıl, ay, gün, saat, dakika ve saniyeyi ayıklamak için 'yyyy', 'MM', 'dd', 'SS', 'd' ve 'ss' kullanılır. Biçim, ilk bölüm anahtarının konumundan dosya yolunun sonuna kadar başlamalıdır. Örneğin, '.. /Accounts/2019/01/01/data.parquet' burada bölüm bölüm adı ve zamanına göre partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet', 'Accounts' değeriyle 'Department' dize sütunu ve '2019-01-01' değerine sahip bir tarih saat sütunu 'PartitionDate' oluşturur. |
Döndürülenler
Tür | Description |
---|---|
Döndürür bir TabularDataset nesne. |
Açıklamalar
from_parquet_files , Parquet dosyalarından tablosal gösterime veri yükleme işlemlerini tanımlayan bir sınıf nesnesi TabularDataset oluşturur.
Verilerin Azure Machine Learning tarafından erişilebilir olması için , yol tarafından belirtilen Parquet dosyalarının blob, ADLS 1. Nesil ve ADLS 2. Nesil'in genel web url'lerinde veya url'lerinde veya url'lerinde veya arkasında bulunması Datastore gerekir. kullanıcıların AAD belirteci, doğrudan şu işlevlerden birini çağırırsa not defterinde veya yerel Python programında kullanılır: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files işlem hedefinin kimliği, veri erişimi kimlik doğrulaması için Experiment.submit tarafından gönderilen işlerde kullanılır. Daha fazla bilgi edinin: https://aka.ms/data-access
Sütun veri türleri Parquet dosyalarına kaydedilen veri türlerinden okunur. set_column_types sağlanması, döndürülen TabularDataset içindeki belirtilen sütunlar için veri türünü geçersiz kılar.
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))
# create tabular dataset from all parquet files in the directory
tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.parquet',
'https://url/weather/2018/12.parquet'
]
tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)
from_sql_query
SQL veritabanlarındaki tablo verilerini temsil eden bir TabularDataset oluşturun.
static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)
Parametreler
Name | Description |
---|---|
query
Gerekli
|
SQL türünde bir veri deposu ve bir sorgu. |
validate
Gerekli
|
Döndürülen veri kümesinden veri yüklenip yüklenmediğini doğrulamak için Boole değeri. Varsayılan değer True'dır. Doğrulama, veri kaynağının geçerli işlemden erişilebilir olmasını gerektirir. |
set_column_types
Gerekli
|
Sütun veri türünü ayarlamak için bir sözlük; burada anahtar sütun adı, değer ise şeklindedir DataType. |
query_timeout
Gerekli
|
Komut yürütme girişimini sonlandırmadan ve hata oluşturmadan önce bekleme süresini (saniye cinsinden) ayarlar. Varsayılan değer 30 saniyedir. |
Döndürülenler
Tür | Description |
---|---|
Döndürür bir TabularDataset nesne. |
Açıklamalar
from_sql_query , SQL veritabanlarından tablosal gösterime veri yükleme işlemlerini tanımlayan bir sınıf nesnesi TabularDataset oluşturur. Şu anda yalnızca MSSQLDataSource'ı destekliyoruz.
Verilerin Azure Machine Learning tarafından erişilebilir olması için tarafından belirtilen query
SQL veritabanının içinde Datastore bulunması ve veri deposu türünün bir SQL türünde olması gerekir.
Sütun veri türleri SQL sorgu sonucundaki veri türlerinden okunur. sağlama, set_column_types
döndürülen TabularDataset içindeki belirtilen sütunlar için veri türünü geçersiz kılar.
from azureml.core import Dataset, Datastore
from azureml.data.datapath import DataPath
# create tabular dataset from a SQL database in datastore
datastore = Datastore.get(workspace, 'mssql')
query = DataPath(datastore, 'SELECT * FROM my_table')
tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
df = tabular.to_pandas_dataframe()
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)
register_dask_dataframe
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
dask dataframe'den bir veri kümesi oluşturun.
static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parametreler
Name | Description |
---|---|
dataframe
Gerekli
|
<xref:dask.dataframe.core.DataFrame>
Gerekli, karşıya yüklenecek dask veri çerçevesi. |
target
Gerekli
|
Gerekli, veri çerçevesi parke verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur. |
name
Gerekli
|
Gerekli, kayıtlı veri kümesinin adı. |
description
Gerekli
|
İsteğe bağlı. Veri kümesinin metin açıklaması. Varsayılan değer Yok'tır. |
tags
Gerekli
|
İsteğe bağlı. Veri kümesine vermek için anahtar değer etiketleri sözlüğü. Varsayılan değer Yok'tır. |
show_progress
Gerekli
|
İsteğe bağlı olarak, yüklemenin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur. |
Döndürülenler
Tür | Description |
---|---|
Kayıtlı veri kümesi. |
register_pandas_dataframe
pandas veri çerçevesinden bir veri kümesi oluşturun.
static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)
Parametreler
Name | Description |
---|---|
dataframe
Gerekli
|
Bellek veri çerçevesinin karşıya yüklenmesi gerekir. |
target
Gerekli
|
Gerekli, veri çerçevesi parke verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur. |
name
Gerekli
|
Gerekli, kayıtlı veri kümesinin adı. |
description
Gerekli
|
İsteğe bağlı. Veri kümesinin metin açıklaması. Varsayılan değer Yok'tır. |
tags
Gerekli
|
İsteğe bağlı. Veri kümesine vermek için anahtar değer etiketleri sözlüğü. Varsayılan değer Yok'tır. |
show_progress
Gerekli
|
İsteğe bağlı olarak, yüklemenin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur. |
row_group_size
Gerekli
|
İsteğe bağlı. Parquet dosyası yazarken kullanılacak en büyük satır grubu boyutu. Varsayılan değer Yok'tır. |
make_target_path_unique
Gerekli
|
İsteğe bağlı olarak, hedefte benzersiz alt klasörün oluşturulup oluşturulmayacağı gösterilir. Varsayılan değer True olur. |
Döndürülenler
Tür | Description |
---|---|
Kayıtlı veri kümesi. |
register_spark_dataframe
Not
Bu deneysel bir yöntemdir ve herhangi bir zamanda değişebilir. Daha fazla bilgi için lütfen bkz. https://aka.ms/azuremlexperimental.
Spark veri çerçevesinden bir veri kümesi oluşturun.
static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Parametreler
Name | Description |
---|---|
dataframe
Gerekli
|
Bellek veri çerçevesinin karşıya yüklenmesi gerekir. |
target
Gerekli
|
Gerekli, veri çerçevesi parke verilerinin yüklendiği veri deposu yolu. Çakışmayı önlemek için hedef yol altında bir guid klasörü oluşturulur. |
name
Gerekli
|
Gerekli, kayıtlı veri kümesinin adı. |
description
Gerekli
|
İsteğe bağlı. Veri kümesinin metin açıklaması. Varsayılan değer Yok'tır. |
tags
Gerekli
|
İsteğe bağlı. Veri kümesine vermek için anahtar değer etiketleri sözlüğü. Varsayılan değer Yok'tır. |
show_progress
Gerekli
|
İsteğe bağlı olarak, yüklemenin ilerleme durumunun konsolda gösterilip gösterilmeyeceğini gösterir. Varsayılan değer True olur. |
Döndürülenler
Tür | Description |
---|---|
Kayıtlı veri kümesi. |