TabularDatasetFactory Osztály
Táblázatos adathalmaz azure machine learninghez való létrehozásának módszereit tartalmazza.
Az A TabularDataset az osztály metódusainak from_*
használatával jön létre, például a metódussal from_delimited_files.
A táblázatos adathalmazok használatával kapcsolatos további információkért tekintse meg a jegyzetfüzetet https://aka.ms/tabulardataset-samplenotebook.
- Öröklődés
-
builtins.objectTabularDatasetFactory
Konstruktor
TabularDatasetFactory()
Metódusok
from_delimited_files |
Hozzon létre egy TabularDataset halmazt, amely tagolt fájlokban (e.g. CSV és TSV-ben) jeleníti meg a táblázatos adatokat. |
from_json_lines_files |
Hozzon létre egy TabularDataset elemet, amely táblázatos adatokat jelöl JSON Lines-fájlokban (http://jsonlines.org/). |
from_parquet_files |
Hozzon létre egy TabularDataset elemet a Parquet-fájlok táblázatos adatainak megjelenítéséhez. |
from_sql_query |
Hozzon létre egy TabularDataset elemet az SQL-adatbázisok táblázatos adatainak megjelenítéséhez. |
register_dask_dataframe |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Hozzon létre egy adatkészletet a Dask-adatkeretből. |
register_pandas_dataframe |
Hozzon létre egy adatkészletet a pandas-adatkeretből. |
register_spark_dataframe |
Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Adathalmaz létrehozása Spark-adatkeretből. |
from_delimited_files
Hozzon létre egy TabularDataset halmazt, amely tagolt fájlokban (e.g. CSV és TSV-ben) jeleníti meg a táblázatos adatokat.
static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
|
validate
Kötelező
|
Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. Az ellenőrzés letiltásához a "infer_column_types" értékét is False (Hamis) értékre kell állítani. |
include_path
Kötelező
|
Logikai érték, amely az adathalmaz oszlopaként tárolja az elérésiút-információkat. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján. |
infer_column_types
Kötelező
|
Logikai érték az oszlop adattípusaiból való következtetéshez. Alapértelmezés szerint Igaz. A típuskövetkeztetés megköveteli, hogy az adatforrás elérhető legyen az aktuális számításból. A típuskövetkeztetés jelenleg csak az első 200 sort fogja lekérni. Ha az adatok több típusú értéket tartalmaznak, érdemesebb a kívánt típust felülbírálásként megadni set_column_types argumentumon keresztül. Az set_column_types kapcsolatos kódmintákért tekintse meg a Megjegyzések szakaszt. |
set_column_types
Kötelező
|
Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév, az érték pedig DataType. |
separator
Kötelező
|
Az oszlopok felosztásához használt elválasztó. |
header
Kötelező
|
Az oszlopfejlécek előléptetését szabályozza a fájlokból való olvasáskor. Alapértelmezés szerint Igaz értékre van adva az azonos fejlécet tartalmazó összes fájl esetében. A fájlok úgy lesznek beolvasva, hogy nincs fejléc, amikor fejléc=Hamis. További lehetőségek a számértékével PromoteHeadersBehavioradhatók meg. |
partition_format
Kötelező
|
Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióinformációi a megadott formátum alapján oszlopokba lesznek bontva. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", "MM", "dd", "HH", "mm" és "ss" értékek a dátum/idő típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgálnak. A formátumnak az első partíciókulcs helyétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.csv" ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" létrehoz egy "Department" sztringoszlopot az "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel. |
support_multi_line
Kötelező
|
Alapértelmezés szerint (support_multi_line=Hamis) az összes sortörés, beleértve az idézőjeles mezőértékeket is, rekordtörésként lesz értelmezve. Az adatok ily módon történő olvasása gyorsabb és optimalizáltabb a párhuzamos végrehajtáshoz több CPU-magon. Ez azonban azt eredményezheti, hogy csendesen több rekordot hoz létre helytelenül értelmezett mezőértékekkel. Ezt Igaz értékre kell állítani, ha a tagolt fájlok ismerten idézőjeles sortöréseket tartalmaznak. Ennek a CSV-fájlnak a példáját tekintve az adatok másként lesznek beolvasva a support_multi_line alapján. A,B,C A1,B1,C1 A2,"B 2",C2
|
empty_as_string
Kötelező
|
Adja meg, hogy az üres mezőértékeket üres sztringként kell-e betölteni. Az alapértelmezett (Hamis) üres mezőértékeket fog null értékként olvasni. Ha ezt Igaz értékként adja meg, az üres mezőértékeket üres sztringekként olvassa be. Ha az értékeket numerikusra vagy datetime-ra konvertálja, annak nincs hatása, mivel az üres értékek null értékké lesznek konvertálva. |
encoding
Kötelező
|
Adja meg a fájlkódolást. Támogatott kódolások: "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" és "windows1252" |
Válaszok
Típus | Description |
---|---|
Egy objektumot TabularDataset ad vissza. |
Megjegyzések
from_delimited_files létrehoz egy osztályobjektumot TabularDataset , amely meghatározza azokat a műveleteket, amelyekkel a tagolt fájlok adatait táblázatos megjelenítésre töltheti be.
Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az elérési út által meghatározott tagolt fájloknak a Blob, az ADLS Gen1 és az ADLS Gen2 nyilvános webes URL-címében Datastore vagy URL-címén vagy mögött kell lenniük. A felhasználók AAD-tokenje akkor lesz használatban a notebookban vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adathozzáférés hitelesítésére küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access
Az oszlop adattípusai alapértelmezés szerint a tagolt fájlok adataiból származnak. A set_column_types megadása felülbírálja a visszaadott TabularDataset megadott oszlopainak adattípusát.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))
# create tabular dataset from all csv files in the directory
tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.csv',
'https://url/weather/2018/12.csv'
]
tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)
from_json_lines_files
Hozzon létre egy TabularDataset elemet, amely táblázatos adatokat jelöl JSON Lines-fájlokban (http://jsonlines.org/).
static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
|
validate
Kötelező
|
Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
include_path
Kötelező
|
Logikai érték, amely az adathalmaz oszlopaként tárolja az elérésiút-információkat. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján. |
set_column_types
Kötelező
|
Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType |
partition_format
Kötelező
|
Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióinformációi a megadott formátum alapján oszlopokba lesznek bontva. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", "MM", "dd", "HH", "mm" és "ss" értékek a dátum/idő típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgálnak. A formátumnak az első partíciókulcs helyétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.jsonl' ahol a partíció részlegnév és idő szerint van, partition_format=/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl" létrehoz egy "Department" sztringoszlopot "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel. |
invalid_lines
Kötelező
|
Érvénytelen JSON-vonalak kezelése. A támogatott értékek a "error" és a "drop". |
encoding
Kötelező
|
Adja meg a fájlkódolást. Támogatott kódolások: "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" és "windows1252" |
Válaszok
Típus | Description |
---|---|
Egy objektumot TabularDataset ad vissza. |
Megjegyzések
from_json_lines_files létrehoz egy osztályobjektumot TabularDataset , amely meghatározza a JSON Lines-fájlokból a táblázatos megjelenítésbe betöltendő műveleteket.
Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az elérési út által megadott JSON Lines-fájloknak a blob, az ADLS Gen1 és az ADLS Gen2 nyilvános webes URL-címében Datastore vagy URL-címén kell lenniük vagy mögött. A felhasználók AAD-tokenje akkor lesz használatban a notebookban vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adathozzáférés hitelesítésére küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access
Az oszlop adattípusai a JSON Lines-fájlokban mentett adattípusokból olvashatók be. A set_column_types megadása felülbírálja a visszaadott TabularDataset megadott oszlopainak adattípusát.
from azureml.core import Dataset, Datastore
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))
# create tabular dataset from all jsonl files in the directory
tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.jsonl',
'https://url/weather/2018/12.jsonl'
]
tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)
from_parquet_files
Hozzon létre egy TabularDataset elemet a Parquet-fájlok táblázatos adatainak megjelenítéséhez.
static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
|
validate
Kötelező
|
Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
include_path
Kötelező
|
Logikai érték, amely az adathalmaz oszlopaként tárolja az elérésiút-információkat. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján. |
set_column_types
Kötelező
|
Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév, az érték pedig DataType. |
partition_format
Kötelező
|
Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióinformációi a megadott formátum alapján oszlopokba lesznek bontva. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", "MM", "dd", "HH", "mm" és "ss" értékek a dátum/idő típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgálnak. A formátumnak az első partíciókulcs helyétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot az "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel. |
Válaszok
Típus | Description |
---|---|
Egy objektumot TabularDataset ad vissza. |
Megjegyzések
from_parquet_files létrehoz egy osztályobjektumot TabularDataset , amely meghatározza a Parquet-fájlokból a táblázatos megjelenítésbe betöltendő műveleteket.
Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az elérési út által megadott parquet-fájloknak a Blob, az ADLS Gen1 és az ADLS Gen2 nyilvános webes URL-címében vagy URL-címén kell lenniük Datastore vagy mögött. A felhasználók AAD-tokenje akkor lesz használatban a notebookban vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adathozzáférés hitelesítésére küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access
Az oszlop adattípusai a Parquet-fájlokba mentett adattípusokból olvashatók be. A set_column_types megadása felülbírálja a visszaadott TabularDataset megadott oszlopainak adattípusát.
# create tabular dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))
# create tabular dataset from a single directory in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))
# create tabular dataset from all parquet files in the directory
tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))
# create tabular dataset from multiple paths
data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)
# create tabular dataset from url
tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
web_path = [
'https://url/weather/2018/11.parquet',
'https://url/weather/2018/12.parquet'
]
tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)
from_sql_query
Hozzon létre egy TabularDataset elemet az SQL-adatbázisok táblázatos adatainak megjelenítéséhez.
static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)
Paraméterek
Name | Description |
---|---|
query
Kötelező
|
Egy SQL-típusú adattár és egy lekérdezés. |
validate
Kötelező
|
Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. |
set_column_types
Kötelező
|
Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév, az érték pedig DataType. |
query_timeout
Kötelező
|
Beállítja a várakozási időt (másodpercben), mielőtt megszakítja a parancs végrehajtására tett kísérletet, és hibát okozna. Az alapértelmezett érték 30 mp. |
Válaszok
Típus | Description |
---|---|
Egy objektumot TabularDataset ad vissza. |
Megjegyzések
from_sql_query létrehoz egy osztályobjektumot TabularDataset , amely meghatározza az SQL-adatbázisokból származó adatok táblázatos ábrázolására szolgáló műveleteket. Jelenleg csak az MSSQLDataSource-t támogatjuk.
Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az által query
megadott SQL-adatbázisnak a helyen Datastore kell lennie, az adattár típusának pedig SQL típusúnak kell lennie.
Az oszlop adattípusai az SQL-lekérdezés eredményében lévő adattípusokból lesznek beolvasva. A megadásával set_column_types
felülbírálhatja a visszaadott TabularDataset megadott oszlopainak adattípusát.
from azureml.core import Dataset, Datastore
from azureml.data.datapath import DataPath
# create tabular dataset from a SQL database in datastore
datastore = Datastore.get(workspace, 'mssql')
query = DataPath(datastore, 'SELECT * FROM my_table')
tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
df = tabular.to_pandas_dataframe()
# use `set_column_types` to set column data types
from azureml.data import DataType
data_types = {
'ID': DataType.to_string(),
'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
'Count': DataType.to_long(),
'Latitude': DataType.to_float(),
'Found': DataType.to_bool()
}
tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)
register_dask_dataframe
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Hozzon létre egy adatkészletet a Dask-adatkeretből.
static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Paraméterek
Name | Description |
---|---|
dataframe
Kötelező
|
<xref:dask.dataframe.core.DataFrame>
A feltöltendő DASK-adatkeret kötelező. |
target
Kötelező
|
Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében. |
name
Kötelező
|
Kötelező megadni a regisztrált adathalmaz nevét. |
description
Kötelező
|
Választható. Az adathalmaz szöveges leírása. Alapértelmezés szerint Nincs. |
tags
Kötelező
|
Választható. Kulcsértékcímkék szótára az adatkészlethez. Alapértelmezés szerint Nincs. |
show_progress
Kötelező
|
Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz. |
Válaszok
Típus | Description |
---|---|
A regisztrált adatkészlet. |
register_pandas_dataframe
Hozzon létre egy adatkészletet a pandas-adatkeretből.
static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)
Paraméterek
Name | Description |
---|---|
dataframe
Kötelező
|
A feltöltendő memóriaadatkeretben kötelező megadni. |
target
Kötelező
|
Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében. |
name
Kötelező
|
Kötelező megadni a regisztrált adathalmaz nevét. |
description
Kötelező
|
Választható. Az adathalmaz szöveges leírása. Alapértelmezés szerint Nincs. |
tags
Kötelező
|
Választható. Kulcsértékcímkék szótára az adatkészlethez. Alapértelmezés szerint Nincs. |
show_progress
Kötelező
|
Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz. |
row_group_size
Kötelező
|
Választható. A parquet-fájl írásakor használandó sorcsoport maximális mérete. Alapértelmezés szerint Nincs. |
make_target_path_unique
Kötelező
|
Nem kötelező, azt jelzi, hogy létre kell-e hozni egyedi almappát a célban. Alapértelmezés szerint Igaz. |
Válaszok
Típus | Description |
---|---|
A regisztrált adatkészlet. |
register_spark_dataframe
Megjegyzés
Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.
Adathalmaz létrehozása Spark-adatkeretből.
static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)
Paraméterek
Name | Description |
---|---|
dataframe
Kötelező
|
A feltöltendő memóriaadatkeretben kötelező megadni. |
target
Kötelező
|
Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében. |
name
Kötelező
|
Kötelező megadni a regisztrált adathalmaz nevét. |
description
Kötelező
|
Választható. Az adathalmaz szöveges leírása. Alapértelmezés szerint Nincs. |
tags
Kötelező
|
Választható. Kulcsértékcímkék szótára az adatkészlethez. Alapértelmezés szerint Nincs. |
show_progress
Kötelező
|
Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz. |
Válaszok
Típus | Description |
---|---|
A regisztrált adatkészlet. |