TabularDatasetFactory Osztály

Referencia

Táblázatos adathalmaz azure machine learninghez való létrehozásának módszereit tartalmazza.

Az A TabularDataset az osztály metódusainak from_* használatával jön létre, például a metódussal from_delimited_files.

A táblázatos adathalmazok használatával kapcsolatos további információkért tekintse meg a jegyzetfüzetet https://aka.ms/tabulardataset-samplenotebook.

Öröklődés: builtins.object

TabularDatasetFactory

Konstruktor

TabularDatasetFactory()

Metódusok

from_delimited_files	Hozzon létre egy TabularDataset halmazt, amely tagolt fájlokban (e.g. CSV és TSV-ben) jeleníti meg a táblázatos adatokat.
from_json_lines_files	Hozzon létre egy TabularDataset elemet, amely táblázatos adatokat jelöl JSON Lines-fájlokban (http://jsonlines.org/).
from_parquet_files	Hozzon létre egy TabularDataset elemet a Parquet-fájlok táblázatos adatainak megjelenítéséhez.
from_sql_query	Hozzon létre egy TabularDataset elemet az SQL-adatbázisok táblázatos adatainak megjelenítéséhez.
register_dask_dataframe	Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Hozzon létre egy adatkészletet a Dask-adatkeretből.
register_pandas_dataframe	Hozzon létre egy adatkészletet a pandas-adatkeretből.
register_spark_dataframe	Megjegyzés Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Adathalmaz létrehozása Spark-adatkeretből.

from_delimited_files

Hozzon létre egy TabularDataset halmazt, amely tagolt fájlokban (e.g. CSV és TSV-ben) jeleníti meg a táblázatos adatokat.

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Paraméterek

Name	Description
path Kötelező	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] A forrásfájlok elérési útja, amely lehet egyetlen érték vagy URL-sztringek listája (http[s]\|abfs[s]\|wasb[s]), DataPath objektum vagy rekord Datastore és relatív elérési út. Vegye figyelembe, hogy az elérési utak listája nem tartalmazhatja egyszerre az URL-címeket és az adattárakat.
validate Kötelező	bool Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. Az ellenőrzés letiltásához a "infer_column_types" értékét is False (Hamis) értékre kell állítani.
include_path Kötelező	bool Logikai érték, amely az adathalmaz oszlopaként tárolja az elérésiút-információkat. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.
infer_column_types Kötelező	bool Logikai érték az oszlop adattípusaiból való következtetéshez. Alapértelmezés szerint Igaz. A típuskövetkeztetés megköveteli, hogy az adatforrás elérhető legyen az aktuális számításból. A típuskövetkeztetés jelenleg csak az első 200 sort fogja lekérni. Ha az adatok több típusú értéket tartalmaznak, érdemesebb a kívánt típust felülbírálásként megadni set_column_types argumentumon keresztül. Az set_column_types kapcsolatos kódmintákért tekintse meg a Megjegyzések szakaszt.
set_column_types Kötelező	dict[str, DataType] Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév, az érték pedig DataType.
separator Kötelező	str Az oszlopok felosztásához használt elválasztó.
header Kötelező	bool vagy PromoteHeadersBehavior Az oszlopfejlécek előléptetését szabályozza a fájlokból való olvasáskor. Alapértelmezés szerint Igaz értékre van adva az azonos fejlécet tartalmazó összes fájl esetében. A fájlok úgy lesznek beolvasva, hogy nincs fejléc, amikor fejléc=Hamis. További lehetőségek a számértékével PromoteHeadersBehavioradhatók meg.
partition_format Kötelező	str Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióinformációi a megadott formátum alapján oszlopokba lesznek bontva. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", "MM", "dd", "HH", "mm" és "ss" értékek a dátum/idő típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgálnak. A formátumnak az első partíciókulcs helyétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.csv" ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" létrehoz egy "Department" sztringoszlopot az "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.
support_multi_line Kötelező	bool Alapértelmezés szerint (support_multi_line=Hamis) az összes sortörés, beleértve az idézőjeles mezőértékeket is, rekordtörésként lesz értelmezve. Az adatok ily módon történő olvasása gyorsabb és optimalizáltabb a párhuzamos végrehajtáshoz több CPU-magon. Ez azonban azt eredményezheti, hogy csendesen több rekordot hoz létre helytelenül értelmezett mezőértékekkel. Ezt Igaz értékre kell állítani, ha a tagolt fájlok ismerten idézőjeles sortöréseket tartalmaznak. Ennek a CSV-fájlnak a példáját tekintve az adatok másként lesznek beolvasva a support_multi_line alapján. A,B,C A1,B1,C1 A2,"B 2",C2 `from azureml.core import Dataset, Datastore from azureml.data.datapath import DataPath # default behavior: support_multi_line=False dataset = Dataset.Tabular.from_delimited_files(path=datastore_path) print(dataset.to_pandas_dataframe()) # A B C # 0 A1 B1 C1 # 1 A2 B None # 2 2" C2 None # to handle quoted line breaks dataset = Dataset.Tabular.from_delimited_files(path=datastore_path, support_multi_line=True) print(dataset.to_pandas_dataframe()) # A B C # 0 A1 B1 C1 # 1 A2 B\r\n2 C2`
empty_as_string Kötelező	bool Adja meg, hogy az üres mezőértékeket üres sztringként kell-e betölteni. Az alapértelmezett (Hamis) üres mezőértékeket fog null értékként olvasni. Ha ezt Igaz értékként adja meg, az üres mezőértékeket üres sztringekként olvassa be. Ha az értékeket numerikusra vagy datetime-ra konvertálja, annak nincs hatása, mivel az üres értékek null értékké lesznek konvertálva.
encoding Kötelező	str Adja meg a fájlkódolást. Támogatott kódolások: "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" és "windows1252"

Válaszok

Típus	Description
TabularDataset	Egy objektumot TabularDataset ad vissza.

Megjegyzések

from_delimited_files létrehoz egy osztályobjektumot TabularDataset , amely meghatározza azokat a műveleteket, amelyekkel a tagolt fájlok adatait táblázatos megjelenítésre töltheti be.

Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az elérési út által meghatározott tagolt fájloknak a Blob, az ADLS Gen1 és az ADLS Gen2 nyilvános webes URL-címében Datastore vagy URL-címén vagy mögött kell lenniük. A felhasználók AAD-tokenje akkor lesz használatban a notebookban vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adathozzáférés hitelesítésére küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access

Az oszlop adattípusai alapértelmezés szerint a tagolt fájlok adataiból származnak. A set_column_types megadása felülbírálja a visszaadott TabularDataset megadott oszlopainak adattípusát.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Hozzon létre egy TabularDataset elemet, amely táblázatos adatokat jelöl JSON Lines-fájlokban (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Paraméterek

Name	Description
path Kötelező	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] A forrásfájlok elérési útja, amely lehet egyetlen érték vagy URL-sztringek listája (http[s]\|abfs[s]\|wasb[s]), DataPath objektum vagy rekord Datastore és relatív elérési út. Vegye figyelembe, hogy az elérési utak listája nem tartalmazhatja egyszerre az URL-címeket és az adattárakat.
validate Kötelező	bool Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
include_path Kötelező	bool Logikai érték, amely az adathalmaz oszlopaként tárolja az elérésiút-információkat. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.
set_column_types Kötelező	dict[str, DataType] Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType
partition_format Kötelező	str Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióinformációi a megadott formátum alapján oszlopokba lesznek bontva. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", "MM", "dd", "HH", "mm" és "ss" értékek a dátum/idő típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgálnak. A formátumnak az első partíciókulcs helyétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.jsonl' ahol a partíció részlegnév és idő szerint van, partition_format=/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl" létrehoz egy "Department" sztringoszlopot "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.
invalid_lines Kötelező	str Érvénytelen JSON-vonalak kezelése. A támogatott értékek a "error" és a "drop".
encoding Kötelező	str Adja meg a fájlkódolást. Támogatott kódolások: "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" és "windows1252"

Válaszok

Típus	Description
TabularDataset	Egy objektumot TabularDataset ad vissza.

Megjegyzések

from_json_lines_files létrehoz egy osztályobjektumot TabularDataset , amely meghatározza a JSON Lines-fájlokból a táblázatos megjelenítésbe betöltendő műveleteket.

Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az elérési út által megadott JSON Lines-fájloknak a blob, az ADLS Gen1 és az ADLS Gen2 nyilvános webes URL-címében Datastore vagy URL-címén kell lenniük vagy mögött. A felhasználók AAD-tokenje akkor lesz használatban a notebookban vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adathozzáférés hitelesítésére küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access

Az oszlop adattípusai a JSON Lines-fájlokban mentett adattípusokból olvashatók be. A set_column_types megadása felülbírálja a visszaadott TabularDataset megadott oszlopainak adattípusát.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Hozzon létre egy TabularDataset elemet a Parquet-fájlok táblázatos adatainak megjelenítéséhez.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Paraméterek

Name	Description
path Kötelező	Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]] A forrásfájlok elérési útja, amely lehet egyetlen érték vagy URL-sztringek listája (http[s]\|abfs[s]\|wasb[s]), DataPath objektum vagy rekord Datastore és relatív elérési út. Vegye figyelembe, hogy az elérési utak listája nem tartalmazhatja egyszerre az URL-címeket és az adattárakat.
validate Kötelező	bool Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
include_path Kötelező	bool Logikai érték, amely az adathalmaz oszlopaként tárolja az elérésiút-információkat. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.
set_column_types Kötelező	dict[str, DataType] Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév, az érték pedig DataType.
partition_format Kötelező	str Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióinformációi a megadott formátum alapján oszlopokba lesznek bontva. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", "MM", "dd", "HH", "mm" és "ss" értékek a dátum/idő típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgálnak. A formátumnak az első partíciókulcs helyétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot az "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

Válaszok

Típus	Description
TabularDataset	Egy objektumot TabularDataset ad vissza.

Megjegyzések

from_parquet_files létrehoz egy osztályobjektumot TabularDataset , amely meghatározza a Parquet-fájlokból a táblázatos megjelenítésbe betöltendő műveleteket.

Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az elérési út által megadott parquet-fájloknak a Blob, az ADLS Gen1 és az ADLS Gen2 nyilvános webes URL-címében vagy URL-címén kell lenniük Datastore vagy mögött. A felhasználók AAD-tokenje akkor lesz használatban a notebookban vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adathozzáférés hitelesítésére küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access

Az oszlop adattípusai a Parquet-fájlokba mentett adattípusokból olvashatók be. A set_column_types megadása felülbírálja a visszaadott TabularDataset megadott oszlopainak adattípusát.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Hozzon létre egy TabularDataset elemet az SQL-adatbázisok táblázatos adatainak megjelenítéséhez.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Paraméterek

Name	Description
query Kötelező	Union[DataPath, (Datastore, str)] Egy SQL-típusú adattár és egy lekérdezés.
validate Kötelező	bool Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.
set_column_types Kötelező	dict[str, DataType] Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév, az érték pedig DataType.
query_timeout Kötelező	Beállítja a várakozási időt (másodpercben), mielőtt megszakítja a parancs végrehajtására tett kísérletet, és hibát okozna. Az alapértelmezett érték 30 mp.

Válaszok

Típus	Description
TabularDataset	Egy objektumot TabularDataset ad vissza.

Megjegyzések

from_sql_query létrehoz egy osztályobjektumot TabularDataset , amely meghatározza az SQL-adatbázisokból származó adatok táblázatos ábrázolására szolgáló műveleteket. Jelenleg csak az MSSQLDataSource-t támogatjuk.

Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az által query megadott SQL-adatbázisnak a helyen Datastore kell lennie, az adattár típusának pedig SQL típusúnak kell lennie.

Az oszlop adattípusai az SQL-lekérdezés eredményében lévő adattípusokból lesznek beolvasva. A megadásával set_column_types felülbírálhatja a visszaadott TabularDataset megadott oszlopainak adattípusát.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Hozzon létre egy adatkészletet a Dask-adatkeretből.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Paraméterek

Name	Description
dataframe Kötelező	<xref:dask.dataframe.core.DataFrame> A feltöltendő DASK-adatkeret kötelező.
target Kötelező	Union[DataPath, Datastore, tuple(Datastore, str)] Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében.
name Kötelező	str Kötelező megadni a regisztrált adathalmaz nevét.
description Kötelező	str Választható. Az adathalmaz szöveges leírása. Alapértelmezés szerint Nincs.
tags Kötelező	dict[str, str] Választható. Kulcsértékcímkék szótára az adatkészlethez. Alapértelmezés szerint Nincs.
show_progress Kötelező	bool Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz.

Válaszok

Típus	Description
TabularDataset	A regisztrált adatkészlet.

register_pandas_dataframe

Hozzon létre egy adatkészletet a pandas-adatkeretből.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Paraméterek

Name	Description
dataframe Kötelező	DataFrame A feltöltendő memóriaadatkeretben kötelező megadni.
target Kötelező	Union[DataPath, Datastore, tuple(Datastore, str)] Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében.
name Kötelező	str Kötelező megadni a regisztrált adathalmaz nevét.
description Kötelező	int Választható. Az adathalmaz szöveges leírása. Alapértelmezés szerint Nincs.
tags Kötelező	dict[str, str] Választható. Kulcsértékcímkék szótára az adatkészlethez. Alapértelmezés szerint Nincs.
show_progress Kötelező	bool Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz.
row_group_size Kötelező	Választható. A parquet-fájl írásakor használandó sorcsoport maximális mérete. Alapértelmezés szerint Nincs.
make_target_path_unique Kötelező	Nem kötelező, azt jelzi, hogy létre kell-e hozni egyedi almappát a célban. Alapértelmezés szerint Igaz.

Válaszok

Típus	Description
TabularDataset	A regisztrált adatkészlet.

register_spark_dataframe

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Adathalmaz létrehozása Spark-adatkeretből.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Paraméterek

Name	Description
dataframe Kötelező	DataFrame A feltöltendő memóriaadatkeretben kötelező megadni.
target Kötelező	Union[DataPath, Datastore, tuple(Datastore, str)] Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében.
name Kötelező	str Kötelező megadni a regisztrált adathalmaz nevét.
description Kötelező	str Választható. Az adathalmaz szöveges leírása. Alapértelmezés szerint Nincs.
tags Kötelező	dict[str, str] Választható. Kulcsértékcímkék szótára az adatkészlethez. Alapértelmezés szerint Nincs.
show_progress Kötelező	bool Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz.

Válaszok

Típus	Description
TabularDataset	A regisztrált adatkészlet.

Megosztás a következőn keresztül:

TabularDatasetFactory Osztály

Konstruktor

Metódusok

from_delimited_files

Paraméterek

Válaszok

Megjegyzések

from_json_lines_files

Paraméterek

Válaszok

Megjegyzések

from_parquet_files

Paraméterek

Válaszok

Megjegyzések

from_sql_query

Paraméterek

Válaszok

Megjegyzések

register_dask_dataframe

Paraméterek

Válaszok

register_pandas_dataframe

Paraméterek

Válaszok

register_spark_dataframe

Paraméterek

Válaszok

Visszajelzés

További források