Share via


TabularDatasetFactory Osztály

Táblázatos adathalmaz azure machine learninghez való létrehozásának módszereit tartalmazza.

Az A TabularDataset az osztály metódusainak from_* használatával jön létre, például a metódussal from_delimited_files.

A táblázatos adathalmazok használatával kapcsolatos további információkért tekintse meg a jegyzetfüzetet https://aka.ms/tabulardataset-samplenotebook.

Öröklődés
builtins.object
TabularDatasetFactory

Konstruktor

TabularDatasetFactory()

Metódusok

from_delimited_files

Hozzon létre egy TabularDataset halmazt, amely tagolt fájlokban (e.g. CSV és TSV-ben) jeleníti meg a táblázatos adatokat.

from_json_lines_files

Hozzon létre egy TabularDataset elemet, amely táblázatos adatokat jelöl JSON Lines-fájlokban (http://jsonlines.org/).

from_parquet_files

Hozzon létre egy TabularDataset elemet a Parquet-fájlok táblázatos adatainak megjelenítéséhez.

from_sql_query

Hozzon létre egy TabularDataset elemet az SQL-adatbázisok táblázatos adatainak megjelenítéséhez.

register_dask_dataframe

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Hozzon létre egy adatkészletet a Dask-adatkeretből.

register_pandas_dataframe

Hozzon létre egy adatkészletet a pandas-adatkeretből.

register_spark_dataframe

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Adathalmaz létrehozása Spark-adatkeretből.

from_delimited_files

Hozzon létre egy TabularDataset halmazt, amely tagolt fájlokban (e.g. CSV és TSV-ben) jeleníti meg a táblázatos adatokat.

static from_delimited_files(path, validate=True, include_path=False, infer_column_types=True, set_column_types=None, separator=',', header=True, partition_format=None, support_multi_line=False, empty_as_string=False, encoding='utf8')

Paraméterek

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Kötelező

A forrásfájlok elérési útja, amely lehet egyetlen érték vagy URL-sztringek listája (http[s]|abfs[s]|wasb[s]), DataPath objektum vagy rekord Datastore és relatív elérési út. Vegye figyelembe, hogy az elérési utak listája nem tartalmazhatja egyszerre az URL-címeket és az adattárakat.

validate
bool
Kötelező

Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból. Az ellenőrzés letiltásához a "infer_column_types" értékét is False (Hamis) értékre kell állítani.

include_path
bool
Kötelező

Logikai érték, amely az adathalmaz oszlopaként tárolja az elérésiút-információkat. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

infer_column_types
bool
Kötelező

Logikai érték az oszlop adattípusaiból való következtetéshez. Alapértelmezés szerint Igaz. A típuskövetkeztetés megköveteli, hogy az adatforrás elérhető legyen az aktuális számításból. A típuskövetkeztetés jelenleg csak az első 200 sort fogja lekérni. Ha az adatok több típusú értéket tartalmaznak, érdemesebb a kívánt típust felülbírálásként megadni set_column_types argumentumon keresztül. Az set_column_types kapcsolatos kódmintákért tekintse meg a Megjegyzések szakaszt.

set_column_types
dict[str, DataType]
Kötelező

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév, az érték pedig DataType.

separator
str
Kötelező

Az oszlopok felosztásához használt elválasztó.

header
bool vagy PromoteHeadersBehavior
Kötelező

Az oszlopfejlécek előléptetését szabályozza a fájlokból való olvasáskor. Alapértelmezés szerint Igaz értékre van adva az azonos fejlécet tartalmazó összes fájl esetében. A fájlok úgy lesznek beolvasva, hogy nincs fejléc, amikor fejléc=Hamis. További lehetőségek a számértékével PromoteHeadersBehavioradhatók meg.

partition_format
str
Kötelező

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióinformációi a megadott formátum alapján oszlopokba lesznek bontva. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", "MM", "dd", "HH", "mm" és "ss" értékek a dátum/idő típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgálnak. A formátumnak az első partíciókulcs helyétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.csv" ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" létrehoz egy "Department" sztringoszlopot az "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

support_multi_line
bool
Kötelező

Alapértelmezés szerint (support_multi_line=Hamis) az összes sortörés, beleértve az idézőjeles mezőértékeket is, rekordtörésként lesz értelmezve. Az adatok ily módon történő olvasása gyorsabb és optimalizáltabb a párhuzamos végrehajtáshoz több CPU-magon. Ez azonban azt eredményezheti, hogy csendesen több rekordot hoz létre helytelenül értelmezett mezőértékekkel. Ezt Igaz értékre kell állítani, ha a tagolt fájlok ismerten idézőjeles sortöréseket tartalmaznak.

Ennek a CSV-fájlnak a példáját tekintve az adatok másként lesznek beolvasva a support_multi_line alapján.

A,B,C A1,B1,C1 A2,"B 2",C2


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # default behavior: support_multi_line=False
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path)
   print(dataset.to_pandas_dataframe())
   #      A   B     C
   #  0  A1  B1    C1
   #  1  A2   B  None
   #  2  2"  C2  None

   # to handle quoted line breaks
   dataset = Dataset.Tabular.from_delimited_files(path=datastore_path,
                                                  support_multi_line=True)
   print(dataset.to_pandas_dataframe())
   #      A       B   C
   #  0  A1      B1  C1
   #  1  A2  B\r\n2  C2
empty_as_string
bool
Kötelező

Adja meg, hogy az üres mezőértékeket üres sztringként kell-e betölteni. Az alapértelmezett (Hamis) üres mezőértékeket fog null értékként olvasni. Ha ezt Igaz értékként adja meg, az üres mezőértékeket üres sztringekként olvassa be. Ha az értékeket numerikusra vagy datetime-ra konvertálja, annak nincs hatása, mivel az üres értékek null értékké lesznek konvertálva.

encoding
str
Kötelező

Adja meg a fájlkódolást. Támogatott kódolások: "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" és "windows1252"

Válaszok

Egy objektumot TabularDataset ad vissza.

Visszatérési típus

Megjegyzések

from_delimited_files létrehoz egy osztályobjektumot TabularDataset , amely meghatározza azokat a műveleteket, amelyekkel a tagolt fájlok adatait táblázatos megjelenítésre töltheti be.

Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az elérési út által meghatározott tagolt fájloknak a Blob, az ADLS Gen1 és az ADLS Gen2 nyilvános webes URL-címében Datastore vagy URL-címén vagy mögött kell lenniük. A felhasználók AAD-tokenje akkor lesz használatban a notebookban vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adathozzáférés hitelesítésére küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access

Az oszlop adattípusai alapértelmezés szerint a tagolt fájlok adataiból származnak. A set_column_types megadása felülbírálja a visszaadott TabularDataset megadott oszlopainak adattípusát.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/2018/11.csv'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/'))

   # create tabular dataset from all csv files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_delimited_files(path=(datastore,'weather/**/*.csv'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.csv'), (datastore, 'weather/2018/12.csv')]
   tabular_dataset_4 = Dataset.Tabular.from_delimited_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_delimited_files(path='https://url/weather/2018/12.csv')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.csv',
       'https://url/weather/2018/12.csv'
   ]
   tabular = Dataset.Tabular.from_delimited_files(path=web_path, set_column_types=data_types)

from_json_lines_files

Hozzon létre egy TabularDataset elemet, amely táblázatos adatokat jelöl JSON Lines-fájlokban (http://jsonlines.org/).

static from_json_lines_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None, invalid_lines='error', encoding='utf8')

Paraméterek

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Kötelező

A forrásfájlok elérési útja, amely lehet egyetlen érték vagy URL-sztringek listája (http[s]|abfs[s]|wasb[s]), DataPath objektum vagy rekord Datastore és relatív elérési út. Vegye figyelembe, hogy az elérési utak listája nem tartalmazhatja egyszerre az URL-címeket és az adattárakat.

validate
bool
Kötelező

Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.

include_path
bool
Kötelező

Logikai érték, amely az adathalmaz oszlopaként tárolja az elérésiút-információkat. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

set_column_types
dict[str, DataType]
Kötelező

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév és érték DataType

partition_format
str
Kötelező

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióinformációi a megadott formátum alapján oszlopokba lesznek bontva. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", "MM", "dd", "HH", "mm" és "ss" értékek a dátum/idő típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgálnak. A formátumnak az első partíciókulcs helyétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.jsonl' ahol a partíció részlegnév és idő szerint van, partition_format=/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl" létrehoz egy "Department" sztringoszlopot "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

invalid_lines
str
Kötelező

Érvénytelen JSON-vonalak kezelése. A támogatott értékek a "error" és a "drop".

encoding
str
Kötelező

Adja meg a fájlkódolást. Támogatott kódolások: "utf8", "iso88591", "latin1", "ascii", "utf16", "utf32", "utf8bom" és "windows1252"

Válaszok

Egy objektumot TabularDataset ad vissza.

Visszatérési típus

Megjegyzések

from_json_lines_files létrehoz egy osztályobjektumot TabularDataset , amely meghatározza a JSON Lines-fájlokból a táblázatos megjelenítésbe betöltendő műveleteket.

Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az elérési út által megadott JSON Lines-fájloknak a blob, az ADLS Gen1 és az ADLS Gen2 nyilvános webes URL-címében Datastore vagy URL-címén kell lenniük vagy mögött. A felhasználók AAD-tokenje akkor lesz használatban a notebookban vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adathozzáférés hitelesítésére küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access

Az oszlop adattípusai a JSON Lines-fájlokban mentett adattípusokból olvashatók be. A set_column_types megadása felülbírálja a visszaadott TabularDataset megadott oszlopainak adattípusát.


   from azureml.core import Dataset, Datastore

   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/2018/11.jsonl'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/'))

   # create tabular dataset from all jsonl files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_json_lines_files(path=(datastore,'weather/**/*.jsonl'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.jsonl'), (datastore, 'weather/2018/12.jsonl')]
   tabular_dataset_4 = Dataset.Tabular.from_json_lines_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_json_lines_files(path='https://url/weather/2018/12.jsonl')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.jsonl',
       'https://url/weather/2018/12.jsonl'
   ]
   tabular = Dataset.Tabular.from_json_lines_files(path=web_path, set_column_types=data_types)

from_parquet_files

Hozzon létre egy TabularDataset elemet a Parquet-fájlok táblázatos adatainak megjelenítéséhez.

static from_parquet_files(path, validate=True, include_path=False, set_column_types=None, partition_format=None)

Paraméterek

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
Kötelező

A forrásfájlok elérési útja, amely lehet egyetlen érték vagy URL-sztringek listája (http[s]|abfs[s]|wasb[s]), DataPath objektum vagy rekord Datastore és relatív elérési út. Vegye figyelembe, hogy az elérési utak listája nem tartalmazhatja egyszerre az URL-címeket és az adattárakat.

validate
bool
Kötelező

Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.

include_path
bool
Kötelező

Logikai érték, amely az adathalmaz oszlopaként tárolja az elérésiút-információkat. Alapértelmezés szerint Hamis. Ez akkor hasznos, ha több fájlt olvas be, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

set_column_types
dict[str, DataType]
Kötelező

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév, az érték pedig DataType.

partition_format
str
Kötelező

Adja meg az elérési út partícióformátumát. Alapértelmezés szerint Nincs. Az egyes elérési utak partícióinformációi a megadott formátum alapján oszlopokba lesznek bontva. A(z) "{column_name}" formázási rész sztringoszlopot hoz létre, a "{column_name:yyyy/MM/dd/HH/mm/ss}" pedig datetime oszlopot hoz létre, ahol az "éé", "MM", "dd", "HH", "mm" és "ss" értékek a dátum/idő típus év, hónap, nap, óra, perc és másodperc kinyerésére szolgálnak. A formátumnak az első partíciókulcs helyétől a fájl elérési útjának végéig kell kezdődnie. Például a "." elérési út alapján. /Accounts/2019/01/01/data.parquet, ahol a partíció részlegnév és idő szerint van, partition_format="/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" létrehoz egy "Department" sztringoszlopot az "Accounts" értékkel és egy "PartitionDate" datetime oszlopot a "2019-01-01" értékkel.

Válaszok

Egy objektumot TabularDataset ad vissza.

Visszatérési típus

Megjegyzések

from_parquet_files létrehoz egy osztályobjektumot TabularDataset , amely meghatározza a Parquet-fájlokból a táblázatos megjelenítésbe betöltendő műveleteket.

Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az elérési út által megadott parquet-fájloknak a Blob, az ADLS Gen1 és az ADLS Gen2 nyilvános webes URL-címében vagy URL-címén kell lenniük Datastore vagy mögött. A felhasználók AAD-tokenje akkor lesz használatban a notebookban vagy a helyi Python-programban, ha közvetlenül meghívja a következő függvények egyikét: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a számítási cél identitását az Experiment.submit által az adathozzáférés hitelesítésére küldött feladatokban fogja használni. Tudj meg többet: https://aka.ms/data-access

Az oszlop adattípusai a Parquet-fájlokba mentett adattípusokból olvashatók be. A set_column_types megadása felülbírálja a visszaadott TabularDataset megadott oszlopainak adattípusát.


   # create tabular dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_1 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/2018/11.parquet'))

   # create tabular dataset from a single directory in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   tabular_dataset_2 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/'))

   # create tabular dataset from all parquet files in the directory
   tabular_dataset_3 = Dataset.Tabular.from_parquet_files(path=(datastore,'weather/**/*.parquet'))

   # create tabular dataset from multiple paths
   data_paths = [(datastore, 'weather/2018/11.parquet'), (datastore, 'weather/2018/12.parquet')]
   tabular_dataset_4 = Dataset.Tabular.from_parquet_files(path=data_paths)

   # create tabular dataset from url
   tabular_dataset_5 = Dataset.Tabular.from_parquet_files(path='https://url/weather/2018/12.parquet')

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   web_path = [
       'https://url/weather/2018/11.parquet',
       'https://url/weather/2018/12.parquet'
   ]
   tabular = Dataset.Tabular.from_parquet_files(path=web_path, set_column_types=data_types)

from_sql_query

Hozzon létre egy TabularDataset elemet az SQL-adatbázisok táblázatos adatainak megjelenítéséhez.

static from_sql_query(query, validate=True, set_column_types=None, query_timeout=30)

Paraméterek

query
Union[DataPath, (Datastore, str)]
Kötelező

Egy SQL-típusú adattár és egy lekérdezés.

validate
bool
Kötelező

Logikai érték annak ellenőrzéséhez, hogy az adatok betölthetők-e a visszaadott adatkészletből. Alapértelmezés szerint Igaz. Az ellenőrzéshez az adatforrásnak elérhetőnek kell lenniük az aktuális számításból.

set_column_types
dict[str, DataType]
Kötelező

Az oszlop adattípusának beállítására szolgáló szótár, ahol a kulcs oszlopnév, az érték pedig DataType.

query_timeout
Kötelező

Beállítja a várakozási időt (másodpercben), mielőtt megszakítja a parancs végrehajtására tett kísérletet, és hibát okozna. Az alapértelmezett érték 30 mp.

Válaszok

Egy objektumot TabularDataset ad vissza.

Visszatérési típus

Megjegyzések

from_sql_query létrehoz egy osztályobjektumot TabularDataset , amely meghatározza az SQL-adatbázisokból származó adatok táblázatos ábrázolására szolgáló műveleteket. Jelenleg csak az MSSQLDataSource-t támogatjuk.

Ahhoz, hogy az adatok elérhetők legyenek az Azure Machine Learning számára, az által query megadott SQL-adatbázisnak a helyen Datastore kell lennie, az adattár típusának pedig SQL típusúnak kell lennie.

Az oszlop adattípusai az SQL-lekérdezés eredményében lévő adattípusokból lesznek beolvasva. A megadásával set_column_types felülbírálhatja a visszaadott TabularDataset megadott oszlopainak adattípusát.


   from azureml.core import Dataset, Datastore
   from azureml.data.datapath import DataPath

   # create tabular dataset from a SQL database in datastore
   datastore = Datastore.get(workspace, 'mssql')
   query = DataPath(datastore, 'SELECT * FROM my_table')
   tabular = Dataset.Tabular.from_sql_query(query, query_timeout=10)
   df = tabular.to_pandas_dataframe()

   # use `set_column_types` to set column data types
   from azureml.data import DataType
   data_types = {
       'ID': DataType.to_string(),
       'Date': DataType.to_datetime('%d/%m/%Y %I:%M:%S %p'),
       'Count': DataType.to_long(),
       'Latitude': DataType.to_float(),
       'Found': DataType.to_bool()
   }
   tabular = Dataset.Tabular.from_sql_query(query, set_column_types=data_types)

register_dask_dataframe

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Hozzon létre egy adatkészletet a Dask-adatkeretből.

static register_dask_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Paraméterek

dataframe
<xref:dask.dataframe.core.DataFrame>
Kötelező

A feltöltendő DASK-adatkeret kötelező.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Kötelező

Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében.

name
str
Kötelező

Kötelező megadni a regisztrált adathalmaz nevét.

description
str
Kötelező

Választható. Az adathalmaz szöveges leírása. Alapértelmezés szerint Nincs.

tags
dict[str, str]
Kötelező

Választható. Kulcsértékcímkék szótára az adatkészlethez. Alapértelmezés szerint Nincs.

show_progress
bool
Kötelező

Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz.

Válaszok

A regisztrált adatkészlet.

Visszatérési típus

register_pandas_dataframe

Hozzon létre egy adatkészletet a pandas-adatkeretből.

static register_pandas_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True, row_group_size=None, make_target_path_unique=True)

Paraméterek

dataframe
DataFrame
Kötelező

A feltöltendő memóriaadatkeretben kötelező megadni.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Kötelező

Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében.

name
str
Kötelező

Kötelező megadni a regisztrált adathalmaz nevét.

description
int
Kötelező

Választható. Az adathalmaz szöveges leírása. Alapértelmezés szerint Nincs.

tags
dict[str, str]
Kötelező

Választható. Kulcsértékcímkék szótára az adatkészlethez. Alapértelmezés szerint Nincs.

show_progress
bool
Kötelező

Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz.

row_group_size
Kötelező

Választható. A parquet-fájl írásakor használandó sorcsoport maximális mérete. Alapértelmezés szerint Nincs.

make_target_path_unique
Kötelező

Nem kötelező, azt jelzi, hogy létre kell-e hozni egyedi almappát a célban. Alapértelmezés szerint Igaz.

Válaszok

A regisztrált adatkészlet.

Visszatérési típus

register_spark_dataframe

Megjegyzés

Ez egy kísérleti módszer, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Adathalmaz létrehozása Spark-adatkeretből.

static register_spark_dataframe(dataframe, target, name, description=None, tags=None, show_progress=True)

Paraméterek

dataframe
DataFrame
Kötelező

A feltöltendő memóriaadatkeretben kötelező megadni.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
Kötelező

Kötelező megadni azt az adattár elérési útját, ahová az adatkeret-parquet-adatokat feltölti a rendszer. A célútvonal alatt létrejön egy GUID mappa az ütközés elkerülése érdekében.

name
str
Kötelező

Kötelező megadni a regisztrált adathalmaz nevét.

description
str
Kötelező

Választható. Az adathalmaz szöveges leírása. Alapértelmezés szerint Nincs.

tags
dict[str, str]
Kötelező

Választható. Kulcsértékcímkék szótára az adatkészlethez. Alapértelmezés szerint Nincs.

show_progress
bool
Kötelező

Nem kötelező, azt jelzi, hogy meg szeretné-e jeleníteni a feltöltés állapotát a konzolon. Alapértelmezés szerint Igaz.

Válaszok

A regisztrált adatkészlet.

Visszatérési típus