Dataset Osztály
Az Azure Machine Learningben az adatok feltárására, átalakítására és kezelésére szolgáló erőforrást jelöli.
Az adatkészletek nyilvános webes URL-címeken vagy mögött található Datastore adatokra mutató hivatkozások.
Az osztályban elavult metódusok esetében ellenőrizze AbstractDataset a továbbfejlesztett API-k osztályát.
A következő adathalmaztípusok támogatottak:
A TabularDataset adathalmaz az adatokat táblázatos formátumban jeleníti meg, amelyet a rendszer a megadott fájl vagy fájllista elemzésével hozott létre.
A FileDataset adathalmaz az adattárakban található vagy nyilvános URL-címeken elérhető egy vagy több fájlra hivatkozik.
Az adathalmazok használatának megkezdéséhez tekintse meg az Adathalmazok hozzáadása & regisztrálása című cikket, vagy tekintse meg a jegyzetfüzeteket https://aka.ms/tabulardataset-samplenotebook és https://aka.ms/filedataset-samplenotebooka .
Inicializálja az Adathalmaz objektumot.
A munkaterületen már regisztrált adatkészlet beszerzéséhez használja a get metódust.
- Öröklődés
-
builtins.objectDataset
Konstruktor
Dataset(definition, workspace=None, name=None, id=None)
Paraméterek
Name | Description |
---|---|
definition
Kötelező
|
<xref:azureml.data.DatasetDefinition>
Az Adathalmaz definíciója. |
workspace
Kötelező
|
Az a munkaterület, amelyben az adathalmaz létezik. |
name
Kötelező
|
Az adatkészlet neve. |
id
Kötelező
|
Az adatkészlet egyedi azonosítója. |
Megjegyzések
Az Adathalmaz osztály két kényelmi osztályattribútumot (File
és Tabular
) tesz elérhetővé, amelyekkel a megfelelő gyári metódusok használata nélkül hozhat létre adatkészletet. Például az alábbi attribútumok használatával hozhat létre adatkészletet:
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
Létrehozhat egy új TabularDataset vagy FileDataset elemet is, ha közvetlenül meghívja a és FileDatasetFactorya osztályban TabularDatasetFactory definiált osztály megfelelő gyári metódusait.
Az alábbi példa bemutatja, hogyan hozható létre az adattár adott útvonalára mutató táblázatos adathalmaz.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
A teljes minta a következő forrásból érhető el: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Változók
Name | Description |
---|---|
azureml.core.Dataset.File
|
Egy osztályattribútum, amely hozzáférést biztosít a FileDatasetFactory metódusokhoz új FileDataset-objektumok létrehozásához. Használat: Dataset.File.from_files(). |
azureml.core.Dataset.Tabular
|
Egy osztályattribútum, amely hozzáférést biztosít a TabularDatasetFactory metódusokhoz új TabularDataset-objektumok létrehozásához. Használat: Dataset.Tabular.from_delimited_files(). |
Metódusok
archive |
Aktív vagy elavult adathalmaz archiválása. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
auto_read_files |
Elemzi a fájl(ok)t a megadott elérési úton, és egy új adatkészletet ad vissza. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy a fájlok olvasásához használja a Dataset.Tabular.from_* metódusokat. További információ: https://aka.ms/dataset-deprecation. |
compare_profiles |
Hasonlítsa össze az aktuális adathalmaz profilját egy másik adathalmazprofillal. Ez két adathalmaz összesítő statisztikáinak különbségeit mutatja. A "rhs_dataset" paraméter a "jobb oldali" értéket jelenti, és egyszerűen a második adatkészlet. Az első adathalmaz (az aktuális adathalmaz-objektum) a "bal oldali". Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
create_snapshot |
Hozzon létre egy pillanatképet a regisztrált adatkészletről. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
delete_snapshot |
Az adathalmaz pillanatképének törlése név szerint. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
deprecate |
Egy aktív adatkészlet elavultja egy munkaterületen egy másik adatkészlet által. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
diff |
Az aktuális adatkészletet rhs_dataset. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
from_binary_files |
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet bináris fájlokból. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy inkább Dataset.File.from_files használjon. További információ: https://aka.ms/dataset-deprecation. |
from_delimited_files |
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet a tagolt fájlokból. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy inkább Dataset.Tabular.from_delimited_files használjon. További információ: https://aka.ms/dataset-deprecation.
|
from_excel_files |
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet Excel-fájlokból. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
from_json_files |
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet JSON-fájlokból. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy inkább Dataset.Tabular.from_json_lines_files használjon JSON-sorfájlból való olvasáshoz. További információ: https://aka.ms/dataset-deprecation. |
from_pandas_dataframe |
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy pandas-adatkeretből. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy inkább Dataset.Tabular.register_pandas_dataframe használjon. További információ: https://aka.ms/dataset-deprecation. |
from_parquet_files |
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet parquet-fájlokból. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy inkább Dataset.Tabular.from_parquet_files használjon. További információ: https://aka.ms/dataset-deprecation. |
from_sql_query |
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy SQL-lekérdezésből. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy inkább Dataset.Tabular.from_sql_query használjon. További információ: https://aka.ms/dataset-deprecation. |
generate_profile |
Hozzon létre új profilt az adatkészlethez. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
get |
A munkaterületen már létező adatkészlet lekéréséhez adja meg a nevét vagy az azonosítóját. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy használja get_by_name a és get_by_id a helyett. További információ: https://aka.ms/dataset-deprecation. |
get_all |
Szerezze be a munkaterület összes regisztrált adathalmazát. |
get_all_snapshots |
Az adathalmaz összes pillanatképének lekérése. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
get_by_id |
Szerezze be a munkaterületre mentett adatkészletet. |
get_by_name |
Regisztrált adatkészlet lekérése a munkaterületről a regisztrációs neve alapján. |
get_definition |
Kérje le az adatkészlet egy adott definícióját. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
get_definitions |
Szerezze be az adatkészlet összes definícióját. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
get_profile |
A korábban kiszámított adatkészlet összefoglaló statisztikáinak lekérése. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
get_snapshot |
Az adathalmaz pillanatképének lekérése név szerint. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
head |
Kérje le az adatkészletből megadott számú rekordot, és adja vissza őket DataFrame-ként. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
list |
Listázhatja a munkaterület összes adathalmazát, beleértve a False (Hamis) tulajdonsággal rendelkezőket Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy inkább használja get_all . További információ: https://aka.ms/dataset-deprecation. |
reactivate |
Archivált vagy elavult adathalmaz újraaktiválása. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
register |
Regisztrálja az adathalmazt a munkaterületen, és tegye elérhetővé a munkaterület többi felhasználója számára. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Javasoljuk, hogy inkább használja register . További információ: https://aka.ms/dataset-deprecation. |
sample |
Hozzon létre egy új mintát a forrásadatkészletből a megadott mintavételezési stratégiával és paraméterekkel. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust take_sample . További információ: https://aka.ms/dataset-deprecation. |
to_pandas_dataframe |
Hozzon létre egy Pandas-adatkeretet az adathalmaz-definíció által definiált átalakítási folyamat végrehajtásával. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_pandas_dataframe . További információ: https://aka.ms/dataset-deprecation. |
to_spark_dataframe |
Hozzon létre egy Spark DataFrame-et, amely végrehajtja az adathalmaz-definíció által definiált átalakítási folyamatot. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_spark_dataframe . További információ: https://aka.ms/dataset-deprecation. |
update |
Frissítse a munkaterület adathalmaz-mutable attribútumait, és adja vissza a frissített adathalmazt a munkaterületről. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
update_definition |
Frissítse az Adathalmaz definícióját. Megjegyzés Ez a módszer elavult, és a továbbiakban nem támogatott. További információ: https://aka.ms/dataset-deprecation. |
archive
Aktív vagy elavult adathalmaz archiválása.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
archive()
Válaszok
Típus | Description |
---|---|
Nincsenek. |
Megjegyzések
Az archiválás után az adathalmaz felhasználására tett kísérletek hibát eredményeznek. Ha az archiválás véletlenül történik, az újraaktiválás aktiválja azt.
auto_read_files
Elemzi a fájl(ok)t a megadott elérési úton, és egy új adatkészletet ad vissza.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy a fájlok olvasásához használja a Dataset.Tabular.from_* metódusokat. További információ: https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
DataReference vagy
str
Adatútvonal egy regisztrált adattárban, egy helyi útvonalon vagy EGY HTTP URL-címen (CSV/TSV). |
include_path
Kötelező
|
Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Több fájl olvasásakor hasznos, és tudni szeretné, hogy egy adott rekord melyik fájlból származik. Akkor is hasznos, ha egy oszlopban a fájl elérési útja vagy neve szerepel. |
partition_format
Kötelező
|
Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.csv, ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához. |
Válaszok
Típus | Description |
---|---|
Adathalmaz-objektum. |
Megjegyzések
Ezt a módszert akkor használja, ha automatikusan észleli a fájlformátumokat és a határolójeleket.
Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia.
A visszaadott adatkészlet nincs regisztrálva a munkaterületen.
compare_profiles
Hasonlítsa össze az aktuális adathalmaz profilját egy másik adathalmazprofillal.
Ez két adathalmaz összesítő statisztikáinak különbségeit mutatja. A "rhs_dataset" paraméter a "jobb oldali" értéket jelenti, és egyszerűen a második adatkészlet. Az első adathalmaz (az aktuális adathalmaz-objektum) a "bal oldali".
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Paraméterek
Name | Description |
---|---|
rhs_dataset
Kötelező
|
Egy második adatkészlet, más néven "jobb oldali" adatkészlet az összehasonlításhoz. |
profile_arguments
Kötelező
|
Adott profil újrapróbálkozásához használható argumentumok. |
include_columns
Kötelező
|
Az összehasonlításban szerepeltetni kívánt oszlopnevek listája. |
exclude_columns
Kötelező
|
Az összehasonlításban kizárandó oszlopnevek listája. |
histogram_compare_method
Kötelező
|
Az összehasonlítási módszert leíró enumerálási módszer, például: Wasserstein vagy Energy |
Válaszok
Típus | Description |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Különbség a két adathalmaz-profil között. |
Megjegyzések
Ez csak regisztrált adathalmazokra vonatkozik. Kivételt okoz, ha az aktuális adathalmaz profilja nem létezik. A nem regisztrált adathalmazok esetében használja a profile.compare metódust.
create_snapshot
Hozzon létre egy pillanatképet a regisztrált adatkészletről.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Paraméterek
Name | Description |
---|---|
snapshot_name
Kötelező
|
A pillanatkép neve. A pillanatképek nevének egyedinek kell lennie egy adatkészleten belül. |
compute_target
Kötelező
|
Nem kötelező számítási cél a pillanatképprofil létrehozásához. Ha nincs megadva, a rendszer a helyi számítást használja. |
create_data_snapshot
Kötelező
|
Ha igaz, létrejön az adatok materializált másolata. |
target_datastore
Kötelező
|
Céladattár a pillanatkép mentéséhez. Ha nincs megadva, a pillanatkép a munkaterület alapértelmezett tárolójában jön létre. |
Válaszok
Típus | Description |
---|---|
Adathalmaz-pillanatkép-objektum. |
Megjegyzések
A pillanatképek az alapul szolgáló adatok időösszesítő statisztikáit és magát az adatok egy opcionális másolatát rögzítik. A pillanatképek létrehozásával kapcsolatos további információkért látogasson el a webhelyre https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Az adathalmaz pillanatképének törlése név szerint.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Paraméterek
Name | Description |
---|---|
snapshot_name
Kötelező
|
A pillanatkép neve. |
Válaszok
Típus | Description |
---|---|
Nincsenek. |
Megjegyzések
Ezzel felszabadíthatja a pillanatképekbe mentett adatok által felhasznált tárterületet, amelyekre már nincs szüksége.
deprecate
Egy aktív adatkészlet elavultja egy munkaterületen egy másik adatkészlet által.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Paraméterek
Name | Description |
---|---|
deprecate_by_dataset_id
Kötelező
|
Az adathalmaz-azonosító, amely az adathalmaz kívánt pótlása. |
Válaszok
Típus | Description |
---|---|
Nincsenek. |
Megjegyzések
Az elavult adathalmazok a használatukkor naplóznak figyelmeztetéseket. Az adathalmaz elavultsága az összes definícióját elavultnak tekinti.
Az elavult adathalmazok továbbra is felhasználhatók. Az adathalmazok felhasználásának teljes letiltásához archiválja azt.
Ha véletlenül elavult, az újraaktiválás aktiválja azt.
diff
Az aktuális adatkészletet rhs_dataset.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Paraméterek
Name | Description |
---|---|
rhs_dataset
Kötelező
|
Egy másik adatkészletet jobb oldali adathalmaznak is neveznek az összehasonlításhoz |
compute_target
Kötelező
|
számítási cél a szórás végrehajtásához. Ha nincs megadva, a rendszer a helyi számítást használja. |
columns
Kötelező
|
A diffben szerepeltetni kívánt oszlopnevek listája. |
Válaszok
Típus | Description |
---|---|
Adathalmaz-művelet futtassa az objektumot. |
from_binary_files
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet bináris fájlokból.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy inkább Dataset.File.from_files használjon. További információ: https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
DataReference vagy
str
Egy regisztrált vagy helyi elérési út adatútvonala. |
Válaszok
Típus | Description |
---|---|
Az Adathalmaz objektum. |
Megjegyzések
Ezzel a módszerrel fájlokat olvashat bináris adatok adatfolyamaként. Fájlolvasásonként egy fájlstream objektumot ad vissza. Ezt a módszert akkor használja, ha képeket, videókat, hangot vagy más bináris adatokat olvas.
get_profile és create_snapshot nem a várt módon fog működni az ezzel a módszerrel létrehozott adatkészlet esetében.
A visszaadott adatkészlet nincs regisztrálva a munkaterületen.
from_delimited_files
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet a tagolt fájlokból.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy inkább Dataset.Tabular.from_delimited_files használjon. További információ: https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
DataReference vagy
str
Egy regisztrált adattár adatútvonala, helyi elérési útja vagy HTTP-URL-címe. |
separator
Kötelező
|
Az oszlopok felosztásához használt elválasztó. |
header
Kötelező
|
Az oszlopfejlécek előléptetését szabályozza a fájlokból való olvasáskor. |
encoding
Kötelező
|
Az éppen olvasott fájlok kódolása. |
quoting
Kötelező
|
Itt adhatja meg, hogyan kezelhetők az új sorkarakterek az idézőjelekben. Az alapértelmezett (Hamis) az új sorkarakterek kezdő új sorként való értelmezése, függetlenül attól, hogy az új sorkarakterek idézőjelek között vannak-e. Ha Igaz értékre van állítva, az idézőjelekben lévő új sorkarakterek nem eredményeznek új sorokat, és a fájl olvasási sebessége lelassul. |
infer_column_types
Kötelező
|
Azt jelzi, hogy az oszlop adattípusai következtethetők-e. |
skip_rows
Kötelező
|
Hány sort kell kihagyni az éppen olvasott fájl(ok)ban. |
skip_mode
Kötelező
|
Azt szabályozza, hogy a sorok hogyan legyenek kihagyva a fájlokból való olvasáskor. |
comment
Kötelező
|
Az olvasott fájlok megjegyzéssorainak jelzésére szolgáló karakter. Az ezzel a sztringgel kezdődő vonalakat a program kihagyja. |
include_path
Kötelező
|
Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján. |
archive_options
Kötelező
|
<xref:azureml.dataprep.ArchiveOptions>
Az archív fájl beállításai, beleértve az archív típust és a belépési gömbmintát. Jelenleg csak a ZIP-t támogatjuk archív típusként. Például a
Beolvassa az összes olyan fájlt, amelynek neve "10-20.csv" végződésű a ZIP-ben. |
partition_format
Kötelező
|
Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.csv, ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához. |
Válaszok
Típus | Description |
---|---|
Adathalmaz-objektum. |
Megjegyzések
Ezzel a módszerrel beolvashatja a tagolt szövegfájlokat, amikor szabályozni szeretné a használt beállításokat.
Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia.
A visszaadott adatkészlet nincs regisztrálva a munkaterületen.
from_excel_files
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet Excel-fájlokból.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
DataReference vagy
str
Egy regisztrált vagy helyi elérési út adatútvonala. |
sheet_name
Kötelező
|
A betöltendő Excel-munkalap neve. Alapértelmezés szerint minden Excel-fájlból elolvassuk az első lapot. |
use_column_headers
Kötelező
|
Azt szabályozza, hogy az első sort oszlopfejlécként kell-e használni. |
skip_rows
Kötelező
|
Hány sort kell kihagyni az éppen olvasott fájl(ok)ban. |
include_path
Kötelező
|
Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján. |
infer_column_types
Kötelező
|
Ha igaz, az oszlop adattípusai kikövetkeztethetők. |
partition_format
Kötelező
|
Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.xlsx, ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához. |
Válaszok
Típus | Description |
---|---|
Adathalmaz-objektum. |
Megjegyzések
Ezzel a módszerrel excel-fájlokat olvashat .xlsx formátumban. Az adatok minden Excel-fájl egy lapjáról olvashatók. Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia. A visszaadott adatkészlet nincs regisztrálva a munkaterületen.
from_json_files
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet JSON-fájlokból.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy inkább Dataset.Tabular.from_json_lines_files használjon JSON-sorfájlból való olvasáshoz. További információ: https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
DataReference vagy
str
A betölteni és elemezni kívánt fájl(ok) vagy mappa(ok) elérési útja. Ez lehet egy helyi elérési út vagy egy Azure Blob URL-cím. A Globbing támogatott. Használhatja például a path = "./data*" elérési utat az összes olyan fájl olvasásához, amelynek a neve "data" (adatok) kezdetű. |
encoding
Kötelező
|
Az éppen olvasott fájlok kódolása. |
flatten_nested_arrays
Kötelező
|
A tulajdonságvezérlő program kezeli a beágyazott tömböket. Ha a beágyazott JSON-tömbök simítása mellett dönt, az sokkal több sort eredményezhet. |
include_path
Kötelező
|
Szerepeljen-e olyan oszlop, amely azt az elérési utat tartalmazza, amelyből az adatokat beolvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján. |
partition_format
Kötelező
|
Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.json" és az adatok részlegnév és idő szerint particionálva találhatók. A "/{Department}/{PartitionDate:yyyy/MM/dd}/data.json" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához definiálhatjuk. |
Válaszok
Típus | Description |
---|---|
A helyi Adathalmaz objektum. |
from_pandas_dataframe
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy pandas-adatkeretből.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy inkább Dataset.Tabular.register_pandas_dataframe használjon. További információ: https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Paraméterek
Name | Description |
---|---|
dataframe
Kötelező
|
A Pandas DataFrame. |
path
Kötelező
|
Egy adatútvonal a regisztrált adattárban vagy a helyi mappa elérési útján. |
in_memory
Kötelező
|
Azt jelzi, hogy a DataFrame-et a memóriából szeretné-e beolvasni a lemezen való megőrzése helyett. |
Válaszok
Típus | Description |
---|---|
Adathalmaz-objektum. |
Megjegyzések
Ezzel a módszerrel konvertálhat egy Pandas-adatkeretet adathalmaz-objektummá. Az ezzel a módszerrel létrehozott adatkészlet nem regisztrálható, mivel az adatok a memóriából származnak.
Ha in_memory
Hamis, a Pandas DataFrame helyileg CSV-fájllá lesz konvertálva. Ha pat
DataReference típusú, akkor a Pandas-keret fel lesz töltve az adattárba, és az adatkészlet a DataReference függvényen alapul. Ha az "elérési út" egy helyi mappa, az adatkészlet a helyi fájlból jön létre, amely nem törölhető.
Kivételt jelez, ha az aktuális DataReference nem mappaútvonal.
from_parquet_files
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet parquet-fájlokból.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy inkább Dataset.Tabular.from_parquet_files használjon. További információ: https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Paraméterek
Name | Description |
---|---|
path
Kötelező
|
DataReference vagy
str
Egy regisztrált vagy helyi elérési út adatútvonala. |
include_path
Kötelező
|
Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján. |
partition_format
Kötelező
|
Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.parquet" ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" oszlopokat a "Department" karakterlánctípus és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához. |
Válaszok
Típus | Description |
---|---|
Adathalmaz-objektum. |
Megjegyzések
Ezzel a módszerrel olvashat parquet-fájlokat.
Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia.
A visszaadott adatkészlet nincs regisztrálva a munkaterületen.
from_sql_query
Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy SQL-lekérdezésből.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy inkább Dataset.Tabular.from_sql_query használjon. További információ: https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Paraméterek
Name | Description |
---|---|
data_source
Kötelező
|
A Azure SQL adattár részletei. |
query
Kötelező
|
Az adatok olvasásához végrehajtandó lekérdezés. |
Válaszok
Típus | Description |
---|---|
A helyi Adathalmaz objektum. |
generate_profile
Hozzon létre új profilt az adatkészlethez.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Paraméterek
Name | Description |
---|---|
compute_target
Kötelező
|
Nem kötelező számítási cél a pillanatképprofil létrehozásához. Ha nincs megadva, a rendszer a helyi számítást használja. |
workspace
Kötelező
|
Az átmeneti (nem regisztrált) adathalmazokhoz szükséges munkaterület. |
arguments
Kötelező
|
Profilargumentumok. Az érvényes argumentumok a következők:
|
Válaszok
Típus | Description |
---|---|
Adathalmaz-művelet futtassa az objektumot. |
Megjegyzések
A szinkron hívás blokkolni fogja, amíg befejeződik. Hívás get_result a művelet eredményének lekéréséhez.
get
A munkaterületen már létező adatkészlet lekéréséhez adja meg a nevét vagy az azonosítóját.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy használja get_by_name a és get_by_id a helyett. További információ: https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Paraméterek
Name | Description |
---|---|
workspace
Kötelező
|
A meglévő AzureML-munkaterület, amelyben az adatkészlet létre lett hozva. |
name
Kötelező
|
A lekérendő adathalmaz neve. |
id
Kötelező
|
A munkaterület adatkészletének egyedi azonosítója. |
Válaszok
Típus | Description |
---|---|
A megadott névvel vagy azonosítóval rendelkező adatkészlet. |
Megjegyzések
A vagy id
a lehetőséget is megadhatjaname
. Kivétel akkor keletkezik, ha:
és
id
mindkettőname
meg van adva, de nem egyezik.a megadott
name
vagyid
nem található adatkészlet a munkaterületen.
get_all
Szerezze be a munkaterület összes regisztrált adathalmazát.
get_all()
Paraméterek
Name | Description |
---|---|
workspace
Kötelező
|
A meglévő AzureML-munkaterület, amelyben az adathalmazok regisztrálva lettek. |
Válaszok
Típus | Description |
---|---|
A TabularDataset és a FileDataset objektumok szótára, amely a regisztrációs nevük alapján van meghatározva. |
get_all_snapshots
Az adathalmaz összes pillanatképének lekérése.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
get_all_snapshots()
Válaszok
Típus | Description |
---|---|
Adathalmaz-pillanatképek listája. |
get_by_id
Szerezze be a munkaterületre mentett adatkészletet.
get_by_id(id, **kwargs)
Paraméterek
Name | Description |
---|---|
workspace
Kötelező
|
A meglévő AzureML-munkaterület, amelyben az adatkészlet mentve van. |
id
Kötelező
|
Az adathalmaz azonosítója. |
Válaszok
Típus | Description |
---|---|
Az adathalmaz-objektum. Ha az adathalmaz regisztrálva van, a rendszer a regisztrációs nevét és verzióját is visszaadja. |
get_by_name
Regisztrált adatkészlet lekérése a munkaterületről a regisztrációs neve alapján.
get_by_name(name, version='latest', **kwargs)
Paraméterek
Name | Description |
---|---|
workspace
Kötelező
|
A meglévő AzureML-munkaterület, amelyben az adatkészlet regisztrálva lett. |
name
Kötelező
|
A regisztrációs név. |
version
Kötelező
|
A regisztrációs verzió. Alapértelmezés szerint a "legújabb". |
Válaszok
Típus | Description |
---|---|
A regisztrált adathalmaz-objektum. |
get_definition
Kérje le az adatkészlet egy adott definícióját.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Paraméterek
Name | Description |
---|---|
version_id
Kötelező
|
Az adathalmaz-definíció verzióazonosítója |
Válaszok
Típus | Description |
---|---|
Az Adathalmaz definíciója. |
Megjegyzések
Ha version_id
meg van adva, az Azure Machine Learning megpróbálja lekérni az adott verziónak megfelelő definíciót. Ha ez a verzió nem létezik, a rendszer kivételt jelez.
Ha version_id
nincs megadva, a rendszer lekéri a legújabb verziót.
get_definitions
Szerezze be az adatkészlet összes definícióját.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
get_definitions()
Válaszok
Típus | Description |
---|---|
Adathalmaz-definíciók szótára. |
Megjegyzések
Egy AzureML-munkaterületen regisztrált adathalmaz több definícióval is rendelkezhet, amelyek mindegyike a hívásával update_definitionhozható létre. Minden definíció egyedi azonosítóval rendelkezik. A jelenlegi definíció a legutóbbi létrehozott definíció.
A nem regisztrált adathalmazok esetében csak egy definíció létezik.
get_profile
A korábban kiszámított adatkészlet összefoglaló statisztikáinak lekérése.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Paraméterek
Name | Description |
---|---|
arguments
Kötelező
|
Profilargumentumok. |
generate_if_not_exist
Kötelező
|
Azt jelzi, hogy létre kell-e hozni egy profilt, ha nem létezik. |
workspace
Kötelező
|
Az átmeneti (nem regisztrált) adathalmazokhoz szükséges munkaterület. |
compute_target
Kötelező
|
Egy számítási cél a profilművelet végrehajtásához. |
Válaszok
Típus | Description |
---|---|
<xref:azureml.dataprep.DataProfile>
|
Az adatkészlet DataProfile-e. |
Megjegyzések
Az Azure Machine Learning-munkaterületen regisztrált adatkészletek esetében ez a metódus lekéri a korábban get_profile
létrehozott meglévő profilt, ha az továbbra is érvényes. A profilok érvénytelenek lesznek, ha az adathalmazban módosult adatokat észlelnek, vagy a változó argumentumok get_profile
eltérnek a profil létrehozásakor használt argumentumoktól. Ha a profil nincs jelen vagy érvénytelenített, megállapítja, generate_if_not_exist
hogy létrejön-e új profil.
Az Azure Machine Learning-munkaterületen nem regisztrált adathalmazok esetében ez a módszer mindig futtatja generate_profile és visszaadja az eredményt.
get_snapshot
Az adathalmaz pillanatképének lekérése név szerint.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Paraméterek
Name | Description |
---|---|
snapshot_name
Kötelező
|
A pillanatkép neve. |
Válaszok
Típus | Description |
---|---|
Adathalmaz-pillanatkép-objektum. |
head
Kérje le az adatkészletből megadott számú rekordot, és adja vissza őket DataFrame-ként.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
head(count)
Paraméterek
Name | Description |
---|---|
count
Kötelező
|
A lekérendő rekordok száma. |
Válaszok
Típus | Description |
---|---|
Egy Pandas DataFrame. |
list
Listázhatja a munkaterület összes adathalmazát, beleértve a False (Hamis) tulajdonsággal rendelkezőket is_visible
is.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy inkább használja get_all . További információ: https://aka.ms/dataset-deprecation.
static list(workspace)
Paraméterek
Name | Description |
---|---|
workspace
Kötelező
|
Az a munkaterület, amelyhez le szeretné kérni az adathalmazok listáját. |
Válaszok
Típus | Description |
---|---|
Adathalmaz-objektumok listája. |
reactivate
Archivált vagy elavult adathalmaz újraaktiválása.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
reactivate()
Válaszok
Típus | Description |
---|---|
Nincsenek. |
register
Regisztrálja az adathalmazt a munkaterületen, és tegye elérhetővé a munkaterület többi felhasználója számára.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Javasoljuk, hogy inkább használja register . További információ: https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Paraméterek
Name | Description |
---|---|
workspace
Kötelező
|
Az AzureML-munkaterület, amelyben az adathalmaz regisztrálva van. |
name
Kötelező
|
A munkaterület adathalmazának neve. |
description
Kötelező
|
Az adatkészlet leírása. |
tags
Kötelező
|
Az adatkészlethez társítandó címkék. |
visible
Kötelező
|
Azt jelzi, hogy az adathalmaz látható-e a felhasználói felületen. Ha Hamis, akkor az adathalmaz el van rejtve a felhasználói felületen, és az SDK-val érhető el. |
exist_ok
Kötelező
|
Ha igaz, a metódus visszaadja az adathalmazt, ha már létezik az adott munkaterületen, máskülönben hiba. |
update_if_exist
Kötelező
|
Ha |
Válaszok
Típus | Description |
---|---|
Regisztrált adathalmaz-objektum a munkaterületen. |
sample
Hozzon létre egy új mintát a forrásadatkészletből a megadott mintavételezési stratégiával és paraméterekkel.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust take_sample . További információ: https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Paraméterek
Name | Description |
---|---|
sample_strategy
Kötelező
|
Használandó mintastratégia. Az elfogadott értékek a következők: "top_n", "simple_random", vagy "rétegzett". |
arguments
Kötelező
|
Egy szótár, amely a fenti listában szereplő "Választható argumentum" és a tye "Type" (Típus) oszlop értékeit tartalmazza. Csak a megfelelő mintavételezési módszer argumentumai használhatók. Például egy "simple_random" mintatípushoz csak "valószínűség" és "mag" kulcsokkal rendelkező szótárat adhat meg. |
Válaszok
Típus | Description |
---|---|
Az adathalmaz-objektum az eredeti adathalmaz mintája. |
Megjegyzések
A minták az adatkészlet által definiált átalakítási folyamat végrehajtásával jönnek létre, majd a mintavételezési stratégiát és a paramétereket a kimeneti adatokra alkalmazzák. Minden mintavételezési módszer a következő választható argumentumokat támogatja:
top_n
Választható argumentumok
- n, írja be az egész számot. Mintaként válassza ki a felső N sorokat.
simple_random
Választható argumentumok
valószínűség, írja be a lebegőpontos értéket. Egyszerű véletlenszerű mintavételezés, ahol minden sor azonos valószínűséggel van kiválasztva. A valószínűségnek 0 és 1 közötti számnak kell lennie.
mag, írja be a lebegőpontos. Véletlenszerű számgenerátor használja. Ismételhetőségre használható.
Rétegzett
Választható argumentumok
hasábok, írja be a list[str] kifejezést. Az adatok strataoszlopainak listája.
mag, írja be a lebegőpontos. Véletlenszerű számgenerátor használja. Ismételhetőségre használható.
törtek, írja be a dict[tuple, float] kifejezést. Rekord: a réteget definiáló oszlopértékek az oszlopnevekkel azonos sorrendben lehetnek. Lebegőpontos: a mintavétel során egy réteghez rögzített súly.
Az alábbi kódrészletek mintatervezési mintákat jelentenek a különböző mintameta-metódusokhoz.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Hozzon létre egy Pandas-adatkeretet az adathalmaz-definíció által definiált átalakítási folyamat végrehajtásával.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_pandas_dataframe . További információ: https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Válaszok
Típus | Description |
---|---|
Egy Pandas DataFrame. |
Megjegyzések
A Pandas DataFrame teljes mértékben materializált memóriát ad vissza.
to_spark_dataframe
Hozzon létre egy Spark DataFrame-et, amely végrehajtja az adathalmaz-definíció által definiált átalakítási folyamatot.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_spark_dataframe . További információ: https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Válaszok
Típus | Description |
---|---|
Egy Spark DataFrame. |
Megjegyzések
A visszaadott Spark-adatkeret csak végrehajtási terv, és valójában nem tartalmaz adatokat, mivel a Spark-adatkeretek lazán kiértékelve vannak.
update
Frissítse a munkaterület adathalmaz-mutable attribútumait, és adja vissza a frissített adathalmazt a munkaterületről.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Paraméterek
Name | Description |
---|---|
name
Kötelező
|
A munkaterület adathalmazának neve. |
description
Kötelező
|
Az adatok leírása. |
tags
Kötelező
|
Az adathalmaz társításához használandó címkék. |
visible
Kötelező
|
Azt jelzi, hogy az adathalmaz látható-e a felhasználói felületen. |
Válaszok
Típus | Description |
---|---|
Frissített Adathalmaz-objektum a munkaterületről. |
update_definition
Frissítse az Adathalmaz definícióját.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Paraméterek
Name | Description |
---|---|
definition
Kötelező
|
Az adatkészlet új definíciója. |
definition_update_message
Kötelező
|
A definíciófrissítés üzenete. |
Válaszok
Típus | Description |
---|---|
Frissített Adathalmaz-objektum a munkaterületről. |
Megjegyzések
A frissített adatkészlet felhasználásához használja az ezzel a módszerrel visszaadott objektumot.
Attribútumok
definition
Adja vissza az aktuális adathalmaz-definíciót.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
Válaszok
Típus | Description |
---|---|
Az Adathalmaz definíciója. |
Megjegyzések
Az adathalmaz-definíciók olyan lépések sorozatai, amelyek meghatározzák az adatok olvasásának és átalakításának módját.
Egy AzureML-munkaterületen regisztrált adathalmaz több definícióval is rendelkezhet, amelyek mindegyike a hívásával update_definitionhozható létre. Minden definíció egyedi azonosítóval rendelkezik. Ha több definícióval rendelkezik, akkor a meglévő adathalmazokat anélkül módosíthatja, hogy a régebbi definíciótól függő modelleket és folyamatokat használná.
A nem regisztrált adathalmazok esetében csak egy definíció létezik.
definition_version
Az adatkészlet aktuális definíciójának verzióját adja vissza.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
Válaszok
Típus | Description |
---|---|
Az Adathalmazdefiníció verziója. |
Megjegyzések
Az adathalmaz-definíciók olyan lépések sorozatai, amelyek meghatározzák az adatok olvasásának és átalakításának módját.
Egy AzureML-munkaterületen regisztrált adathalmaz több definícióval is rendelkezhet, amelyek mindegyike a hívásával update_definitionhozható létre. Minden definíció egyedi azonosítóval rendelkezik. A jelenlegi definíció a legutóbb létrehozott, amelynek azonosítóját ez adja vissza.
A nem regisztrált adathalmazok esetében csak egy definíció létezik.
description
Adja vissza az adatkészlet leírását.
Válaszok
Típus | Description |
---|---|
Az Adathalmaz leírása. |
Megjegyzések
Az adatkészlet adatainak leírásának megadása lehetővé teszi a munkaterület felhasználói számára, hogy megértsék, mit jelentenek az adatok, és hogyan használhatják őket.
id
Ha az adathalmaz regisztrálva lett egy munkaterületen, adja vissza az adathalmaz azonosítóját. Ellenkező esetben a Nincs értéket adja vissza.
Válaszok
Típus | Description |
---|---|
Az adathalmaz azonosítója. |
is_visible
Szabályozhatja egy regisztrált adatkészlet láthatóságát az Azure ML-munkaterület felhasználói felületén.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
Válaszok
Típus | Description |
---|---|
Az Adathalmaz láthatósága. |
Megjegyzések
Visszaadott értékek:
Igaz: Az adathalmaz látható a munkaterület felhasználói felületén. Default (Alapértelmezett):
Hamis: Az adathalmaz rejtett a munkaterület felhasználói felületén.
Nincs hatása a nem regisztrált adathalmazokra.
name
state
Az adatkészlet állapotát adja vissza.
Megjegyzés
Ez a módszer elavult, és a továbbiakban nem támogatott.
További információ: https://aka.ms/dataset-deprecation.
Válaszok
Típus | Description |
---|---|
Az Adathalmaz állapota. |
Megjegyzések
Az állapotok jelentése és hatása a következő:
Aktív. Az aktív definíciók pontosan így hangzanak, minden művelet elvégezhető az aktív definíciókon.
Elavult. elavult definíció használható, de figyelmeztetést eredményez a naplókban minden alkalommal, amikor a mögöttes adatok elérhetővé válik.
Archivált. Az archivált definíciók nem használhatók műveletek végrehajtására. Ha archivált definíción szeretne műveleteket végrehajtani, újra kell aktiválni.
tags
Adja vissza az adatkészlethez társított címkéket.
Válaszok
Típus | Description |
---|---|
Adathalmazcímkék. |
workspace
Ha az adathalmaz regisztrálva lett egy munkaterületen, azt adja vissza. Ellenkező esetben a Nincs értéket adja vissza.
Válaszok
Típus | Description |
---|---|
A munkaterület. |