Megosztás a következőn keresztül:


Dataset Osztály

Az Azure Machine Learningben az adatok feltárására, átalakítására és kezelésére szolgáló erőforrást jelöli.

Az adatkészletek nyilvános webes URL-címeken vagy mögött található Datastore adatokra mutató hivatkozások.

Az osztályban elavult metódusok esetében ellenőrizze AbstractDataset a továbbfejlesztett API-k osztályát.

A következő adathalmaztípusok támogatottak:

  • A TabularDataset adathalmaz az adatokat táblázatos formátumban jeleníti meg, amelyet a rendszer a megadott fájl vagy fájllista elemzésével hozott létre.

  • A FileDataset adathalmaz az adattárakban található vagy nyilvános URL-címeken elérhető egy vagy több fájlra hivatkozik.

Az adathalmazok használatának megkezdéséhez tekintse meg az Adathalmazok hozzáadása & regisztrálása című cikket, vagy tekintse meg a jegyzetfüzeteket https://aka.ms/tabulardataset-samplenotebook és https://aka.ms/filedataset-samplenotebooka .

Inicializálja az Adathalmaz objektumot.

A munkaterületen már regisztrált adatkészlet beszerzéséhez használja a get metódust.

Öröklődés
builtins.object
Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Paraméterek

Name Description
definition
Kötelező
<xref:azureml.data.DatasetDefinition>

Az Adathalmaz definíciója.

workspace
Kötelező

Az a munkaterület, amelyben az adathalmaz létezik.

name
Kötelező
str

Az adatkészlet neve.

id
Kötelező
str

Az adatkészlet egyedi azonosítója.

Megjegyzések

Az Adathalmaz osztály két kényelmi osztályattribútumot (File és Tabular) tesz elérhetővé, amelyekkel a megfelelő gyári metódusok használata nélkül hozhat létre adatkészletet. Például az alábbi attribútumok használatával hozhat létre adatkészletet:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

Létrehozhat egy új TabularDataset vagy FileDataset elemet is, ha közvetlenül meghívja a és FileDatasetFactorya osztályban TabularDatasetFactory definiált osztály megfelelő gyári metódusait.

Az alábbi példa bemutatja, hogyan hozható létre az adattár adott útvonalára mutató táblázatos adathalmaz.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

A teljes minta a következő forrásból érhető el: https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Változók

Name Description
azureml.core.Dataset.File

Egy osztályattribútum, amely hozzáférést biztosít a FileDatasetFactory metódusokhoz új FileDataset-objektumok létrehozásához. Használat: Dataset.File.from_files().

azureml.core.Dataset.Tabular

Egy osztályattribútum, amely hozzáférést biztosít a TabularDatasetFactory metódusokhoz új TabularDataset-objektumok létrehozásához. Használat: Dataset.Tabular.from_delimited_files().

Metódusok

archive

Aktív vagy elavult adathalmaz archiválása.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

auto_read_files

Elemzi a fájl(ok)t a megadott elérési úton, és egy új adatkészletet ad vissza.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy a fájlok olvasásához használja a Dataset.Tabular.from_* metódusokat. További információ: https://aka.ms/dataset-deprecation.

compare_profiles

Hasonlítsa össze az aktuális adathalmaz profilját egy másik adathalmazprofillal.

Ez két adathalmaz összesítő statisztikáinak különbségeit mutatja. A "rhs_dataset" paraméter a "jobb oldali" értéket jelenti, és egyszerűen a második adatkészlet. Az első adathalmaz (az aktuális adathalmaz-objektum) a "bal oldali".

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

create_snapshot

Hozzon létre egy pillanatképet a regisztrált adatkészletről.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

delete_snapshot

Az adathalmaz pillanatképének törlése név szerint.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

deprecate

Egy aktív adatkészlet elavultja egy munkaterületen egy másik adatkészlet által.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

diff

Az aktuális adatkészletet rhs_dataset.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

from_binary_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet bináris fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.File.from_files használjon. További információ: https://aka.ms/dataset-deprecation.

from_delimited_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet a tagolt fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_delimited_files használjon. További információ: https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet Excel-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

from_json_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet JSON-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_json_lines_files használjon JSON-sorfájlból való olvasáshoz. További információ: https://aka.ms/dataset-deprecation.

from_pandas_dataframe

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy pandas-adatkeretből.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.register_pandas_dataframe használjon. További információ: https://aka.ms/dataset-deprecation.

from_parquet_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet parquet-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_parquet_files használjon. További információ: https://aka.ms/dataset-deprecation.

from_sql_query

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy SQL-lekérdezésből.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_sql_query használjon. További információ: https://aka.ms/dataset-deprecation.

generate_profile

Hozzon létre új profilt az adatkészlethez.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get

A munkaterületen már létező adatkészlet lekéréséhez adja meg a nevét vagy az azonosítóját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy használja get_by_name a és get_by_id a helyett. További információ: https://aka.ms/dataset-deprecation.

get_all

Szerezze be a munkaterület összes regisztrált adathalmazát.

get_all_snapshots

Az adathalmaz összes pillanatképének lekérése.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_by_id

Szerezze be a munkaterületre mentett adatkészletet.

get_by_name

Regisztrált adatkészlet lekérése a munkaterületről a regisztrációs neve alapján.

get_definition

Kérje le az adatkészlet egy adott definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_definitions

Szerezze be az adatkészlet összes definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_profile

A korábban kiszámított adatkészlet összefoglaló statisztikáinak lekérése.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_snapshot

Az adathalmaz pillanatképének lekérése név szerint.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

head

Kérje le az adatkészletből megadott számú rekordot, és adja vissza őket DataFrame-ként.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

list

Listázhatja a munkaterület összes adathalmazát, beleértve a False (Hamis) tulajdonsággal rendelkezőket is_visible is.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább használja get_all . További információ: https://aka.ms/dataset-deprecation.

reactivate

Archivált vagy elavult adathalmaz újraaktiválása.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

register

Regisztrálja az adathalmazt a munkaterületen, és tegye elérhetővé a munkaterület többi felhasználója számára.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább használja register . További információ: https://aka.ms/dataset-deprecation.

sample

Hozzon létre egy új mintát a forrásadatkészletből a megadott mintavételezési stratégiával és paraméterekkel.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust take_sample . További információ: https://aka.ms/dataset-deprecation.

to_pandas_dataframe

Hozzon létre egy Pandas-adatkeretet az adathalmaz-definíció által definiált átalakítási folyamat végrehajtásával.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_pandas_dataframe . További információ: https://aka.ms/dataset-deprecation.

to_spark_dataframe

Hozzon létre egy Spark DataFrame-et, amely végrehajtja az adathalmaz-definíció által definiált átalakítási folyamatot.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_spark_dataframe . További információ: https://aka.ms/dataset-deprecation.

update

Frissítse a munkaterület adathalmaz-mutable attribútumait, és adja vissza a frissített adathalmazt a munkaterületről.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

update_definition

Frissítse az Adathalmaz definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

archive

Aktív vagy elavult adathalmaz archiválása.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

archive()

Válaszok

Típus Description

Nincsenek.

Megjegyzések

Az archiválás után az adathalmaz felhasználására tett kísérletek hibát eredményeznek. Ha az archiválás véletlenül történik, az újraaktiválás aktiválja azt.

auto_read_files

Elemzi a fájl(ok)t a megadott elérési úton, és egy új adatkészletet ad vissza.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy a fájlok olvasásához használja a Dataset.Tabular.from_* metódusokat. További információ: https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Paraméterek

Name Description
path
Kötelező

Adatútvonal egy regisztrált adattárban, egy helyi útvonalon vagy EGY HTTP URL-címen (CSV/TSV).

include_path
Kötelező

Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Több fájl olvasásakor hasznos, és tudni szeretné, hogy egy adott rekord melyik fájlból származik. Akkor is hasznos, ha egy oszlopban a fájl elérési útja vagy neve szerepel.

partition_format
Kötelező
str

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.csv, ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához.

Válaszok

Típus Description

Adathalmaz-objektum.

Megjegyzések

Ezt a módszert akkor használja, ha automatikusan észleli a fájlformátumokat és a határolójeleket.

Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia.

A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

compare_profiles

Hasonlítsa össze az aktuális adathalmaz profilját egy másik adathalmazprofillal.

Ez két adathalmaz összesítő statisztikáinak különbségeit mutatja. A "rhs_dataset" paraméter a "jobb oldali" értéket jelenti, és egyszerűen a második adatkészlet. Az első adathalmaz (az aktuális adathalmaz-objektum) a "bal oldali".

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Paraméterek

Name Description
rhs_dataset
Kötelező

Egy második adatkészlet, más néven "jobb oldali" adatkészlet az összehasonlításhoz.

profile_arguments
Kötelező

Adott profil újrapróbálkozásához használható argumentumok.

include_columns
Kötelező

Az összehasonlításban szerepeltetni kívánt oszlopnevek listája.

exclude_columns
Kötelező

Az összehasonlításban kizárandó oszlopnevek listája.

histogram_compare_method
Kötelező

Az összehasonlítási módszert leíró enumerálási módszer, például: Wasserstein vagy Energy

Válaszok

Típus Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Különbség a két adathalmaz-profil között.

Megjegyzések

Ez csak regisztrált adathalmazokra vonatkozik. Kivételt okoz, ha az aktuális adathalmaz profilja nem létezik. A nem regisztrált adathalmazok esetében használja a profile.compare metódust.

create_snapshot

Hozzon létre egy pillanatképet a regisztrált adatkészletről.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Paraméterek

Name Description
snapshot_name
Kötelező
str

A pillanatkép neve. A pillanatképek nevének egyedinek kell lennie egy adatkészleten belül.

compute_target
Kötelező

Nem kötelező számítási cél a pillanatképprofil létrehozásához. Ha nincs megadva, a rendszer a helyi számítást használja.

create_data_snapshot
Kötelező

Ha igaz, létrejön az adatok materializált másolata.

target_datastore
Kötelező

Céladattár a pillanatkép mentéséhez. Ha nincs megadva, a pillanatkép a munkaterület alapértelmezett tárolójában jön létre.

Válaszok

Típus Description

Adathalmaz-pillanatkép-objektum.

Megjegyzések

A pillanatképek az alapul szolgáló adatok időösszesítő statisztikáit és magát az adatok egy opcionális másolatát rögzítik. A pillanatképek létrehozásával kapcsolatos további információkért látogasson el a webhelyre https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Az adathalmaz pillanatképének törlése név szerint.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Paraméterek

Name Description
snapshot_name
Kötelező
str

A pillanatkép neve.

Válaszok

Típus Description

Nincsenek.

Megjegyzések

Ezzel felszabadíthatja a pillanatképekbe mentett adatok által felhasznált tárterületet, amelyekre már nincs szüksége.

deprecate

Egy aktív adatkészlet elavultja egy munkaterületen egy másik adatkészlet által.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Paraméterek

Name Description
deprecate_by_dataset_id
Kötelező
str

Az adathalmaz-azonosító, amely az adathalmaz kívánt pótlása.

Válaszok

Típus Description

Nincsenek.

Megjegyzések

Az elavult adathalmazok a használatukkor naplóznak figyelmeztetéseket. Az adathalmaz elavultsága az összes definícióját elavultnak tekinti.

Az elavult adathalmazok továbbra is felhasználhatók. Az adathalmazok felhasználásának teljes letiltásához archiválja azt.

Ha véletlenül elavult, az újraaktiválás aktiválja azt.

diff

Az aktuális adatkészletet rhs_dataset.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Paraméterek

Name Description
rhs_dataset
Kötelező

Egy másik adatkészletet jobb oldali adathalmaznak is neveznek az összehasonlításhoz

compute_target
Kötelező

számítási cél a szórás végrehajtásához. Ha nincs megadva, a rendszer a helyi számítást használja.

columns
Kötelező

A diffben szerepeltetni kívánt oszlopnevek listája.

Válaszok

Típus Description

Adathalmaz-művelet futtassa az objektumot.

from_binary_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet bináris fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.File.from_files használjon. További információ: https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Paraméterek

Name Description
path
Kötelező

Egy regisztrált vagy helyi elérési út adatútvonala.

Válaszok

Típus Description

Az Adathalmaz objektum.

Megjegyzések

Ezzel a módszerrel fájlokat olvashat bináris adatok adatfolyamaként. Fájlolvasásonként egy fájlstream objektumot ad vissza. Ezt a módszert akkor használja, ha képeket, videókat, hangot vagy más bináris adatokat olvas.

get_profile és create_snapshot nem a várt módon fog működni az ezzel a módszerrel létrehozott adatkészlet esetében.

A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

from_delimited_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet a tagolt fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_delimited_files használjon. További információ: https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Paraméterek

Name Description
path
Kötelező

Egy regisztrált adattár adatútvonala, helyi elérési útja vagy HTTP-URL-címe.

separator
Kötelező
str

Az oszlopok felosztásához használt elválasztó.

header
Kötelező

Az oszlopfejlécek előléptetését szabályozza a fájlokból való olvasáskor.

encoding
Kötelező

Az éppen olvasott fájlok kódolása.

quoting
Kötelező

Itt adhatja meg, hogyan kezelhetők az új sorkarakterek az idézőjelekben. Az alapértelmezett (Hamis) az új sorkarakterek kezdő új sorként való értelmezése, függetlenül attól, hogy az új sorkarakterek idézőjelek között vannak-e. Ha Igaz értékre van állítva, az idézőjelekben lévő új sorkarakterek nem eredményeznek új sorokat, és a fájl olvasási sebessége lelassul.

infer_column_types
Kötelező

Azt jelzi, hogy az oszlop adattípusai következtethetők-e.

skip_rows
Kötelező
int

Hány sort kell kihagyni az éppen olvasott fájl(ok)ban.

skip_mode
Kötelező

Azt szabályozza, hogy a sorok hogyan legyenek kihagyva a fájlokból való olvasáskor.

comment
Kötelező
str

Az olvasott fájlok megjegyzéssorainak jelzésére szolgáló karakter. Az ezzel a sztringgel kezdődő vonalakat a program kihagyja.

include_path
Kötelező

Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

archive_options
Kötelező
<xref:azureml.dataprep.ArchiveOptions>

Az archív fájl beállításai, beleértve az archív típust és a belépési gömbmintát. Jelenleg csak a ZIP-t támogatjuk archív típusként. Például a


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

Beolvassa az összes olyan fájlt, amelynek neve "10-20.csv" végződésű a ZIP-ben.

partition_format
Kötelező
str

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.csv, ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához.

Válaszok

Típus Description

Adathalmaz-objektum.

Megjegyzések

Ezzel a módszerrel beolvashatja a tagolt szövegfájlokat, amikor szabályozni szeretné a használt beállításokat.

Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia.

A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

from_excel_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet Excel-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Paraméterek

Name Description
path
Kötelező

Egy regisztrált vagy helyi elérési út adatútvonala.

sheet_name
Kötelező
str

A betöltendő Excel-munkalap neve. Alapértelmezés szerint minden Excel-fájlból elolvassuk az első lapot.

use_column_headers
Kötelező

Azt szabályozza, hogy az első sort oszlopfejlécként kell-e használni.

skip_rows
Kötelező
int

Hány sort kell kihagyni az éppen olvasott fájl(ok)ban.

include_path
Kötelező

Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

infer_column_types
Kötelező

Ha igaz, az oszlop adattípusai kikövetkeztethetők.

partition_format
Kötelező
str

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.xlsx, ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához.

Válaszok

Típus Description

Adathalmaz-objektum.

Megjegyzések

Ezzel a módszerrel excel-fájlokat olvashat .xlsx formátumban. Az adatok minden Excel-fájl egy lapjáról olvashatók. Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia. A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

from_json_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet JSON-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_json_lines_files használjon JSON-sorfájlból való olvasáshoz. További információ: https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Paraméterek

Name Description
path
Kötelező

A betölteni és elemezni kívánt fájl(ok) vagy mappa(ok) elérési útja. Ez lehet egy helyi elérési út vagy egy Azure Blob URL-cím. A Globbing támogatott. Használhatja például a path = "./data*" elérési utat az összes olyan fájl olvasásához, amelynek a neve "data" (adatok) kezdetű.

encoding
Kötelező

Az éppen olvasott fájlok kódolása.

flatten_nested_arrays
Kötelező

A tulajdonságvezérlő program kezeli a beágyazott tömböket. Ha a beágyazott JSON-tömbök simítása mellett dönt, az sokkal több sort eredményezhet.

include_path
Kötelező

Szerepeljen-e olyan oszlop, amely azt az elérési utat tartalmazza, amelyből az adatokat beolvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

partition_format
Kötelező
str

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.json" és az adatok részlegnév és idő szerint particionálva találhatók. A "/{Department}/{PartitionDate:yyyy/MM/dd}/data.json" oszlopokat a "Department" karakterlánctípusú és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához definiálhatjuk.

Válaszok

Típus Description

A helyi Adathalmaz objektum.

from_pandas_dataframe

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy pandas-adatkeretből.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.register_pandas_dataframe használjon. További információ: https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Paraméterek

Name Description
dataframe
Kötelező

A Pandas DataFrame.

path
Kötelező

Egy adatútvonal a regisztrált adattárban vagy a helyi mappa elérési útján.

in_memory
Kötelező

Azt jelzi, hogy a DataFrame-et a memóriából szeretné-e beolvasni a lemezen való megőrzése helyett.

Válaszok

Típus Description

Adathalmaz-objektum.

Megjegyzések

Ezzel a módszerrel konvertálhat egy Pandas-adatkeretet adathalmaz-objektummá. Az ezzel a módszerrel létrehozott adatkészlet nem regisztrálható, mivel az adatok a memóriából származnak.

Ha in_memory Hamis, a Pandas DataFrame helyileg CSV-fájllá lesz konvertálva. Ha pat DataReference típusú, akkor a Pandas-keret fel lesz töltve az adattárba, és az adatkészlet a DataReference függvényen alapul. Ha az "elérési út" egy helyi mappa, az adatkészlet a helyi fájlból jön létre, amely nem törölhető.

Kivételt jelez, ha az aktuális DataReference nem mappaútvonal.

from_parquet_files

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet parquet-fájlokból.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_parquet_files használjon. További információ: https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Paraméterek

Name Description
path
Kötelező

Egy regisztrált vagy helyi elérési út adatútvonala.

include_path
Kötelező

Szerepeljen-e olyan oszlop, amely annak a fájlnak az elérési útját tartalmazza, amelyből az adatokat olvasták. Ez akkor hasznos, ha több fájlt olvas, és tudni szeretné, hogy egy adott rekord melyik fájlból származik, vagy ha hasznos információkat szeretne megőrizni a fájl elérési útján.

partition_format
Kötelező
str

Adja meg a partíció formátumát az elérési úton, és hozzon létre sztringoszlopokat a(z) "{x}" formátumból, valamint a datetime oszlopot a(z) {x:yyyy/MM/dd/HH/mm/ss} formátumból, ahol az "éééé", az "MM", a "dd", a "HH", az "mm" és az "ss" formátumot a dátum/idő típus év, hónap, nap, óra, perc és másodperc extratására használják. A formátumnak az első partíciókulcs helyzetétől a fájl elérési útjának végéig kell kezdődnie. Például adja meg a fájl elérési útját : '.. /Accounts/2019/01/01/data.parquet" ahol az adatok részlegnév és idő szerint vannak particionálva, definiálhatjuk a "/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet" oszlopokat a "Department" karakterlánctípus és a "PartitionDate" dátum/idő típusú oszlopok létrehozásához.

Válaszok

Típus Description

Adathalmaz-objektum.

Megjegyzések

Ezzel a módszerrel olvashat parquet-fájlokat.

Az adatkészlet létrehozása után az egyes oszlopok észlelt oszloptípusait és összesítő statisztikáit kell get_profile listáznia.

A visszaadott adatkészlet nincs regisztrálva a munkaterületen.

from_sql_query

Hozzon létre egy nem regisztrált, memórián belüli adatkészletet egy SQL-lekérdezésből.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább Dataset.Tabular.from_sql_query használjon. További információ: https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Paraméterek

Name Description
data_source
Kötelező

A Azure SQL adattár részletei.

query
Kötelező
str

Az adatok olvasásához végrehajtandó lekérdezés.

Válaszok

Típus Description

A helyi Adathalmaz objektum.

generate_profile

Hozzon létre új profilt az adatkészlethez.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Paraméterek

Name Description
compute_target
Kötelező

Nem kötelező számítási cél a pillanatképprofil létrehozásához. Ha nincs megadva, a rendszer a helyi számítást használja.

workspace
Kötelező

Az átmeneti (nem regisztrált) adathalmazokhoz szükséges munkaterület.

arguments
Kötelező

Profilargumentumok. Az érvényes argumentumok a következők:

  • "include_stype_counts" típusú bool. Ellenőrizze, hogy az értékek jól ismert szemantikai típusokhoz hasonlóan néznek-e ki, például e-mail-cím, IP-cím (V4/V6), USA-telefonszám, USA irányítószáma, Szélesség/Hosszúság. Ennek engedélyezése hatással van a teljesítményre.

  • "number_of_histogram_bins" típusú int. A számadatokhoz használandó hisztogramtárolók számát jelöli. Az alapértelmezett érték 10.

Válaszok

Típus Description

Adathalmaz-művelet futtassa az objektumot.

Megjegyzések

A szinkron hívás blokkolni fogja, amíg befejeződik. Hívás get_result a művelet eredményének lekéréséhez.

get

A munkaterületen már létező adatkészlet lekéréséhez adja meg a nevét vagy az azonosítóját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy használja get_by_name a és get_by_id a helyett. További információ: https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Paraméterek

Name Description
workspace
Kötelező

A meglévő AzureML-munkaterület, amelyben az adatkészlet létre lett hozva.

name
Kötelező
str

A lekérendő adathalmaz neve.

id
Kötelező
str

A munkaterület adatkészletének egyedi azonosítója.

Válaszok

Típus Description

A megadott névvel vagy azonosítóval rendelkező adatkészlet.

Megjegyzések

A vagy ida lehetőséget is megadhatjaname. Kivétel akkor keletkezik, ha:

  • és id mindkettő name meg van adva, de nem egyezik.

  • a megadott name vagy id nem található adatkészlet a munkaterületen.

get_all

Szerezze be a munkaterület összes regisztrált adathalmazát.

get_all()

Paraméterek

Name Description
workspace
Kötelező

A meglévő AzureML-munkaterület, amelyben az adathalmazok regisztrálva lettek.

Válaszok

Típus Description

A TabularDataset és a FileDataset objektumok szótára, amely a regisztrációs nevük alapján van meghatározva.

get_all_snapshots

Az adathalmaz összes pillanatképének lekérése.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_all_snapshots()

Válaszok

Típus Description

Adathalmaz-pillanatképek listája.

get_by_id

Szerezze be a munkaterületre mentett adatkészletet.

get_by_id(id, **kwargs)

Paraméterek

Name Description
workspace
Kötelező

A meglévő AzureML-munkaterület, amelyben az adatkészlet mentve van.

id
Kötelező
str

Az adathalmaz azonosítója.

Válaszok

Típus Description

Az adathalmaz-objektum. Ha az adathalmaz regisztrálva van, a rendszer a regisztrációs nevét és verzióját is visszaadja.

get_by_name

Regisztrált adatkészlet lekérése a munkaterületről a regisztrációs neve alapján.

get_by_name(name, version='latest', **kwargs)

Paraméterek

Name Description
workspace
Kötelező

A meglévő AzureML-munkaterület, amelyben az adatkészlet regisztrálva lett.

name
Kötelező
str

A regisztrációs név.

version
Kötelező
int

A regisztrációs verzió. Alapértelmezés szerint a "legújabb".

Válaszok

Típus Description

A regisztrált adathalmaz-objektum.

get_definition

Kérje le az adatkészlet egy adott definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Paraméterek

Name Description
version_id
Kötelező
str

Az adathalmaz-definíció verzióazonosítója

Válaszok

Típus Description

Az Adathalmaz definíciója.

Megjegyzések

Ha version_id meg van adva, az Azure Machine Learning megpróbálja lekérni az adott verziónak megfelelő definíciót. Ha ez a verzió nem létezik, a rendszer kivételt jelez. Ha version_id nincs megadva, a rendszer lekéri a legújabb verziót.

get_definitions

Szerezze be az adatkészlet összes definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_definitions()

Válaszok

Típus Description

Adathalmaz-definíciók szótára.

Megjegyzések

Egy AzureML-munkaterületen regisztrált adathalmaz több definícióval is rendelkezhet, amelyek mindegyike a hívásával update_definitionhozható létre. Minden definíció egyedi azonosítóval rendelkezik. A jelenlegi definíció a legutóbbi létrehozott definíció.

A nem regisztrált adathalmazok esetében csak egy definíció létezik.

get_profile

A korábban kiszámított adatkészlet összefoglaló statisztikáinak lekérése.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Paraméterek

Name Description
arguments
Kötelező

Profilargumentumok.

generate_if_not_exist
Kötelező

Azt jelzi, hogy létre kell-e hozni egy profilt, ha nem létezik.

workspace
Kötelező

Az átmeneti (nem regisztrált) adathalmazokhoz szükséges munkaterület.

compute_target
Kötelező

Egy számítási cél a profilművelet végrehajtásához.

Válaszok

Típus Description
<xref:azureml.dataprep.DataProfile>

Az adatkészlet DataProfile-e.

Megjegyzések

Az Azure Machine Learning-munkaterületen regisztrált adatkészletek esetében ez a metódus lekéri a korábban get_profile létrehozott meglévő profilt, ha az továbbra is érvényes. A profilok érvénytelenek lesznek, ha az adathalmazban módosult adatokat észlelnek, vagy a változó argumentumok get_profile eltérnek a profil létrehozásakor használt argumentumoktól. Ha a profil nincs jelen vagy érvénytelenített, megállapítja, generate_if_not_exist hogy létrejön-e új profil.

Az Azure Machine Learning-munkaterületen nem regisztrált adathalmazok esetében ez a módszer mindig futtatja generate_profile és visszaadja az eredményt.

get_snapshot

Az adathalmaz pillanatképének lekérése név szerint.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Paraméterek

Name Description
snapshot_name
Kötelező
str

A pillanatkép neve.

Válaszok

Típus Description

Adathalmaz-pillanatkép-objektum.

head

Kérje le az adatkészletből megadott számú rekordot, és adja vissza őket DataFrame-ként.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

head(count)

Paraméterek

Name Description
count
Kötelező
int

A lekérendő rekordok száma.

Válaszok

Típus Description

Egy Pandas DataFrame.

list

Listázhatja a munkaterület összes adathalmazát, beleértve a False (Hamis) tulajdonsággal rendelkezőket is_visible is.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább használja get_all . További információ: https://aka.ms/dataset-deprecation.

static list(workspace)

Paraméterek

Name Description
workspace
Kötelező

Az a munkaterület, amelyhez le szeretné kérni az adathalmazok listáját.

Válaszok

Típus Description

Adathalmaz-objektumok listája.

reactivate

Archivált vagy elavult adathalmaz újraaktiválása.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

reactivate()

Válaszok

Típus Description

Nincsenek.

register

Regisztrálja az adathalmazt a munkaterületen, és tegye elérhetővé a munkaterület többi felhasználója számára.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Javasoljuk, hogy inkább használja register . További információ: https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Paraméterek

Name Description
workspace
Kötelező

Az AzureML-munkaterület, amelyben az adathalmaz regisztrálva van.

name
Kötelező
str

A munkaterület adathalmazának neve.

description
Kötelező
str

Az adatkészlet leírása.

tags
Kötelező

Az adatkészlethez társítandó címkék.

visible
Kötelező

Azt jelzi, hogy az adathalmaz látható-e a felhasználói felületen. Ha Hamis, akkor az adathalmaz el van rejtve a felhasználói felületen, és az SDK-val érhető el.

exist_ok
Kötelező

Ha igaz, a metódus visszaadja az adathalmazt, ha már létezik az adott munkaterületen, máskülönben hiba.

update_if_exist
Kötelező

Ha exist_ok igaz, és update_if_exist igaz, akkor ez a metódus frissíti a definíciót, és visszaadja a frissített adatkészletet.

Válaszok

Típus Description

Regisztrált adathalmaz-objektum a munkaterületen.

sample

Hozzon létre egy új mintát a forrásadatkészletből a megadott mintavételezési stratégiával és paraméterekkel.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust take_sample . További információ: https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Paraméterek

Name Description
sample_strategy
Kötelező
str

Használandó mintastratégia. Az elfogadott értékek a következők: "top_n", "simple_random", vagy "rétegzett".

arguments
Kötelező

Egy szótár, amely a fenti listában szereplő "Választható argumentum" és a tye "Type" (Típus) oszlop értékeit tartalmazza. Csak a megfelelő mintavételezési módszer argumentumai használhatók. Például egy "simple_random" mintatípushoz csak "valószínűség" és "mag" kulcsokkal rendelkező szótárat adhat meg.

Válaszok

Típus Description

Az adathalmaz-objektum az eredeti adathalmaz mintája.

Megjegyzések

A minták az adatkészlet által definiált átalakítási folyamat végrehajtásával jönnek létre, majd a mintavételezési stratégiát és a paramétereket a kimeneti adatokra alkalmazzák. Minden mintavételezési módszer a következő választható argumentumokat támogatja:

  • top_n

    • Választható argumentumok

      • n, írja be az egész számot. Mintaként válassza ki a felső N sorokat.
  • simple_random

    • Választható argumentumok

      • valószínűség, írja be a lebegőpontos értéket. Egyszerű véletlenszerű mintavételezés, ahol minden sor azonos valószínűséggel van kiválasztva. A valószínűségnek 0 és 1 közötti számnak kell lennie.

      • mag, írja be a lebegőpontos. Véletlenszerű számgenerátor használja. Ismételhetőségre használható.

  • Rétegzett

    • Választható argumentumok

      • hasábok, írja be a list[str] kifejezést. Az adatok strataoszlopainak listája.

      • mag, írja be a lebegőpontos. Véletlenszerű számgenerátor használja. Ismételhetőségre használható.

      • törtek, írja be a dict[tuple, float] kifejezést. Rekord: a réteget definiáló oszlopértékek az oszlopnevekkel azonos sorrendben lehetnek. Lebegőpontos: a mintavétel során egy réteghez rögzített súly.

Az alábbi kódrészletek mintatervezési mintákat jelentenek a különböző mintameta-metódusokhoz.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Hozzon létre egy Pandas-adatkeretet az adathalmaz-definíció által definiált átalakítási folyamat végrehajtásával.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_pandas_dataframe . További információ: https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Válaszok

Típus Description

Egy Pandas DataFrame.

Megjegyzések

A Pandas DataFrame teljes mértékben materializált memóriát ad vissza.

to_spark_dataframe

Hozzon létre egy Spark DataFrame-et, amely végrehajtja az adathalmaz-definíció által definiált átalakítási folyamatot.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

Hozzon létre egy TabularDataset elemet a Dataset.Tabular statikus metódusainak meghívásával, és használja ott a metódust to_spark_dataframe . További információ: https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Válaszok

Típus Description

Egy Spark DataFrame.

Megjegyzések

A visszaadott Spark-adatkeret csak végrehajtási terv, és valójában nem tartalmaz adatokat, mivel a Spark-adatkeretek lazán kiértékelve vannak.

update

Frissítse a munkaterület adathalmaz-mutable attribútumait, és adja vissza a frissített adathalmazt a munkaterületről.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Paraméterek

Name Description
name
Kötelező
str

A munkaterület adathalmazának neve.

description
Kötelező
str

Az adatok leírása.

tags
Kötelező

Az adathalmaz társításához használandó címkék.

visible
Kötelező

Azt jelzi, hogy az adathalmaz látható-e a felhasználói felületen.

Válaszok

Típus Description

Frissített Adathalmaz-objektum a munkaterületről.

update_definition

Frissítse az Adathalmaz definícióját.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Paraméterek

Name Description
definition
Kötelező

Az adatkészlet új definíciója.

definition_update_message
Kötelező
str

A definíciófrissítés üzenete.

Válaszok

Típus Description

Frissített Adathalmaz-objektum a munkaterületről.

Megjegyzések

A frissített adatkészlet felhasználásához használja az ezzel a módszerrel visszaadott objektumot.

Attribútumok

definition

Adja vissza az aktuális adathalmaz-definíciót.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

Válaszok

Típus Description

Az Adathalmaz definíciója.

Megjegyzések

Az adathalmaz-definíciók olyan lépések sorozatai, amelyek meghatározzák az adatok olvasásának és átalakításának módját.

Egy AzureML-munkaterületen regisztrált adathalmaz több definícióval is rendelkezhet, amelyek mindegyike a hívásával update_definitionhozható létre. Minden definíció egyedi azonosítóval rendelkezik. Ha több definícióval rendelkezik, akkor a meglévő adathalmazokat anélkül módosíthatja, hogy a régebbi definíciótól függő modelleket és folyamatokat használná.

A nem regisztrált adathalmazok esetében csak egy definíció létezik.

definition_version

Az adatkészlet aktuális definíciójának verzióját adja vissza.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

Válaszok

Típus Description
str

Az Adathalmazdefiníció verziója.

Megjegyzések

Az adathalmaz-definíciók olyan lépések sorozatai, amelyek meghatározzák az adatok olvasásának és átalakításának módját.

Egy AzureML-munkaterületen regisztrált adathalmaz több definícióval is rendelkezhet, amelyek mindegyike a hívásával update_definitionhozható létre. Minden definíció egyedi azonosítóval rendelkezik. A jelenlegi definíció a legutóbb létrehozott, amelynek azonosítóját ez adja vissza.

A nem regisztrált adathalmazok esetében csak egy definíció létezik.

description

Adja vissza az adatkészlet leírását.

Válaszok

Típus Description
str

Az Adathalmaz leírása.

Megjegyzések

Az adatkészlet adatainak leírásának megadása lehetővé teszi a munkaterület felhasználói számára, hogy megértsék, mit jelentenek az adatok, és hogyan használhatják őket.

id

Ha az adathalmaz regisztrálva lett egy munkaterületen, adja vissza az adathalmaz azonosítóját. Ellenkező esetben a Nincs értéket adja vissza.

Válaszok

Típus Description
str

Az adathalmaz azonosítója.

is_visible

Szabályozhatja egy regisztrált adatkészlet láthatóságát az Azure ML-munkaterület felhasználói felületén.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

Válaszok

Típus Description

Az Adathalmaz láthatósága.

Megjegyzések

Visszaadott értékek:

  • Igaz: Az adathalmaz látható a munkaterület felhasználói felületén. Default (Alapértelmezett):

  • Hamis: Az adathalmaz rejtett a munkaterület felhasználói felületén.

Nincs hatása a nem regisztrált adathalmazokra.

name

Adja vissza az adathalmaz nevét.

Válaszok

Típus Description
str

Az Adathalmaz neve.

state

Az adatkészlet állapotát adja vissza.

Megjegyzés

Ez a módszer elavult, és a továbbiakban nem támogatott.

További információ: https://aka.ms/dataset-deprecation.

Válaszok

Típus Description
str

Az Adathalmaz állapota.

Megjegyzések

Az állapotok jelentése és hatása a következő:

  • Aktív. Az aktív definíciók pontosan így hangzanak, minden művelet elvégezhető az aktív definíciókon.

  • Elavult. elavult definíció használható, de figyelmeztetést eredményez a naplókban minden alkalommal, amikor a mögöttes adatok elérhetővé válik.

  • Archivált. Az archivált definíciók nem használhatók műveletek végrehajtására. Ha archivált definíción szeretne műveleteket végrehajtani, újra kell aktiválni.

tags

Adja vissza az adatkészlethez társított címkéket.

Válaszok

Típus Description

Adathalmazcímkék.

workspace

Ha az adathalmaz regisztrálva lett egy munkaterületen, azt adja vissza. Ellenkező esetben a Nincs értéket adja vissza.

Válaszok

Típus Description

A munkaterület.