data Csomag

Referencia

Olyan modulokat tartalmaz, amelyek támogatják az adattárak és adatkészletek adatreprezentációját az Azure Machine Learningben.

Ez a csomag a csomag alapvető funkcióit és Datastore Dataset osztályokat core tartalmazza. Az adattárobjektumok olyan kapcsolati információkat tartalmaznak az Azure Storage-szolgáltatásokhoz, amelyekre egyszerűen hivatkozhatnak név alapján anélkül, hogy közvetlenül kellene dolgozniuk a szkriptekben lévő kapcsolati adatokkal vagy a rögzített kóddal. Az adattár számos különböző szolgáltatást támogat, amelyeket ebben a csomagban lévő osztályok képviselnek, beleértve a AzureBlobDatastore, AzureFileDatastoreés AzureDataLakeDatastorea szolgáltatásokat. A támogatott tárolási szolgáltatások teljes listáját az Datastore osztályban találja.

Bár az adattárak tárolóként szolgálnak az adatfájlokhoz, az adathalmazok az adattárban található konkrét adatokra mutató hivatkozásként vagy mutatóként is felfoghatók. A következő adathalmaztípusok támogatottak:

A TabularDataset adathalmaz az adatokat táblázatos formátumban jeleníti meg, amelyet a rendszer a megadott fájl vagy fájllista elemzésével hozott létre.
FileDataset egy vagy több fájlra hivatkozik az adattárakban vagy a nyilvános URL-címeken.

További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. Az adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook és https://aka.ms/filedataset-samplenotebook.

Modulok

abstract_dataset	Az Azure Machine Learning adathalmazainak absztrakt alaposztályát tartalmazza.
abstract_datastore	Az adattárak azon alapfunkcióit tartalmazza, amelyek az Azure Storage-szolgáltatásokba mentik a kapcsolati adatokat.
azure_data_lake_datastore	Az adattárak azon alapfunkcióit tartalmazza, amelyek a kapcsolati adatokat Azure Data Lake Storage mentik.
azure_my_sql_datastore	Az adattárak azon alapfunkcióit tartalmazza, amelyek a kapcsolati adatokat Azure Database for MySQL mentik.
azure_postgre_sql_datastore	Az adattárak azon alapfunkcióit tartalmazza, amelyek a kapcsolati adatokat Azure Database for PostgreSQL mentik.
azure_sql_database_datastore	Az adattárak azon alapfunkcióit tartalmazza, amelyek Azure SQL adatbázisba mentik a kapcsolati adatokat.
azure_storage_datastore	Olyan funkciókat tartalmaz az adattárakhoz, amelyek kapcsolati adatokat mentenek az Azure Blobba és az Azure File Storage-ba.
constants	Az azureml.data csomagban használt állandók. Csak belső használatra.
context_managers	Az adattárak és adathalmazok adatkörnyezetének kezelésére szolgáló funkciókat tartalmaz. Csak belső használatra.
data_reference	Olyan funkciókat tartalmaz, amelyek meghatározzák, hogyan hozhatók létre adathivatkozások az adattárakban.
datacache	A DatacacheStore és a Datacache Azure Machine Learningben való kezelésére szolgáló funkciókat tartalmaz.
datacache_client	Csak belső használatra.
datacache_consumption_config	A DataCache használati konfigurációjának funkcióit tartalmazza.
datacache_singularity_settings	A Datacache Singularity-beállítások megjelenítéséhez szükséges objektumokat tartalmazza.
datapath	Az adattárakban lévő adatokra mutató hivatkozások létrehozására használható funkciókat tartalmaz. Ez a modul tartalmazza az DataPath osztályt, amely az adatok helyét jelöli, valamint az DataPathComputeBinding osztályt, amely azt jelzi, hogy az adatok hogyan lesznek elérhetővé téve a számítási célokon.
dataset_action_run	Olyan funkciókat tartalmaz, amelyek az adathalmaz-műveletek végrehajtását kezelik. Ez a modul egyszerű módszereket biztosít az adathalmaz-műveletek létrehozásához és az eredmények lekéréséhez a befejezés után.
dataset_consumption_config	Az adathalmaz-használat konfigurációjának funkcióit tartalmazza.
dataset_definition	Az adathalmaz definíciójának és műveleteinek kezelésére szolgáló funkciókat tartalmaz. Megjegyzés Ez a modul elavult. További információ: https://aka.ms/dataset-deprecation.
dataset_error_handling	Kivételeket tartalmaz az adathalmaz-hibakezeléshez az Azure Machine Learningben.
dataset_factory	Az Azure Machine Learning adathalmazainak létrehozására szolgáló funkciókat tartalmazza.
dataset_profile	Az adatfolyam által előállított adatok összesített statisztikáinak gyűjtésére szolgáló osztály. Ebben a modulban olyan információkat gyűjtünk, amelyek arról szólnak, hogy melyik futtatás hozta létre a profilt, függetlenül attól, hogy a profil elavult-e vagy sem.
dataset_profile_run	Az Azure Machine Learningben futtatott adathalmaz-profilok monitorozásának konfigurációját tartalmazza. A modul funkciói közé tartozik a kísérletobjektumhoz és az egyéni futtatási azonosítóhoz társított adathalmazprofil-futtatás kezelése és monitorozása.
dataset_profile_run_config	Konfigurációt tartalmaz az adathalmazok statisztikai összegzésének létrehozásához az Azure Machine Learningben. A modul funkciói közé tartoznak a helyi vagy távoli profilfuttatás beküldésére és a beküldött profilfuttatás eredményének vizualizációjára szolgáló módszerek.
dataset_snapshot	Az adathalmaz-pillanatkép-műveletek kezelésére szolgáló funkciókat tartalmazza. Megjegyzés Ez a modul elavult. További információ: https://aka.ms/dataset-deprecation.
dataset_type_definitions	A használatával használt Datasetenumerálási értékeket tartalmaz.
datastore_client	Csak belső használatra.
dbfs_datastore	Az adattárak azon funkcióit tartalmazza, amelyek a Databricks File Sytembe (DBFS) mentik a kapcsolati adatokat.
file_dataset	Egy vagy több fájlra való hivatkozás funkcióját tartalmazza az adattárakban vagy nyilvános URL-címeken. További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A fájladatkészletek használatának megkezdéséhez tekintse meg a következőt: https://aka.ms/filedataset-samplenotebook.
hdfs_datastore	Az adattárak azon alapfunkcióit tartalmazza, amelyek egy HDFS-fürtbe mentik a kapcsolati adatokat.
output_dataset_config	Olyan konfigurációkat tartalmaz, amelyek meghatározzák, hogyan kell feltölteni és előléptetni egy feladat kimeneteit egy adathalmazba. További információt a kimenetek megadásáról szóló cikkben talál.
sql_data_reference	Olyan funkciókkal rendelkezik, amelyek olyan adattárakban lévő adatokra mutató hivatkozásokat hoznak létre, amelyek az SQL-adatbázisokba mentik a kapcsolati adatokat.
stored_procedure_parameter	Olyan funkciókat tartalmaz, amelyekkel paramétert hozhat létre az SQL tárolt eljárásnak való továbbításhoz.
tabular_dataset	Olyan funkciókat tartalmaz, amelyek táblázatos formátumban ábrázolják az adatokat a megadott fájl vagy fájllista elemzésével. További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A táblázatos adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook.

Osztályok

DataType	Az Azure Machine Learningben létrehozott adathalmaz oszlop-adattípusait konfigurálja. A DataType metódusok az TabularDatasetFactory osztálymetódusokban `from_*` használatosak, amelyek új TabularDataset-objektumok létrehozására szolgálnak.
DatacacheStore	Megjegyzés Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Egy Azure Machine Learning-tárfiókon keresztüli tárolási absztrakciót jelöl. A DatacacheStores munkaterületekhez van csatolva, és a mögöttes datacache-megoldással kapcsolatos információk tárolására szolgál. Jelenleg csak a particionált blobmegoldás támogatott. A Datacachestores különböző blobadattárakat határoz meg, amelyek gyorsítótárazáshoz használhatók. Ezzel az osztálysal felügyeleti műveleteket hajthat végre, beleértve a datacachestores regisztrálását, listázását, lekérését és frissítését. Az egyes szolgáltatásokhoz tartozó DatacacheStores ennek az osztálynak a `register*` metódusaival jön létre. Adatkachestore lekérése név alapján. Ez a hívás kérést küld a datacache szolgáltatásnak.
FileDataset	Az Azure Machine Learningben használandó adattárakban vagy nyilvános URL-címekben található fájlhivatkozások gyűjteményét jelöli. A FileDataset egy lazilyan kiértékelt, nem módosítható műveletsorozatot határoz meg az adatforrásból származó adatok fájlstreamekbe való betöltéséhez. Az adatok nem töltődnek be a forrásból, amíg a FileDataset nem kéri az adatok továbbítását. Létrejön egy FileDataset a FileDatasetFactory osztály metódusával from_files . További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A fájladatkészletek használatának megkezdéséhez tekintse meg a következőt: https://aka.ms/filedataset-samplenotebook. Inicializálja a FileDataset objektumot. Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával FileDatasetFactory kell létrehozni.
HDFSOutputDatasetConfig	A HDFS-elérési utakra való kimenetet jelöli, és fájladatkészletként előléptethető. HDFSOutputDatasetConfig inicializálása.
LinkFileOutputDatasetConfig	Megjegyzés Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Egy futtatás kimenetének csatolását és fileDatasetként való előléptetését mutatja be. A LinkFileOutputDatasetConfig lehetővé teszi, hogy kimeneti adatkészletként csatoljon egy fájladatkészletet workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkFileOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inicializáljon egy LinkFileOutputDatasetConfig fájlt.
LinkTabularOutputDatasetConfig	Megjegyzés Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Egy futtatás kimenetének összekapcsolását és tabulátoradatkészletként való előléptetését mutatja be. A LinkTabularOutputDatasetConfig lehetővé teszi egy táblázatos fájl kimeneti adatkészletként való összekapcsolását workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkTabularOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) Inicializálja a LinkTabularOutputDatasetConfig parancsot.
OutputFileDatasetConfig	Egy futtatás kimenetének másolását és fileDatasetként való előléptetését jelzi. Az OutputFileDatasetConfig segítségével megadhatja, hogyan szeretné feltölteni a számítási cél egy adott helyi elérési útját a megadott célhelyre. Ha nem ad át argumentumokat a konstruktornak, automatikusan létrehozunk egy nevet, egy célt és egy helyi útvonalat. Példa argumentumok átadásának kihagyására: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Példa egy kimenet létrehozására, majd a kimenet táblázatos adatkészletbe való előléptetésére és a foo névvel való regisztrálására: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Inicializáljon egy OutputFileDatasetConfig fájlt. Az OutputFileDatasetConfig segítségével megadhatja, hogyan szeretné feltölteni a számítási cél egy adott helyi elérési útját a megadott célhelyre. Ha nem ad át argumentumokat a konstruktornak, automatikusan létrehozunk egy nevet, egy célt és egy helyi útvonalat. Példa argumentumok átadásának kihagyására: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` Példa egy kimenet létrehozására, majd a kimenet táblázatos adatkészletbe való előléptetésére és a foo névvel való regisztrálására: `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)`
TabularDataset	Az Azure Machine Learningben használandó táblázatos adatkészletet jelöli. A TabularDataset szakaszosan kiértékelt, nem módosítható műveletek sorozatát határozza meg az adatforrásból származó adatok táblázatos ábrázolására való betöltéséhez. A rendszer addig nem tölti be az adatokat a forrásból, amíg a TabularDataset nem kéri az adatok továbbítását. A TabularDataset a osztályhoz TabularDatasetFactory hasonló from_delimited_files metódusokkal jön létre. További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A táblázatos adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook. TabularDataset objektum inicializálása. Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával TabularDatasetFactory kell létrehozni.

data Csomag

Modulok

Osztályok

Visszajelzés

Visszajelzés

További források