data Csomag

Olyan modulokat tartalmaz, amelyek támogatják az adattárak és adatkészletek adatreprezentációját az Azure Machine Learningben.

Ez a csomag a csomag alapvető funkcióit és DatastoreDataset osztályokat core tartalmazza. Az adattárobjektumok olyan kapcsolati információkat tartalmaznak az Azure Storage-szolgáltatásokhoz, amelyekre egyszerűen hivatkozhatnak név alapján anélkül, hogy közvetlenül kellene dolgozniuk a szkriptekben lévő kapcsolati adatokkal vagy a rögzített kóddal. Az adattár számos különböző szolgáltatást támogat, amelyeket ebben a csomagban lévő osztályok képviselnek, beleértve a AzureBlobDatastore, AzureFileDatastoreés AzureDataLakeDatastorea szolgáltatásokat. A támogatott tárolási szolgáltatások teljes listáját az Datastore osztályban találja.

Bár az adattárak tárolóként szolgálnak az adatfájlokhoz, az adathalmazok az adattárban található konkrét adatokra mutató hivatkozásként vagy mutatóként is felfoghatók. A következő adathalmaztípusok támogatottak:

  • A TabularDataset adathalmaz az adatokat táblázatos formátumban jeleníti meg, amelyet a rendszer a megadott fájl vagy fájllista elemzésével hozott létre.

  • FileDataset egy vagy több fájlra hivatkozik az adattárakban vagy a nyilvános URL-címeken.

További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. Az adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook és https://aka.ms/filedataset-samplenotebook.

Modulok

abstract_dataset

Az Azure Machine Learning adathalmazainak absztrakt alaposztályát tartalmazza.

abstract_datastore

Az adattárak azon alapfunkcióit tartalmazza, amelyek az Azure Storage-szolgáltatásokba mentik a kapcsolati adatokat.

azure_data_lake_datastore

Az adattárak azon alapfunkcióit tartalmazza, amelyek a kapcsolati adatokat Azure Data Lake Storage mentik.

azure_my_sql_datastore

Az adattárak azon alapfunkcióit tartalmazza, amelyek a kapcsolati adatokat Azure Database for MySQL mentik.

azure_postgre_sql_datastore

Az adattárak azon alapfunkcióit tartalmazza, amelyek a kapcsolati adatokat Azure Database for PostgreSQL mentik.

azure_sql_database_datastore

Az adattárak azon alapfunkcióit tartalmazza, amelyek Azure SQL adatbázisba mentik a kapcsolati adatokat.

azure_storage_datastore

Olyan funkciókat tartalmaz az adattárakhoz, amelyek kapcsolati adatokat mentenek az Azure Blobba és az Azure File Storage-ba.

constants

Az azureml.data csomagban használt állandók. Csak belső használatra.

context_managers

Az adattárak és adathalmazok adatkörnyezetének kezelésére szolgáló funkciókat tartalmaz. Csak belső használatra.

data_reference

Olyan funkciókat tartalmaz, amelyek meghatározzák, hogyan hozhatók létre adathivatkozások az adattárakban.

datacache

A DatacacheStore és a Datacache Azure Machine Learningben való kezelésére szolgáló funkciókat tartalmaz.

datacache_client

Csak belső használatra.

datacache_consumption_config

A DataCache használati konfigurációjának funkcióit tartalmazza.

datacache_singularity_settings

A Datacache Singularity-beállítások megjelenítéséhez szükséges objektumokat tartalmazza.

datapath

Az adattárakban lévő adatokra mutató hivatkozások létrehozására használható funkciókat tartalmaz.

Ez a modul tartalmazza az DataPath osztályt, amely az adatok helyét jelöli, valamint az DataPathComputeBinding osztályt, amely azt jelzi, hogy az adatok hogyan lesznek elérhetővé téve a számítási célokon.

dataset_action_run

Olyan funkciókat tartalmaz, amelyek az adathalmaz-műveletek végrehajtását kezelik.

Ez a modul egyszerű módszereket biztosít az adathalmaz-műveletek létrehozásához és az eredmények lekéréséhez a befejezés után.

dataset_consumption_config

Az adathalmaz-használat konfigurációjának funkcióit tartalmazza.

dataset_definition

Az adathalmaz definíciójának és műveleteinek kezelésére szolgáló funkciókat tartalmaz.

Megjegyzés

Ez a modul elavult. További információ: https://aka.ms/dataset-deprecation.

dataset_error_handling

Kivételeket tartalmaz az adathalmaz-hibakezeléshez az Azure Machine Learningben.

dataset_factory

Az Azure Machine Learning adathalmazainak létrehozására szolgáló funkciókat tartalmazza.

dataset_profile

Az adatfolyam által előállított adatok összesített statisztikáinak gyűjtésére szolgáló osztály.

Ebben a modulban olyan információkat gyűjtünk, amelyek arról szólnak, hogy melyik futtatás hozta létre a profilt, függetlenül attól, hogy a profil elavult-e vagy sem.

dataset_profile_run

Az Azure Machine Learningben futtatott adathalmaz-profilok monitorozásának konfigurációját tartalmazza.

A modul funkciói közé tartozik a kísérletobjektumhoz és az egyéni futtatási azonosítóhoz társított adathalmazprofil-futtatás kezelése és monitorozása.

dataset_profile_run_config

Konfigurációt tartalmaz az adathalmazok statisztikai összegzésének létrehozásához az Azure Machine Learningben.

A modul funkciói közé tartoznak a helyi vagy távoli profilfuttatás beküldésére és a beküldött profilfuttatás eredményének vizualizációjára szolgáló módszerek.

dataset_snapshot

Az adathalmaz-pillanatkép-műveletek kezelésére szolgáló funkciókat tartalmazza.

Megjegyzés

Ez a modul elavult. További információ: https://aka.ms/dataset-deprecation.

dataset_type_definitions

A használatával használt Datasetenumerálási értékeket tartalmaz.

datastore_client

Csak belső használatra.

dbfs_datastore

Az adattárak azon funkcióit tartalmazza, amelyek a Databricks File Sytembe (DBFS) mentik a kapcsolati adatokat.

file_dataset

Egy vagy több fájlra való hivatkozás funkcióját tartalmazza az adattárakban vagy nyilvános URL-címeken.

További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A fájladatkészletek használatának megkezdéséhez tekintse meg a következőt: https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Az adattárak azon alapfunkcióit tartalmazza, amelyek egy HDFS-fürtbe mentik a kapcsolati adatokat.

output_dataset_config

Olyan konfigurációkat tartalmaz, amelyek meghatározzák, hogyan kell feltölteni és előléptetni egy feladat kimeneteit egy adathalmazba.

További információt a kimenetek megadásáról szóló cikkben talál.

sql_data_reference

Olyan funkciókkal rendelkezik, amelyek olyan adattárakban lévő adatokra mutató hivatkozásokat hoznak létre, amelyek az SQL-adatbázisokba mentik a kapcsolati adatokat.

stored_procedure_parameter

Olyan funkciókat tartalmaz, amelyekkel paramétert hozhat létre az SQL tárolt eljárásnak való továbbításhoz.

tabular_dataset

Olyan funkciókat tartalmaz, amelyek táblázatos formátumban ábrázolják az adatokat a megadott fájl vagy fájllista elemzésével.

További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A táblázatos adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook.

Osztályok

DataType

Az Azure Machine Learningben létrehozott adathalmaz oszlop-adattípusait konfigurálja.

A DataType metódusok az TabularDatasetFactory osztálymetódusokban from_* használatosak, amelyek új TabularDataset-objektumok létrehozására szolgálnak.

DatacacheStore

Megjegyzés

Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Egy Azure Machine Learning-tárfiókon keresztüli tárolási absztrakciót jelöl.

A DatacacheStores munkaterületekhez van csatolva, és a mögöttes datacache-megoldással kapcsolatos információk tárolására szolgál. Jelenleg csak a particionált blobmegoldás támogatott. A Datacachestores különböző blobadattárakat határoz meg, amelyek gyorsítótárazáshoz használhatók.

Ezzel az osztálysal felügyeleti műveleteket hajthat végre, beleértve a datacachestores regisztrálását, listázását, lekérését és frissítését. Az egyes szolgáltatásokhoz tartozó DatacacheStores ennek az osztálynak a register* metódusaival jön létre.

Adatkachestore lekérése név alapján. Ez a hívás kérést küld a datacache szolgáltatásnak.

FileDataset

Az Azure Machine Learningben használandó adattárakban vagy nyilvános URL-címekben található fájlhivatkozások gyűjteményét jelöli.

A FileDataset egy lazilyan kiértékelt, nem módosítható műveletsorozatot határoz meg az adatforrásból származó adatok fájlstreamekbe való betöltéséhez. Az adatok nem töltődnek be a forrásból, amíg a FileDataset nem kéri az adatok továbbítását.

Létrejön egy FileDataset a FileDatasetFactory osztály metódusával from_files .

További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A fájladatkészletek használatának megkezdéséhez tekintse meg a következőt: https://aka.ms/filedataset-samplenotebook.

Inicializálja a FileDataset objektumot.

Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával FileDatasetFactory kell létrehozni.

HDFSOutputDatasetConfig

A HDFS-elérési utakra való kimenetet jelöli, és fájladatkészletként előléptethető.

HDFSOutputDatasetConfig inicializálása.

LinkFileOutputDatasetConfig

Megjegyzés

Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Egy futtatás kimenetének csatolását és fileDatasetként való előléptetését mutatja be.

A LinkFileOutputDatasetConfig lehetővé teszi, hogy kimeneti adatkészletként csatoljon egy fájladatkészletet


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicializáljon egy LinkFileOutputDatasetConfig fájlt.

LinkTabularOutputDatasetConfig

Megjegyzés

Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Egy futtatás kimenetének összekapcsolását és tabulátoradatkészletként való előléptetését mutatja be.

A LinkTabularOutputDatasetConfig lehetővé teszi egy táblázatos fájl kimeneti adatkészletként való összekapcsolását


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Inicializálja a LinkTabularOutputDatasetConfig parancsot.

OutputFileDatasetConfig

Egy futtatás kimenetének másolását és fileDatasetként való előléptetését jelzi.

Az OutputFileDatasetConfig segítségével megadhatja, hogyan szeretné feltölteni a számítási cél egy adott helyi elérési útját a megadott célhelyre. Ha nem ad át argumentumokat a konstruktornak, automatikusan létrehozunk egy nevet, egy célt és egy helyi útvonalat.

Példa argumentumok átadásának kihagyására:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Példa egy kimenet létrehozására, majd a kimenet táblázatos adatkészletbe való előléptetésére és a foo névvel való regisztrálására:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Inicializáljon egy OutputFileDatasetConfig fájlt.

Az OutputFileDatasetConfig segítségével megadhatja, hogyan szeretné feltölteni a számítási cél egy adott helyi elérési útját a megadott célhelyre. Ha nem ad át argumentumokat a konstruktornak, automatikusan létrehozunk egy nevet, egy célt és egy helyi útvonalat.

Példa argumentumok átadásának kihagyására:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Példa egy kimenet létrehozására, majd a kimenet táblázatos adatkészletbe való előléptetésére és a foo névvel való regisztrálására:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Az Azure Machine Learningben használandó táblázatos adatkészletet jelöli.

A TabularDataset szakaszosan kiértékelt, nem módosítható műveletek sorozatát határozza meg az adatforrásból származó adatok táblázatos ábrázolására való betöltéséhez. A rendszer addig nem tölti be az adatokat a forrásból, amíg a TabularDataset nem kéri az adatok továbbítását.

A TabularDataset a osztályhoz TabularDatasetFactory hasonló from_delimited_files metódusokkal jön létre.

További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A táblázatos adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook.

TabularDataset objektum inicializálása.

Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával TabularDatasetFactory kell létrehozni.