data Csomag
Olyan modulokat tartalmaz, amelyek támogatják az adattárak és adatkészletek adatreprezentációját az Azure Machine Learningben.
Ez a csomag a csomag alapvető funkcióit és DatastoreDataset osztályokat core tartalmazza. Az adattárobjektumok olyan kapcsolati információkat tartalmaznak az Azure Storage-szolgáltatásokhoz, amelyekre egyszerűen hivatkozhatnak név alapján anélkül, hogy közvetlenül kellene dolgozniuk a szkriptekben lévő kapcsolati adatokkal vagy a rögzített kóddal. Az adattár számos különböző szolgáltatást támogat, amelyeket ebben a csomagban lévő osztályok képviselnek, beleértve a AzureBlobDatastore, AzureFileDatastoreés AzureDataLakeDatastorea szolgáltatásokat. A támogatott tárolási szolgáltatások teljes listáját az Datastore osztályban találja.
Bár az adattárak tárolóként szolgálnak az adatfájlokhoz, az adathalmazok az adattárban található konkrét adatokra mutató hivatkozásként vagy mutatóként is felfoghatók. A következő adathalmaztípusok támogatottak:
A TabularDataset adathalmaz az adatokat táblázatos formátumban jeleníti meg, amelyet a rendszer a megadott fájl vagy fájllista elemzésével hozott létre.
FileDataset egy vagy több fájlra hivatkozik az adattárakban vagy a nyilvános URL-címeken.
További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. Az adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook és https://aka.ms/filedataset-samplenotebook.
Modulok
abstract_dataset |
Az Azure Machine Learning adathalmazainak absztrakt alaposztályát tartalmazza. |
abstract_datastore |
Az adattárak azon alapfunkcióit tartalmazza, amelyek az Azure Storage-szolgáltatásokba mentik a kapcsolati adatokat. |
azure_data_lake_datastore |
Az adattárak azon alapfunkcióit tartalmazza, amelyek a kapcsolati adatokat Azure Data Lake Storage mentik. |
azure_my_sql_datastore |
Az adattárak azon alapfunkcióit tartalmazza, amelyek a kapcsolati adatokat Azure Database for MySQL mentik. |
azure_postgre_sql_datastore |
Az adattárak azon alapfunkcióit tartalmazza, amelyek a kapcsolati adatokat Azure Database for PostgreSQL mentik. |
azure_sql_database_datastore |
Az adattárak azon alapfunkcióit tartalmazza, amelyek Azure SQL adatbázisba mentik a kapcsolati adatokat. |
azure_storage_datastore |
Olyan funkciókat tartalmaz az adattárakhoz, amelyek kapcsolati adatokat mentenek az Azure Blobba és az Azure File Storage-ba. |
constants |
Az azureml.data csomagban használt állandók. Csak belső használatra. |
context_managers |
Az adattárak és adathalmazok adatkörnyezetének kezelésére szolgáló funkciókat tartalmaz. Csak belső használatra. |
data_reference |
Olyan funkciókat tartalmaz, amelyek meghatározzák, hogyan hozhatók létre adathivatkozások az adattárakban. |
datacache |
A DatacacheStore és a Datacache Azure Machine Learningben való kezelésére szolgáló funkciókat tartalmaz. |
datacache_client |
Csak belső használatra. |
datacache_consumption_config |
A DataCache használati konfigurációjának funkcióit tartalmazza. |
datacache_singularity_settings |
A Datacache Singularity-beállítások megjelenítéséhez szükséges objektumokat tartalmazza. |
datapath |
Az adattárakban lévő adatokra mutató hivatkozások létrehozására használható funkciókat tartalmaz. Ez a modul tartalmazza az DataPath osztályt, amely az adatok helyét jelöli, valamint az DataPathComputeBinding osztályt, amely azt jelzi, hogy az adatok hogyan lesznek elérhetővé téve a számítási célokon. |
dataset_action_run |
Olyan funkciókat tartalmaz, amelyek az adathalmaz-műveletek végrehajtását kezelik. Ez a modul egyszerű módszereket biztosít az adathalmaz-műveletek létrehozásához és az eredmények lekéréséhez a befejezés után. |
dataset_consumption_config |
Az adathalmaz-használat konfigurációjának funkcióit tartalmazza. |
dataset_definition |
Az adathalmaz definíciójának és műveleteinek kezelésére szolgáló funkciókat tartalmaz. Megjegyzés Ez a modul elavult. További információ: https://aka.ms/dataset-deprecation. |
dataset_error_handling |
Kivételeket tartalmaz az adathalmaz-hibakezeléshez az Azure Machine Learningben. |
dataset_factory |
Az Azure Machine Learning adathalmazainak létrehozására szolgáló funkciókat tartalmazza. |
dataset_profile |
Az adatfolyam által előállított adatok összesített statisztikáinak gyűjtésére szolgáló osztály. Ebben a modulban olyan információkat gyűjtünk, amelyek arról szólnak, hogy melyik futtatás hozta létre a profilt, függetlenül attól, hogy a profil elavult-e vagy sem. |
dataset_profile_run |
Az Azure Machine Learningben futtatott adathalmaz-profilok monitorozásának konfigurációját tartalmazza. A modul funkciói közé tartozik a kísérletobjektumhoz és az egyéni futtatási azonosítóhoz társított adathalmazprofil-futtatás kezelése és monitorozása. |
dataset_profile_run_config |
Konfigurációt tartalmaz az adathalmazok statisztikai összegzésének létrehozásához az Azure Machine Learningben. A modul funkciói közé tartoznak a helyi vagy távoli profilfuttatás beküldésére és a beküldött profilfuttatás eredményének vizualizációjára szolgáló módszerek. |
dataset_snapshot |
Az adathalmaz-pillanatkép-műveletek kezelésére szolgáló funkciókat tartalmazza. Megjegyzés Ez a modul elavult. További információ: https://aka.ms/dataset-deprecation. |
dataset_type_definitions |
A használatával használt Datasetenumerálási értékeket tartalmaz. |
datastore_client |
Csak belső használatra. |
dbfs_datastore |
Az adattárak azon funkcióit tartalmazza, amelyek a Databricks File Sytembe (DBFS) mentik a kapcsolati adatokat. |
file_dataset |
Egy vagy több fájlra való hivatkozás funkcióját tartalmazza az adattárakban vagy nyilvános URL-címeken. További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A fájladatkészletek használatának megkezdéséhez tekintse meg a következőt: https://aka.ms/filedataset-samplenotebook. |
hdfs_datastore |
Az adattárak azon alapfunkcióit tartalmazza, amelyek egy HDFS-fürtbe mentik a kapcsolati adatokat. |
output_dataset_config |
Olyan konfigurációkat tartalmaz, amelyek meghatározzák, hogyan kell feltölteni és előléptetni egy feladat kimeneteit egy adathalmazba. További információt a kimenetek megadásáról szóló cikkben talál. |
sql_data_reference |
Olyan funkciókkal rendelkezik, amelyek olyan adattárakban lévő adatokra mutató hivatkozásokat hoznak létre, amelyek az SQL-adatbázisokba mentik a kapcsolati adatokat. |
stored_procedure_parameter |
Olyan funkciókat tartalmaz, amelyekkel paramétert hozhat létre az SQL tárolt eljárásnak való továbbításhoz. |
tabular_dataset |
Olyan funkciókat tartalmaz, amelyek táblázatos formátumban ábrázolják az adatokat a megadott fájl vagy fájllista elemzésével. További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A táblázatos adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook. |
Osztályok
DataType |
Az Azure Machine Learningben létrehozott adathalmaz oszlop-adattípusait konfigurálja. A DataType metódusok az TabularDatasetFactory osztálymetódusokban |
DatacacheStore |
Megjegyzés Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Egy Azure Machine Learning-tárfiókon keresztüli tárolási absztrakciót jelöl. A DatacacheStores munkaterületekhez van csatolva, és a mögöttes datacache-megoldással kapcsolatos információk tárolására szolgál. Jelenleg csak a particionált blobmegoldás támogatott. A Datacachestores különböző blobadattárakat határoz meg, amelyek gyorsítótárazáshoz használhatók. Ezzel az osztálysal felügyeleti műveleteket hajthat végre, beleértve a datacachestores regisztrálását, listázását, lekérését és frissítését.
Az egyes szolgáltatásokhoz tartozó DatacacheStores ennek az osztálynak a Adatkachestore lekérése név alapján. Ez a hívás kérést küld a datacache szolgáltatásnak. |
FileDataset |
Az Azure Machine Learningben használandó adattárakban vagy nyilvános URL-címekben található fájlhivatkozások gyűjteményét jelöli. A FileDataset egy lazilyan kiértékelt, nem módosítható műveletsorozatot határoz meg az adatforrásból származó adatok fájlstreamekbe való betöltéséhez. Az adatok nem töltődnek be a forrásból, amíg a FileDataset nem kéri az adatok továbbítását. Létrejön egy FileDataset a FileDatasetFactory osztály metódusával from_files . További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A fájladatkészletek használatának megkezdéséhez tekintse meg a következőt: https://aka.ms/filedataset-samplenotebook. Inicializálja a FileDataset objektumot. Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával FileDatasetFactory kell létrehozni. |
HDFSOutputDatasetConfig |
A HDFS-elérési utakra való kimenetet jelöli, és fájladatkészletként előléptethető. HDFSOutputDatasetConfig inicializálása. |
LinkFileOutputDatasetConfig |
Megjegyzés Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Egy futtatás kimenetének csatolását és fileDatasetként való előléptetését mutatja be. A LinkFileOutputDatasetConfig lehetővé teszi, hogy kimeneti adatkészletként csatoljon egy fájladatkészletet
Inicializáljon egy LinkFileOutputDatasetConfig fájlt. |
LinkTabularOutputDatasetConfig |
Megjegyzés Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental. Egy futtatás kimenetének összekapcsolását és tabulátoradatkészletként való előléptetését mutatja be. A LinkTabularOutputDatasetConfig lehetővé teszi egy táblázatos fájl kimeneti adatkészletként való összekapcsolását
Inicializálja a LinkTabularOutputDatasetConfig parancsot. |
OutputFileDatasetConfig |
Egy futtatás kimenetének másolását és fileDatasetként való előléptetését jelzi. Az OutputFileDatasetConfig segítségével megadhatja, hogyan szeretné feltölteni a számítási cél egy adott helyi elérési útját a megadott célhelyre. Ha nem ad át argumentumokat a konstruktornak, automatikusan létrehozunk egy nevet, egy célt és egy helyi útvonalat. Példa argumentumok átadásának kihagyására:
Példa egy kimenet létrehozására, majd a kimenet táblázatos adatkészletbe való előléptetésére és a foo névvel való regisztrálására:
Inicializáljon egy OutputFileDatasetConfig fájlt. Az OutputFileDatasetConfig segítségével megadhatja, hogyan szeretné feltölteni a számítási cél egy adott helyi elérési útját a megadott célhelyre. Ha nem ad át argumentumokat a konstruktornak, automatikusan létrehozunk egy nevet, egy célt és egy helyi útvonalat. Példa argumentumok átadásának kihagyására:
Példa egy kimenet létrehozására, majd a kimenet táblázatos adatkészletbe való előléptetésére és a foo névvel való regisztrálására:
|
TabularDataset |
Az Azure Machine Learningben használandó táblázatos adatkészletet jelöli. A TabularDataset szakaszosan kiértékelt, nem módosítható műveletek sorozatát határozza meg az adatforrásból származó adatok táblázatos ábrázolására való betöltéséhez. A rendszer addig nem tölti be az adatokat a forrásból, amíg a TabularDataset nem kéri az adatok továbbítását. A TabularDataset a osztályhoz TabularDatasetFactory hasonló from_delimited_files metódusokkal jön létre. További információt az Adathalmazok regisztrálása & hozzáadása című cikkben talál. A táblázatos adathalmazok használatának megkezdéséhez lásd: https://aka.ms/tabulardataset-samplenotebook. TabularDataset objektum inicializálása. Ezt a konstruktort nem szabad közvetlenül meghívni. Az adatkészletet osztály használatával TabularDatasetFactory kell létrehozni. |
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: