Megosztás a következőn keresztül:


Adatfogalmak az Azure Machine Learningben

Az Azure Machine Learning segítségével adatokat importálhat egy helyi gépről vagy egy meglévő felhőalapú tárolási erőforrásból. Ez a cikk az Azure Machine Learning legfontosabb adatfogalmait ismerteti.

Adattár

Az Azure Machine Learning-adattárak egy meglévő Azure-tárfiókra mutató hivatkozásként szolgálnak. Az Azure Machine Learning-adattár az alábbi előnyöket kínálja:

  • Gyakori, könnyen használható API, amely különböző tárolótípusokkal (Blob/Files/ADLS) kommunikál.
  • A csapatműveletek hasznos adattárainak könnyebb felderítése.
  • A hitelesítő adatokon alapuló hozzáférés (szolgáltatásnév/SAS/kulcs) esetében az Azure Machine Learning-adattár biztosítja a kapcsolati adatokat. Így nem kell ezeket az információkat a szkriptekben elhelyeznie.

Ha egy meglévő Azure Storage-fiókkal hoz létre adattárat, két különböző hitelesítési módszer közül választhat:

  • Hitelesítő adatokon alapuló – az adathozzáférés hitelesítése szolgáltatásnévvel, közös hozzáférésű jogosultságkóddal (SAS) vagy fiókkulccsal. Az Olvasó munkaterület hozzáféréssel rendelkező felhasználók hozzáférhetnek a hitelesítő adatokhoz.
  • Identitásalapú – az adathozzáférés hitelesítéséhez használja a Microsoft Entra-identitást vagy a felügyelt identitást.

Ez a táblázat az Azure Machine Learning-adattárak által létrehozható Azure felhőalapú tárolási szolgáltatásokat foglalja össze. A táblázat emellett összefoglalja azokat a hitelesítési típusokat, amelyek hozzáférhetnek ezekhez a szolgáltatásokhoz:

Támogatott tárolási szolgáltatás Hitelesítőadat-alapú hitelesítés Identitásalapú hitelesítés
Azure-blobtároló
Azure-fájlmegosztás
Azure Data Lake Gen1
Azure Data Lake Gen2

Az adattárakról további információt a Create datastores (Adattárak létrehozása) című témakörben talál.

Alapértelmezett adattárak

Minden Azure Machine Learning-munkaterület rendelkezik egy alapértelmezett tárfiókkal (Azure Storage-fiókkal), amely az alábbi adattárakat tartalmazza:

Tipp.

A munkaterület azonosítójának megkereséséhez lépjen a munkaterületre az Azure Portalon. Bontsa ki a Beállítások elemet, majd válassza a Tulajdonságok lehetőséget. Megjelenik a munkaterület azonosítója .

Adattár neve Adattárolás típusa Adattároló neve Leírás
workspaceblobstore Blobtároló azureml-blobstore-{workspace-id} Tárolja az adatfeltöltéseket, a feladatkód pillanatképeit és a folyamatadat-gyorsítótárat.
workspaceworkingdirectory Fájlmegosztás code-{GUID} Jegyzetfüzetek, számítási példányok és parancssori folyamatok adatait tárolja.
workspacefilestore Fájlmegosztás azureml-filestore-{workspace-id} Alternatív tároló az adatfeltöltéshez.
workspaceartifactstore Blobtároló azureml Tároló eszközökhöz, például metrikákhoz, modellekhez és összetevőkhöz.

Adattípusok

Egy URI (tárolási hely) hivatkozhat egy fájlra, mappára vagy adattáblára. A gépi tanulási feladatok bemeneti és kimeneti definíciója a következő három adattípus egyikét igényli:

Típus V2 API V1 API Canonical forgatókönyvek V2/V1 API közötti különbség
Fájl
Egyetlen fájlra való hivatkozás
uri_file FileDataset Egyetlen fájl olvasása/írása – a fájl bármilyen formátumú lehet. A V2 API-k számára új típus. A V1 API-kban a fájlok mindig a számítási feladat cél fájlrendszerben lévő mappába voltak leképezve; ehhez a leképezéshez os.path.join volt szükséges. A V2 API-kban az egyetlen fájl került leképezésre. Így hivatkozhat erre a helyre a kódjában.
Mappa
Egyetlen mappára való hivatkozás
uri_folder FileDataset Parquet/CSV-fájlokat tartalmazó mappát kell olvasnia/írnia a Pandasba/Sparkba.

Mély tanulás egy mappában található képekkel, szöveggel, hanggal és videófájlokkal.
A V1 API-kban a FileDataset egy társított motorral rendelkezett, amely fájlmintát tudott venni egy mappából. A V2 API-kban a mappa egy egyszerű leképezés a számítási cél fájlrendszeréhez.
Tábla
Adattáblára való hivatkozás
mltable TabularDataset Ön összetett sémával rendelkezik, amely gyakran változik, vagy nagy táblázatos adatok egy részhalmazára van szüksége.

AutoML táblákkal.
A V1 API-kban az Azure gépi tanulás háttérrendszere tárolta az adatmaterializálási tervet. Ennek eredményeképpen csak akkor működött, TabularDataset ha rendelkezik Azure Machine Learning-munkaterületpel. mltabletárolja az adatanyag-terveket a tárolóban. Ez a tárolási hely azt jelenti, hogy az Azure Machine Learninghez leválasztva használható , például helyileg és a helyszínen. A V2 API-kban egyszerűbb áttérni a helyi feladatokról a távoli feladatokra. További információ: Táblák használata az Azure Machine Learningben.

URI

Az egységes erőforrás-azonosító (URI) a helyi számítógépen, az Azure Storage-on vagy a nyilvánosan elérhető HTTP-helyeken található tárolóhelyet jelöli. Az alábbi példák a különböző tárolási lehetőségek URI-jait mutatják be:

Tárolási hely URI-példák
Azure Machine Learning Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Helyi számítógép ./home/username/data/my_data
Nyilvános HTTP-kiszolgáló https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blob Storage wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Egy Azure Machine Learning-feladat URI-kat képez le a számítási cél fájlrendszerre. Ez a leképezés azt jelenti, hogy az URI-t használó vagy előállító parancsok esetében az URI fájlként vagy mappáként működik. Az URI identitásalapú hitelesítéssel csatlakozik a tárolási szolgáltatásokhoz a Microsoft Entra-azonosítóval (alapértelmezett) vagy a felügyelt identitással. Az Azure Machine Learning Datastore URI-k identitásalapú vagy hitelesítő adatokon alapuló hitelesítést (például szolgáltatásnév, SAS-jogkivonat, fiókkulcs) alkalmazhatnak titkos kódok felfedése nélkül.

Az URI bemenetként vagy kimenetként szolgálhat egy Azure Machine Learning-feladathoz, és megfeleltethető a számítási cél fájlrendszerének a négy különböző mód egyikével:

  • Írásvédett csatlakoztatás (ro_mount): Az URI a számítási cél fájlrendszerhez csatlakoztatott tárolási helyet jelöli. A csatlakoztatott adathely kizárólag írásvédett kimenetet támogat.
  • Olvasási-írási csatlakoztatás (rw_mount): Az URI a számítási cél fájlrendszerhez csatlakoztatott tárolási helyet jelöli. A csatlakoztatott adathely támogatja az olvasási kimenetet és az adatírást is.
  • Letöltés (download): Az URI a számítási cél fájlrendszerbe letöltött adatokat tartalmazó tárolási helyet jelöli.
  • Feltöltés (upload): A számítási célhelyre írt összes adat az URI által képviselt tárolási helyre lesz feltöltve .

Emellett az URI-t feladatbemeneti sztringként is átadhatja a közvetlen móddal. Ez a táblázat a bemenetekhez és kimenetekhez elérhető módok kombinációját foglalja össze:

Állás
Bemenet vagy kimenet
upload download ro_mount rw_mount direct
Bevitel
Kimenet

További információkért látogasson el az Access-adatokra egy feladatban.

Adat-futtatókörnyezeti képesség

Az Azure Machine Learning három célra használja a saját adat-futtatókörnyezetét :

  • csatlakoztatások/feltöltések/letöltések esetén
  • a tárolási URI-k leképezése a számítási cél fájlrendszerre
  • táblázatos adatok létrehozása pandas-ba/sparkba Azure Machine Learning-táblákkal (mltable)

Az Azure Machine Learning adat-futtatókörnyezetét a gépi tanulási feladatok nagy sebességére és nagy hatékonyságára tervezték. A következő főbb előnyöket kínálja:

  • Rust language architecture. A Rust nyelv a nagy sebességről és a nagy memóriahatékonyságról ismert.
  • Könnyű súly; Az Azure Machine Learning adat-futtatókörnyezete nem függ más technológiáktól – például JVM-hez –, így a futtatókörnyezet gyorsan települ a számítási célokra.
  • Többfolyamatos (párhuzamos) adatbetöltés.
  • Az adatbeolvasások háttérfeladatként működnek a PROCESSZOR(ok)on, hogy javítsák a GPU(k) használatát a mélytanulási műveletekben.
  • Zökkenőmentes hitelesítés a felhőbeli tárterületre.

Adategység

Az Azure Machine Learning-adategységek a webböngésző könyvjelzőire (kedvencekre) hasonlítanak. A leggyakrabban használt adatokra mutató hosszú tárolási útvonalak (URI-k) megjegyzése helyett létrehozhat egy adategységet, majd egy rövid névvel elérheti az objektumot.

Az adategység létrehozása az adatforrás helyére mutató hivatkozást is létrehoz a metaadatok másolatával együtt. Mivel az adatok a meglévő helyen maradnak, nem jár többletköltséggel, és nem kockáztatja az adatforrás integritását. Adategységeket azure Machine Learning-adattárakból, Azure Storage-ból, nyilvános URL-címekből vagy helyi fájlokból hozhat létre.

Az adategységekről további információt az Adategységek létrehozása című témakörben talál.

Következő lépések