Adatfogalmak az Azure Machine Tanulás

Az Azure Machine Tanulás segítségével adatokat importálhat egy helyi gépről vagy egy meglévő felhőalapú tárolóerőforrásból. Ez a cikk az Azure Machine Tanulás legfontosabb adatfogalmait ismerteti.

Adattár

Az Azure Machine Tanulás-adattárak egy meglévő Azure Storage-fiókra mutató hivatkozásként szolgálnak. Az Azure Machine Tanulás-adattárak az alábbi előnyöket kínálják:

  • Gyakori, könnyen használható API, amely különböző tárolótípusokkal (Blob/Files/ADLS) kommunikál.
  • A csapatműveletek hasznos adattárainak könnyebb felderítése.
  • A hitelesítő adatokon alapuló hozzáférés (szolgáltatásnév/SAS/kulcs) esetében az Azure Machine Tanulás adattár biztosítja a kapcsolati adatokat. Így nem kell ezeket az információkat a szkriptekbe helyeznie.

Ha egy meglévő Azure Storage-fiókkal hoz létre adattárat, két különböző hitelesítési módszer közül választhat:

  • Hitelesítő adatokon alapuló – az adathozzáférés hitelesítése szolgáltatásnévvel, közös hozzáférésű jogosultságkóddal (SAS) vagy fiókkulccsal. Az Olvasó munkaterület hozzáféréssel rendelkező felhasználók hozzáférhetnek a hitelesítő adatokhoz.
  • Identitásalapú – az adathozzáférés hitelesítéséhez használja a Microsoft Entra-identitást vagy a felügyelt identitást.

Az alábbi táblázat összefoglalja az Azure-beli felhőalapú tárolási szolgáltatásokat, amelyeket egy Azure Machine Tanulás-adattár képes létrehozni. A táblázat emellett összefoglalja azokat a hitelesítési típusokat, amelyek hozzáférhetnek ezekhez a szolgáltatásokhoz:

Támogatott tárolási szolgáltatás Hitelesítőadat-alapú hitelesítés Identitásalapú hitelesítés
Azure-blobtároló
Azure-fájlmegosztás
Azure Data Lake Gen1
Azure Data Lake Gen2

Az adattárakról további információt az Adattárak létrehozása című témakörben talál.

Alapértelmezett adattárak

Minden Azure Machine Tanulás-munkaterület rendelkezik egy alapértelmezett tárfiókkal (Azure Storage-fiókkal), amely a következő adattárakat tartalmazza:

Tipp.

A munkaterület azonosítójának megkereséséhez lépjen a munkaterületre az Azure Portalon. Bontsa ki Gépház, majd válassza a Tulajdonságok lehetőséget. Megjelenik a munkaterület azonosítója .

Adattár neve Adattárolás típusa Adattároló neve Leírás
workspaceblobstore Blobtároló azureml-blobstore-{workspace-id} Tárolja az adatfeltöltéseket, a feladatkód pillanatképeit és a folyamatadat-gyorsítótárat.
workspaceworkingdirectory Fájlmegosztás code-{GUID} Jegyzetfüzetek, számítási példányok és parancssori folyamatok adatait tárolja.
workspacefilestore Fájlmegosztás azureml-filestore-{workspace-id} Alternatív tároló az adatfeltöltéshez.
workspaceartifactstore Blobtároló azureml Tároló eszközökhöz, például metrikákhoz, modellekhez és összetevőkhöz.

Adattípusok

Az URI (tárolási hely) hivatkozhat egy fájlra, mappára vagy adattáblára. A gépi tanulási feladatok bemeneti és kimeneti definíciója a következő három adattípus egyikét igényli:

Típus V2 API V1 API Canonical Scenarios V2/V1 API-különbség
Fájl
Hivatkozás egyetlen fájlra
uri_file FileDataset Egyetlen fájl olvasása/írása – a fájl bármilyen formátumú lehet. A V2 API-k új típusa. A V1 API-kban a fájlok mindig a számítási cél fájlrendszer egy mappájába lesznek leképezve; ehhez a leképezéshez egy os.path.join. A V2 API-kban az egyetlen fájl le van képezve. Így hivatkozhat erre a helyre a kódban.
Mappa
Hivatkozás egyetlen mappára
uri_folder FileDataset Parquet/CSV-fájlokat tartalmazó mappát kell olvasnia/írnia a Pandasba/Sparkba.

Mély tanulás egy mappában található képekkel, szöveggel, hanggal és videofájlokkal.
A V1 API-kban volt egy társított motor, FileDataset amely fájlmintát tudott venni egy mappából. A V2 API-kban a mappa egy egyszerű leképezés a számítási cél fájlrendszeréhez.
Tábla
Adattáblára mutató hivatkozás
mltable TabularDataset Összetett sémája gyakran változik, vagy nagy táblázatos adatok egy részhalmazára van szüksége.

AutoML táblákkal.
A V1 API-kban az Azure Machine Tanulás háttérrendszere tárolta az adatanyag-készítési tervet. Ennek eredményeképpen csak akkor működött, TabularDataset ha Azure Machine-Tanulás-munkaterülete volt. mltabletárolja az adatanyag-terveket a tárolóban. Ez a tárolási hely azt jelenti, hogy az AzureML-hez leválasztva használható, például helyi és helyszíni. A V2 API-kban egyszerűbben válthat helyiről távoli feladatokra. További információ: Táblák használata az Azure Machine Tanulás-ban.

URI

Az egységes erőforrás-azonosító (URI) a helyi számítógépen, az Azure Storage-on vagy a nyilvánosan elérhető HTTP-helyeken található tárolóhelyet jelöli. Az alábbi példák a különböző tárolási lehetőségek URI-jait mutatják be:

Tárolási hely URI-példák
Azure Machine Tanulás Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
Helyi számítógép ./home/username/data/my_data
Nyilvános HTTP-kiszolgáló https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
Blob Storage wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

Egy Azure Machine-Tanulás feladat URI-kat képez le a számítási cél fájlrendszerre. Ez a leképezés azt jelenti, hogy az URI-t használó vagy azt előállító parancsokban az URI fájlként vagy mappáként működik. Az URI identitásalapú hitelesítéssel csatlakozik a tárolási szolgáltatásokhoz a Microsoft Entra-azonosítóval (alapértelmezett) vagy a felügyelt identitással. Az Azure Machine Tanulás Adattár URI-k identitásalapú hitelesítést vagy hitelesítő adatokat (például szolgáltatásnév, SAS-jogkivonat, fiókkulcs) alkalmazhatnak titkos kódok felfedése nélkül.

Az URI-k bemenetként vagy kimenetként szolgálhatnak egy Azure Machine Tanulás-feladathoz, és a számítási cél fájlrendszerre képezhetők le a négy különböző mód közül az egyikkel:

  • Írásvédett csatlakoztatás (ro_mount): Az URI a számítási cél fájlrendszerhez csatlakoztatott tárolási helyet jelöli. A csatlakoztatott adathely kizárólag írásvédett kimenetet támogat.
  • Olvasási-írási csatlakoztatás (rw_mount): Az URI a számítási cél fájlrendszerhez csatlakoztatott tárolási helyet jelöli. A csatlakoztatott adathely támogatja az olvasási kimenetet és az adatírást is.
  • Letöltés (download): Az URI a számítási cél fájlrendszerbe letöltött adatokat tartalmazó tárolási helyet jelöli.
  • Feltöltés (upload): A számítási célhelyre írt összes adat az URI által képviselt tárolási helyre lesz feltöltve .

Emellett az URI-t feladatbemeneti sztringként is átadhatja a közvetlen móddal. Ez a táblázat a bemenetekhez és kimenetekhez elérhető módok kombinációját foglalja össze:

Állás
Bemenet vagy kimenet
upload download ro_mount rw_mount direct
Bevitel
Kimenet

További információt az Access-adatok egy feladatban című témakörben talál.

Adat-futtatókörnyezeti képesség

Az Azure Machine Tanulás három célra használja a saját adat-futtatókörnyezetét:

  • csatlakoztatások/feltöltések/letöltések esetén
  • a tárolási URI-k leképezése a számítási cél fájlrendszerre
  • táblázatos adatok létrehozása pandasba/sparkba az Azure Machine Tanulás táblákkal (mltable)

Az Azure Machine Tanulás adat-futtatókörnyezetet a gépi tanulási feladatok nagy sebességére és nagy hatékonyságára tervezték. A következő főbb előnyöket kínálja:

  • Rust language architecture. A Rust nyelv a nagy sebességről és a nagy memóriahatékonyságról ismert.
  • Könnyű súly; az Azure Machine Tanulás adat-futtatókörnyezet nem függ más technológiáktól – például JVM-hez –, így a futtatókörnyezet gyorsan települ számítási célokra.
  • Többfolyamatos (párhuzamos) adatbetöltés.
  • Az adatbeolvasások háttérfeladatként működnek a PROCESSZOR(ok)on, hogy javítsák a GPU(k) használatát a mélytanulási műveletekben.
  • Zökkenőmentes hitelesítés a felhőbeli tárterületre.

Adategység

Az Azure Machine Tanulás adategység hasonlít a webböngésző könyvjelzőire (kedvencek). A leggyakrabban használt adatokra mutató hosszú tárolási útvonalak (URI-k) megjegyzése helyett létrehozhat egy adategységet, majd egy rövid névvel elérheti az objektumot.

Az adategység létrehozása az adatforrás helyére mutató hivatkozást is létrehoz a metaadatok másolatával együtt. Mivel az adatok a meglévő helyen maradnak, nem jár többletköltséggel, és nem kockáztatja az adatforrás integritását. Adategységeket létrehozhat az Azure Machine Tanulás adattárakból, az Azure Storage-ból, a nyilvános URL-címekből vagy a helyi fájlokból.

Az adategységekkel kapcsolatos további információkért tekintse meg az adategységek létrehozását ismertető témakört.

Következő lépések