Adatfogalmak az Azure Machine Learningben
Az Azure Machine Learning segítségével adatokat importálhat egy helyi gépről vagy egy meglévő felhőalapú tárolási erőforrásból. Ez a cikk az Azure Machine Learning legfontosabb adatfogalmait ismerteti.
Adattár
Az Azure Machine Learning-adattárak egy meglévő Azure-tárfiókra mutató hivatkozásként szolgálnak. Az Azure Machine Learning-adattár az alábbi előnyöket kínálja:
- Gyakori, könnyen használható API, amely különböző tárolótípusokkal (Blob/Files/ADLS) kommunikál.
- A csapatműveletek hasznos adattárainak könnyebb felderítése.
- A hitelesítő adatokon alapuló hozzáférés (szolgáltatásnév/SAS/kulcs) esetében az Azure Machine Learning-adattár biztosítja a kapcsolati adatokat. Így nem kell ezeket az információkat a szkriptekben elhelyeznie.
Ha egy meglévő Azure Storage-fiókkal hoz létre adattárat, két különböző hitelesítési módszer közül választhat:
- Hitelesítő adatokon alapuló – az adathozzáférés hitelesítése szolgáltatásnévvel, közös hozzáférésű jogosultságkóddal (SAS) vagy fiókkulccsal. Az Olvasó munkaterület hozzáféréssel rendelkező felhasználók hozzáférhetnek a hitelesítő adatokhoz.
- Identitásalapú – az adathozzáférés hitelesítéséhez használja a Microsoft Entra-identitást vagy a felügyelt identitást.
Ez a táblázat az Azure Machine Learning-adattárak által létrehozható Azure felhőalapú tárolási szolgáltatásokat foglalja össze. A táblázat emellett összefoglalja azokat a hitelesítési típusokat, amelyek hozzáférhetnek ezekhez a szolgáltatásokhoz:
Támogatott tárolási szolgáltatás | Hitelesítőadat-alapú hitelesítés | Identitásalapú hitelesítés |
---|---|---|
Azure-blobtároló | ✓ | ✓ |
Azure-fájlmegosztás | ✓ | |
Azure Data Lake Gen1 | ✓ | ✓ |
Azure Data Lake Gen2 | ✓ | ✓ |
Az adattárakról további információt a Create datastores (Adattárak létrehozása) című témakörben talál.
Alapértelmezett adattárak
Minden Azure Machine Learning-munkaterület rendelkezik egy alapértelmezett tárfiókkal (Azure Storage-fiókkal), amely az alábbi adattárakat tartalmazza:
Tipp.
A munkaterület azonosítójának megkereséséhez lépjen a munkaterületre az Azure Portalon. Bontsa ki a Beállítások elemet, majd válassza a Tulajdonságok lehetőséget. Megjelenik a munkaterület azonosítója .
Adattár neve | Adattárolás típusa | Adattároló neve | Leírás |
---|---|---|---|
workspaceblobstore |
Blobtároló | azureml-blobstore-{workspace-id} |
Tárolja az adatfeltöltéseket, a feladatkód pillanatképeit és a folyamatadat-gyorsítótárat. |
workspaceworkingdirectory |
Fájlmegosztás | code-{GUID} |
Jegyzetfüzetek, számítási példányok és parancssori folyamatok adatait tárolja. |
workspacefilestore |
Fájlmegosztás | azureml-filestore-{workspace-id} |
Alternatív tároló az adatfeltöltéshez. |
workspaceartifactstore |
Blobtároló | azureml |
Tároló eszközökhöz, például metrikákhoz, modellekhez és összetevőkhöz. |
Adattípusok
Egy URI (tárolási hely) hivatkozhat egy fájlra, mappára vagy adattáblára. A gépi tanulási feladatok bemeneti és kimeneti definíciója a következő három adattípus egyikét igényli:
Típus | V2 API | V1 API | Canonical forgatókönyvek | V2/V1 API közötti különbség |
---|---|---|---|---|
Fájl Egyetlen fájlra való hivatkozás |
uri_file |
FileDataset |
Egyetlen fájl olvasása/írása – a fájl bármilyen formátumú lehet. | A V2 API-k számára új típus. A V1 API-kban a fájlok mindig a számítási feladat cél fájlrendszerben lévő mappába voltak leképezve; ehhez a leképezéshez os.path.join volt szükséges. A V2 API-kban az egyetlen fájl került leképezésre. Így hivatkozhat erre a helyre a kódjában. |
Mappa Egyetlen mappára való hivatkozás |
uri_folder |
FileDataset |
Parquet/CSV-fájlokat tartalmazó mappát kell olvasnia/írnia a Pandasba/Sparkba. Mély tanulás egy mappában található képekkel, szöveggel, hanggal és videófájlokkal. |
A V1 API-kban a FileDataset egy társított motorral rendelkezett, amely fájlmintát tudott venni egy mappából. A V2 API-kban a mappa egy egyszerű leképezés a számítási cél fájlrendszeréhez. |
Tábla Adattáblára való hivatkozás |
mltable |
TabularDataset |
Ön összetett sémával rendelkezik, amely gyakran változik, vagy nagy táblázatos adatok egy részhalmazára van szüksége. AutoML táblákkal. |
A V1 API-kban az Azure gépi tanulás háttérrendszere tárolta az adatmaterializálási tervet. Ennek eredményeképpen csak akkor működött, TabularDataset ha rendelkezik Azure Machine Learning-munkaterületpel. mltable tárolja az adatanyag-terveket a tárolóban. Ez a tárolási hely azt jelenti, hogy az Azure Machine Learninghez leválasztva használható , például helyileg és a helyszínen. A V2 API-kban egyszerűbb áttérni a helyi feladatokról a távoli feladatokra. További információ: Táblák használata az Azure Machine Learningben. |
URI
Az egységes erőforrás-azonosító (URI) a helyi számítógépen, az Azure Storage-on vagy a nyilvánosan elérhető HTTP-helyeken található tárolóhelyet jelöli. Az alábbi példák a különböző tárolási lehetőségek URI-jait mutatják be:
Tárolási hely | URI-példák |
---|---|
Azure Machine Learning Datastore | azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet |
Helyi számítógép | ./home/username/data/my_data |
Nyilvános HTTP-kiszolgáló | https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv |
Blob Storage | wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/ |
Azure Data Lake (gen2) | abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv |
Azure Data Lake (gen1) | adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2> |
Egy Azure Machine Learning-feladat URI-kat képez le a számítási cél fájlrendszerre. Ez a leképezés azt jelenti, hogy az URI-t használó vagy előállító parancsok esetében az URI fájlként vagy mappáként működik. Az URI identitásalapú hitelesítéssel csatlakozik a tárolási szolgáltatásokhoz a Microsoft Entra-azonosítóval (alapértelmezett) vagy a felügyelt identitással. Az Azure Machine Learning Datastore URI-k identitásalapú vagy hitelesítő adatokon alapuló hitelesítést (például szolgáltatásnév, SAS-jogkivonat, fiókkulcs) alkalmazhatnak titkos kódok felfedése nélkül.
Az URI bemenetként vagy kimenetként szolgálhat egy Azure Machine Learning-feladathoz, és megfeleltethető a számítási cél fájlrendszerének a négy különböző mód egyikével:
- Írásvédett csatlakoztatás (
ro_mount
): Az URI a számítási cél fájlrendszerhez csatlakoztatott tárolási helyet jelöli. A csatlakoztatott adathely kizárólag írásvédett kimenetet támogat. - Olvasási-írási csatlakoztatás (
rw_mount
): Az URI a számítási cél fájlrendszerhez csatlakoztatott tárolási helyet jelöli. A csatlakoztatott adathely támogatja az olvasási kimenetet és az adatírást is. - Letöltés (
download
): Az URI a számítási cél fájlrendszerbe letöltött adatokat tartalmazó tárolási helyet jelöli. - Feltöltés (
upload
): A számítási célhelyre írt összes adat az URI által képviselt tárolási helyre lesz feltöltve .
Emellett az URI-t feladatbemeneti sztringként is átadhatja a közvetlen móddal. Ez a táblázat a bemenetekhez és kimenetekhez elérhető módok kombinációját foglalja össze:
Állás Bemenet vagy kimenet |
upload |
download |
ro_mount |
rw_mount |
direct |
---|---|---|---|---|---|
Bevitel | ✓ | ✓ | ✓ | ||
Kimenet | ✓ | ✓ |
További információkért látogasson el az Access-adatokra egy feladatban.
Adat-futtatókörnyezeti képesség
Az Azure Machine Learning három célra használja a saját adat-futtatókörnyezetét :
- csatlakoztatások/feltöltések/letöltések esetén
- a tárolási URI-k leképezése a számítási cél fájlrendszerre
- táblázatos adatok létrehozása pandas-ba/sparkba Azure Machine Learning-táblákkal (
mltable
)
Az Azure Machine Learning adat-futtatókörnyezetét a gépi tanulási feladatok nagy sebességére és nagy hatékonyságára tervezték. A következő főbb előnyöket kínálja:
- Rust language architecture. A Rust nyelv a nagy sebességről és a nagy memóriahatékonyságról ismert.
- Könnyű súly; Az Azure Machine Learning adat-futtatókörnyezete nem függ más technológiáktól – például JVM-hez –, így a futtatókörnyezet gyorsan települ a számítási célokra.
- Többfolyamatos (párhuzamos) adatbetöltés.
- Az adatbeolvasások háttérfeladatként működnek a PROCESSZOR(ok)on, hogy javítsák a GPU(k) használatát a mélytanulási műveletekben.
- Zökkenőmentes hitelesítés a felhőbeli tárterületre.
Adategység
Az Azure Machine Learning-adategységek a webböngésző könyvjelzőire (kedvencekre) hasonlítanak. A leggyakrabban használt adatokra mutató hosszú tárolási útvonalak (URI-k) megjegyzése helyett létrehozhat egy adategységet, majd egy rövid névvel elérheti az objektumot.
Az adategység létrehozása az adatforrás helyére mutató hivatkozást is létrehoz a metaadatok másolatával együtt. Mivel az adatok a meglévő helyen maradnak, nem jár többletköltséggel, és nem kockáztatja az adatforrás integritását. Adategységeket azure Machine Learning-adattárakból, Azure Storage-ból, nyilvános URL-címekből vagy helyi fájlokból hozhat létre.
Az adategységekről további információt az Adategységek létrehozása című témakörben talál.