Adatfogalmak az Azure Machine Tanulás
Az Azure Machine Tanulás segítségével adatokat importálhat egy helyi gépről vagy egy meglévő felhőalapú tárolóerőforrásból. Ez a cikk az Azure Machine Tanulás legfontosabb adatfogalmait ismerteti.
Adattár
Az Azure Machine Tanulás-adattárak egy meglévő Azure Storage-fiókra mutató hivatkozásként szolgálnak. Az Azure Machine Tanulás-adattárak az alábbi előnyöket kínálják:
- Gyakori, könnyen használható API, amely különböző tárolótípusokkal (Blob/Files/ADLS) kommunikál.
- A csapatműveletek hasznos adattárainak könnyebb felderítése.
- A hitelesítő adatokon alapuló hozzáférés (szolgáltatásnév/SAS/kulcs) esetében az Azure Machine Tanulás adattár biztosítja a kapcsolati adatokat. Így nem kell ezeket az információkat a szkriptekbe helyeznie.
Ha egy meglévő Azure Storage-fiókkal hoz létre adattárat, két különböző hitelesítési módszer közül választhat:
- Hitelesítő adatokon alapuló – az adathozzáférés hitelesítése szolgáltatásnévvel, közös hozzáférésű jogosultságkóddal (SAS) vagy fiókkulccsal. Az Olvasó munkaterület hozzáféréssel rendelkező felhasználók hozzáférhetnek a hitelesítő adatokhoz.
- Identitásalapú – az adathozzáférés hitelesítéséhez használja a Microsoft Entra-identitást vagy a felügyelt identitást.
Az alábbi táblázat összefoglalja az Azure-beli felhőalapú tárolási szolgáltatásokat, amelyeket egy Azure Machine Tanulás-adattár képes létrehozni. A táblázat emellett összefoglalja azokat a hitelesítési típusokat, amelyek hozzáférhetnek ezekhez a szolgáltatásokhoz:
Támogatott tárolási szolgáltatás | Hitelesítőadat-alapú hitelesítés | Identitásalapú hitelesítés |
---|---|---|
Azure-blobtároló | ✓ | ✓ |
Azure-fájlmegosztás | ✓ | |
Azure Data Lake Gen1 | ✓ | ✓ |
Azure Data Lake Gen2 | ✓ | ✓ |
Az adattárakról további információt az Adattárak létrehozása című témakörben talál.
Alapértelmezett adattárak
Minden Azure Machine Tanulás-munkaterület rendelkezik egy alapértelmezett tárfiókkal (Azure Storage-fiókkal), amely a következő adattárakat tartalmazza:
Tipp.
A munkaterület azonosítójának megkereséséhez lépjen a munkaterületre az Azure Portalon. Bontsa ki Gépház, majd válassza a Tulajdonságok lehetőséget. Megjelenik a munkaterület azonosítója .
Adattár neve | Adattárolás típusa | Adattároló neve | Leírás |
---|---|---|---|
workspaceblobstore |
Blobtároló | azureml-blobstore-{workspace-id} |
Tárolja az adatfeltöltéseket, a feladatkód pillanatképeit és a folyamatadat-gyorsítótárat. |
workspaceworkingdirectory |
Fájlmegosztás | code-{GUID} |
Jegyzetfüzetek, számítási példányok és parancssori folyamatok adatait tárolja. |
workspacefilestore |
Fájlmegosztás | azureml-filestore-{workspace-id} |
Alternatív tároló az adatfeltöltéshez. |
workspaceartifactstore |
Blobtároló | azureml |
Tároló eszközökhöz, például metrikákhoz, modellekhez és összetevőkhöz. |
Adattípusok
Az URI (tárolási hely) hivatkozhat egy fájlra, mappára vagy adattáblára. A gépi tanulási feladatok bemeneti és kimeneti definíciója a következő három adattípus egyikét igényli:
Típus | V2 API | V1 API | Canonical Scenarios | V2/V1 API-különbség |
---|---|---|---|---|
Fájl Hivatkozás egyetlen fájlra |
uri_file |
FileDataset |
Egyetlen fájl olvasása/írása – a fájl bármilyen formátumú lehet. | A V2 API-k új típusa. A V1 API-kban a fájlok mindig a számítási cél fájlrendszer egy mappájába lesznek leképezve; ehhez a leképezéshez egy os.path.join . A V2 API-kban az egyetlen fájl le van képezve. Így hivatkozhat erre a helyre a kódban. |
Mappa Hivatkozás egyetlen mappára |
uri_folder |
FileDataset |
Parquet/CSV-fájlokat tartalmazó mappát kell olvasnia/írnia a Pandasba/Sparkba. Mély tanulás egy mappában található képekkel, szöveggel, hanggal és videofájlokkal. |
A V1 API-kban volt egy társított motor, FileDataset amely fájlmintát tudott venni egy mappából. A V2 API-kban a mappa egy egyszerű leképezés a számítási cél fájlrendszeréhez. |
Tábla Adattáblára mutató hivatkozás |
mltable |
TabularDataset |
Összetett sémája gyakran változik, vagy nagy táblázatos adatok egy részhalmazára van szüksége. AutoML táblákkal. |
A V1 API-kban az Azure Machine Tanulás háttérrendszere tárolta az adatanyag-készítési tervet. Ennek eredményeképpen csak akkor működött, TabularDataset ha Azure Machine-Tanulás-munkaterülete volt. mltable tárolja az adatanyag-terveket a tárolóban. Ez a tárolási hely azt jelenti, hogy az AzureML-hez leválasztva használható, például helyi és helyszíni. A V2 API-kban egyszerűbben válthat helyiről távoli feladatokra. További információ: Táblák használata az Azure Machine Tanulás-ban. |
URI
Az egységes erőforrás-azonosító (URI) a helyi számítógépen, az Azure Storage-on vagy a nyilvánosan elérhető HTTP-helyeken található tárolóhelyet jelöli. Az alábbi példák a különböző tárolási lehetőségek URI-jait mutatják be:
Tárolási hely | URI-példák |
---|---|
Azure Machine Tanulás Datastore | azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet |
Helyi számítógép | ./home/username/data/my_data |
Nyilvános HTTP-kiszolgáló | https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv |
Blob Storage | wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/ |
Azure Data Lake (gen2) | abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv |
Azure Data Lake (gen1) | adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2> |
Egy Azure Machine-Tanulás feladat URI-kat képez le a számítási cél fájlrendszerre. Ez a leképezés azt jelenti, hogy az URI-t használó vagy azt előállító parancsokban az URI fájlként vagy mappáként működik. Az URI identitásalapú hitelesítéssel csatlakozik a tárolási szolgáltatásokhoz a Microsoft Entra-azonosítóval (alapértelmezett) vagy a felügyelt identitással. Az Azure Machine Tanulás Adattár URI-k identitásalapú hitelesítést vagy hitelesítő adatokat (például szolgáltatásnév, SAS-jogkivonat, fiókkulcs) alkalmazhatnak titkos kódok felfedése nélkül.
Az URI-k bemenetként vagy kimenetként szolgálhatnak egy Azure Machine Tanulás-feladathoz, és a számítási cél fájlrendszerre képezhetők le a négy különböző mód közül az egyikkel:
- Írásvédett csatlakoztatás (
ro_mount
): Az URI a számítási cél fájlrendszerhez csatlakoztatott tárolási helyet jelöli. A csatlakoztatott adathely kizárólag írásvédett kimenetet támogat. - Olvasási-írási csatlakoztatás (
rw_mount
): Az URI a számítási cél fájlrendszerhez csatlakoztatott tárolási helyet jelöli. A csatlakoztatott adathely támogatja az olvasási kimenetet és az adatírást is. - Letöltés (
download
): Az URI a számítási cél fájlrendszerbe letöltött adatokat tartalmazó tárolási helyet jelöli. - Feltöltés (
upload
): A számítási célhelyre írt összes adat az URI által képviselt tárolási helyre lesz feltöltve .
Emellett az URI-t feladatbemeneti sztringként is átadhatja a közvetlen móddal. Ez a táblázat a bemenetekhez és kimenetekhez elérhető módok kombinációját foglalja össze:
Állás Bemenet vagy kimenet |
upload |
download |
ro_mount |
rw_mount |
direct |
---|---|---|---|---|---|
Bevitel | ✓ | ✓ | ✓ | ||
Kimenet | ✓ | ✓ |
További információt az Access-adatok egy feladatban című témakörben talál.
Adat-futtatókörnyezeti képesség
Az Azure Machine Tanulás három célra használja a saját adat-futtatókörnyezetét:
- csatlakoztatások/feltöltések/letöltések esetén
- a tárolási URI-k leképezése a számítási cél fájlrendszerre
- táblázatos adatok létrehozása pandasba/sparkba az Azure Machine Tanulás táblákkal (
mltable
)
Az Azure Machine Tanulás adat-futtatókörnyezetet a gépi tanulási feladatok nagy sebességére és nagy hatékonyságára tervezték. A következő főbb előnyöket kínálja:
- Rust language architecture. A Rust nyelv a nagy sebességről és a nagy memóriahatékonyságról ismert.
- Könnyű súly; az Azure Machine Tanulás adat-futtatókörnyezet nem függ más technológiáktól – például JVM-hez –, így a futtatókörnyezet gyorsan települ számítási célokra.
- Többfolyamatos (párhuzamos) adatbetöltés.
- Az adatbeolvasások háttérfeladatként működnek a PROCESSZOR(ok)on, hogy javítsák a GPU(k) használatát a mélytanulási műveletekben.
- Zökkenőmentes hitelesítés a felhőbeli tárterületre.
Adategység
Az Azure Machine Tanulás adategység hasonlít a webböngésző könyvjelzőire (kedvencek). A leggyakrabban használt adatokra mutató hosszú tárolási útvonalak (URI-k) megjegyzése helyett létrehozhat egy adategységet, majd egy rövid névvel elérheti az objektumot.
Az adategység létrehozása az adatforrás helyére mutató hivatkozást is létrehoz a metaadatok másolatával együtt. Mivel az adatok a meglévő helyen maradnak, nem jár többletköltséggel, és nem kockáztatja az adatforrás integritását. Adategységeket létrehozhat az Azure Machine Tanulás adattárakból, az Azure Storage-ból, a nyilvános URL-címekből vagy a helyi fájlokból.
Az adategységekkel kapcsolatos további információkért tekintse meg az adategységek létrehozását ismertető témakört.