Megosztás a következőn keresztül:


Kapcsolódás az adatokhoz az Azure Machine Learning stúdióval

Ez a cikk bemutatja, hogyan férhet hozzá az adatokhoz az Azure Machine Learning Studióval. Az Azure Storage-szolgáltatásokban lévő adatokhoz azure Machine Learning-adattárakkal csatlakozhat. Ezután csomagolja be ezeket az adatokat az ml-munkafolyamat-feladatokhoz azure Machine Learning-adathalmazokkal.

Ez a táblázat az adattárak és adathalmazok előnyeit határozza meg és összegzi.

Objektum Leírás Előnyök
Adattárak Ha biztonságosan szeretne csatlakozni a tárolási szolgáltatáshoz az Azure-ban, tárolja a kapcsolati adatokat (előfizetés-azonosító, jogkivonat-engedélyezés stb.) a munkaterülethez társított Key Vaultban Mivel az adatok biztonságosan vannak tárolva, nem helyezi veszélybe a hitelesítési hitelesítő adatokat vagy az eredeti adatforrásokat, és ezeket az értékeket már nem kell szigorúan kódolnia a szkriptekben
Adathalmazok Az adathalmaz létrehozása az adatforrás helyére mutató hivatkozást is létrehoz a metaadatok másolatával együtt. Az adatkészletekkel a modell betanítása során adatokat érhet el, adatokat oszthat meg és együttműködhet más felhasználókkal, és nyílt forráskódú kódtárakat (például pandas) használhat az adatfeltáráshoz. Mivel az adathalmazok lazán vannak kiértékelve, és az adatok a meglévő helyen maradnak, az adatok egyetlen másolatát tárolhatja a tárban. Emellett nincs extra tárolási költség, elkerülheti az eredeti adatforrások véletlen módosításait, és javíthatja az ml-munkafolyamatok teljesítményét.

Ha szeretné megtudni, hogy az adattárak és adathalmazok hol férnek el az Azure Machine Learning teljes adatelérési munkafolyamatában, látogasson el a Biztonságosan hozzáférés az adatokhoz.

Az Azure Machine Learning Python SDK-val és a kódelső felülettel kapcsolatos további információkért lásd:

Előfeltételek

  • Azure-előfizetés. Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot. Az Azure Machine Learning ingyenes vagy fizetős verziójának kipróbálása

  • Hozzáférés az Azure Machine Learning Studióhoz

  • Egy Azure Machine Learning-munkaterület. Munkaterületi erőforrások létrehozása

    • Munkaterület létrehozásakor a rendszer automatikusan regisztrál egy Azure-blobtárolót és egy Azure-fájlmegosztást adattárként a munkaterületre. Elnevezték workspaceblobstore őket, és workspacefilestoremás néven. A blobtároló-erőforrásokhoz az workspaceblobstore alapértelmezett adattárként van beállítva, amely már konfigurálva van a használatra. Ha több blobtároló-erőforrásra van szüksége, egy támogatott tártípusú Azure Storage-fiókra van szüksége.

Adattárak létrehozása

Ezekből az Azure Storage-megoldásokból hozhat létre adattárakat. A nem támogatott tárolási megoldások esetében és az ml-kísérletek során az adatforgalom költségeinek mentéséhez át kell helyeznie az adatokat egy támogatott Azure Storage-megoldásba. Az adattárakról további információt ebben az erőforrásban talál.

Létrehozhat adattárakat hitelesítő adatokon alapuló hozzáféréssel vagy identitásalapú hozzáféréssel.

Hozzon létre egy új adattárat az Azure Machine Learning Studióval.

Fontos

Ha az adattárfiók egy virtuális hálózaton található, további konfigurációs lépésekre van szükség annak biztosításához, hogy a stúdió hozzáférhessen az adatokhoz. A megfelelő konfigurációs lépésekről további információt a Hálózatelkülönítés > adatvédelmi nyilatkozatában talál.

  1. Jelentkezzen be az Azure Machine Learning Studióba.
  2. Válassza az Adatok lehetőséget a bal oldali panelEn az Eszközök csoportban.
  3. A tetején válassza az Adattárak lehetőséget.
  4. Válassza a +Létrehozás lehetőséget.
  5. Töltse ki az űrlapot egy új adattár létrehozásához és regisztrálásához. Az űrlap intelligensen frissíti magát az Azure Storage-típus és a hitelesítési típus kiválasztása alapján. Az űrlap kitöltéséhez szükséges hitelesítési hitelesítő adatok megkereséséről további információt a tárhozzáférés és az engedélyek szakaszában talál.

Ez a képernyőkép az Azure Blob-adattár létrehozási panelét mutatja be:

Képernyőkép az Azure Blob-adattár létrehozási panelről.

Adategységek létrehozása

Miután létrehozott egy adattárat, hozzon létre egy adatkészletet az adatok kezeléséhez. Az adathalmazok egy lazán kiértékelt hasznosítható objektumba csomagolják az adatokat gépi tanulási feladatokhoz – például betanításhoz. Az adatkészletekkel kapcsolatos további információkért látogasson el az Azure Machine Learning-adathalmazok létrehozása webhelyre.

Az adathalmazoknak két típusa van: FileDataset és TabularDataset. A FileDatasets egy vagy több fájlra vagy nyilvános URL-címekre mutató hivatkozásokat hoz létre. A TabularDatasets táblázatos formátumú adatokat jelöl. TabularDatasets-eket a

  • .csv
  • .tsv
  • .parketta
  • .json fájlokból és az SQL-lekérdezés eredményeiből.

Az alábbi lépések bemutatják, hogyan hozhat létre adatkészletet az Azure Machine Learning Studióban.

Feljegyzés

Az Azure Machine Learning Studióban létrehozott adathalmazok automatikusan regisztrálva lesznek a munkaterületen.

  1. Navigálás az Azure Machine Learning Studióba

  2. A bal oldali navigációs Eszközök területén válassza az Adatok lehetőséget. Az Adategységek lapon válassza a Létrehozás lehetőséget Képernyőkép a Létrehozás az Adategységek lapon.

  3. Adjon nevet és opcionális leírást az adategységnek. Ezután a Típus csoportban válasszon ki egy Adathalmaztípust fájl vagy táblázatos típussal. Képernyőkép az adategység nevének, leírásának és típusának beállításáról.

  4. Ezután megnyílik az Adatforrás ablaktábla, ahogyan az a képernyőképen látható:

Ez a képernyőkép az adatforrás-kijelölés panelt mutatja.

Az adatforráshoz különböző lehetőségek állnak rendelkezésre. Az Azure-ban már tárolt adatok esetében válassza az "Azure Storage-ból" lehetőséget. Ha adatokat szeretne feltölteni a helyi meghajtóról, válassza a "Helyi fájlokból" lehetőséget. Nyilvános webes helyen tárolt adatok esetén válassza a "Webes fájlokból" lehetőséget. Adategységet SQL-adatbázisból vagy Azure Open Dataset-ből is létrehozhat.

  1. A fájlkijelölési lépésben válassza ki azt a helyet, ahol az Azure-nak tárolnia kell az adatokat, valamint a használni kívánt adatfájlokat.

    1. Engedélyezze az ellenőrzés kihagyását, ha az adatok virtuális hálózaton találhatóak. További információ a virtuális hálózatok elkülönítéséről és az adatvédelemről.
  2. Az adategység adatelemzési beállításainak és sémájának beállításához kövesse az alábbi lépéseket. A beállítások fájltípus alapján előre feltölthetők, és az adategység létrehozása előtt tovább konfigurálhatja a beállításokat.

  3. Miután elérte a Véleményezés lépést, válassza a Létrehozás lehetőséget az utolsó oldalon

Adatok előnézete és profilja

Az adathalmaz létrehozása után ellenőrizze, hogy megtekintheti-e az előnézetet és a profilt a studióban:

  1. Bejelentkezés az Azure Machine Learning Studióba
  2. A bal oldali navigációs Eszközök területén válassza az Adatok lehetőséget. Képernyőkép: Létrehozás az Adategységek lapon.
  3. Válassza ki a megtekinteni kívánt adathalmaz nevét.
  4. Válassza a Felfedezés lapot.
  5. Válassza az Előnézet lapot. Képernyőkép egy adathalmaz előnézetéről.
  6. Válassza a Profil lapot. Képernyőkép az adathalmaz oszlop metaadatairól a Profil lapon.

Az adatkészlet összesítő statisztikái segítségével ellenőrizheti, hogy az adatkészlet ml-kész-e. A nem numerikus oszlopok esetében ezek a statisztikák csak alapszintű statisztikákat tartalmaznak – például minimális, maximális és hibaszám. A numerikus oszlopok statisztikai pillanatokat és becsült kvantititásokat kínálnak.

Az Azure Machine Learning adatkészlet adatprofilja a következőket tartalmazza:

Feljegyzés

Az irreleváns típusok esetében üres bejegyzések jelennek meg.

Statisztikai adatok Leírás
Szolgáltatás Az összegzett oszlop neve
Profil In-line vizualizáció a kikövetkezés típusa alapján. A sztringek, logikai értékek és dátumok értékekkel rendelkeznek. A decimális (numerikus) hisztogramok hozzávetőlegesek. Ezek a vizualizációk gyors áttekintést nyújtanak az adateloszlásról
Típuseloszlás Egy oszlopon belüli típusok soron belüli értékének száma. A null értékek a saját típusuk, így ez a vizualizáció képes észlelni a páratlan vagy hiányzó értékeket
Típus Halasztott oszloptípus. Lehetséges értékek: sztringek, logikai értékek, dátumok és decimálisok
Min Az oszlop minimális értéke. Üres bejegyzések jelennek meg az olyan szolgáltatások esetében, amelyek típusa nem rendelkezik eredendő rendezéssel (például logikai értékekkel)
Max Az oszlop maximális értéke.
Count Hiányzó és kihagyó bejegyzések teljes száma az oszlopban
Nem hiányzik a szám A nem hiányzó bejegyzések száma az oszlopban. Az üres sztringek és hibák értékekként vannak kezelve, így nem járulnak hozzá a "nem hiányzó számhoz".
Kvantilisek Hozzávetőleges értékek minden kvantálásnál, hogy érzékelhető legyen az adateloszlás
Középérték Az oszlop számtani középértéke vagy átlaga
Szórás Az oszlop adatainak szórásának vagy variációjának mértéke
Eltérés Annak mértéke, hogy az oszlop adatai milyen mértékben oszlanak el az átlagértéktől
Ferdeség Az oszlop adatainak különbségét méri a normál eloszlástól
Kurtózis Az oszlop adatainak "tailness" fokát méri a normál eloszláshoz képest

Tárhozzáférés és engedélyek

Ahhoz, hogy biztonságosan csatlakozzon az Azure Storage szolgáltatáshoz, az Azure Machine Learningnek rendelkeznie kell engedéllyel a megfelelő adattár eléréséhez. Ez a hozzáférés az adattár regisztrálásához használt hitelesítési hitelesítő adatoktól függ.

Virtuális hálózat

Ha az adattároló-fiók virtuális hálózaton található, további konfigurációs lépésekre van szükség annak biztosításához, hogy az Azure Machine Learning hozzáférhessen az adataihoz. Lásd: Az Azure Machine Learning Studio használata virtuális hálózaton az adattár létrehozása és regisztrálása során a megfelelő konfigurációs lépések végrehajtásához.

Hozzáférés-ellenőrzés

Figyelmeztetés

A tárfiókok több bérlőről való hozzáférése nem támogatott. Ha a forgatókönyv bérlők közötti hozzáférésre van szüksége, forduljon az Azure Machine Learning adattámogatási csapatának aliasához amldatasupport@microsoft.com egy egyéni kódmegoldással kapcsolatos segítségért.

A kezdeti adattár-létrehozási és -regisztrációs folyamat részeként az Azure Machine Learning automatikusan ellenőrzi, hogy a mögöttes tárolási szolgáltatás létezik-e, és hogy a felhasználó által megadott egyszerű rendszernév (felhasználónév, szolgáltatásnév vagy SAS-jogkivonat) rendelkezik-e hozzáféréssel a megadott tárolóhoz.

Az adattár létrehozása után ez az ellenőrzés csak olyan metódusok esetében történik, amelyek hozzáférést igényelnek az alapul szolgáló tárolóhoz. Az érvényesítés nem történik meg minden alkalommal, amikor az adattárobjektumok lekérése történik. Az érvényesítés például akkor történik, ha fájlokat tölt le az adattárból. Ha azonban módosítani szeretné az alapértelmezett adattárat, az ellenőrzés nem történik meg.

A mögöttes tárolási szolgáltatáshoz való hozzáférés hitelesítéséhez adja meg a fiókkulcsot, a közös hozzáférésű jogosultságkódokat (SAS) vagy a szolgáltatásnevet a létrehozni kívánt adattártípusnak megfelelően. A tárolási típus mátrixa felsorolja az egyes adattártípusoknak megfelelő támogatott hitelesítési típusokat.

A fiókkulcs, az SAS-jogkivonat és a szolgáltatásnév adatai az Azure Portalon találhatók.

  • A hitelesítéshez szükséges fiókkulcs beszerzéséhez válassza a bal oldali panelen a Tárfiókok lehetőséget, és válassza ki a regisztrálni kívánt tárfiókot

    • Az Áttekintés lap olyan információkat tartalmaz, mint a fiók neve, a tároló és a fájlmegosztás neve.
    • Bontsa ki a Biztonság + hálózati csomópontot a bal oldali navigációs sávon
    • Válassza a Hozzáférési kulcsok elemet
    • Az elérhető kulcsértékek fiókkulcs-értékekként szolgálnak
  • Ha SAS-jogkivonatot szeretne beszerezni a hitelesítéshez, válassza a bal oldali panelen a Tárfiókok lehetőséget, és válassza ki a kívánt tárfiókot

    • Az Access-kulcs értékének beszerzéséhez bontsa ki a Biztonság + hálózati csomópontot a bal oldali navigációs sávon
    • Megosztott hozzáférésű jogosultságkód kiválasztása
    • Fejezze be az SAS-érték létrehozásának folyamatát
  • Ha szolgáltatásnevet szeretne használni a hitelesítéshez, lépjen a Alkalmazásregisztrációk, és válassza ki a használni kívánt alkalmazást.

    • A megfelelő áttekintési oldal olyan szükséges információkat tartalmaz, mint a bérlőazonosító és az ügyfélazonosító.

Fontos

  • Ha módosítani szeretné egy Azure Storage-fiók (fiókkulcs vagy SAS-jogkivonat) hozzáférési kulcsait, mindenképpen szinkronizálja az új hitelesítő adatokat a munkaterületével és a hozzá csatlakoztatott adattárakkal. További információkért látogasson el a frissített hitelesítő adatok szinkronizálására.
  • Ha törli a regisztrációt, majd újra regisztrál egy azonos nevű adattárat, és az újraregisztráció meghiúsul, előfordulhat, hogy a munkaterület Azure Key Vaultja nem rendelkezik engedélyezve a helyreállítható törléssel. Alapértelmezés szerint a helyreállítható törlés engedélyezve van a munkaterület által létrehozott Kulcstartó-példányhoz, de lehet, hogy nem lesz engedélyezve, ha meglévő kulcstartót használt, vagy 2020 októbere előtt létrehozott munkaterületet. A helyreállítható törlés engedélyezéséről további információt a Meglévő kulcstartó helyreállítható törlése funkciójának bekapcsolása című témakörben talál.

Engedélyek

Az Azure Blob-tároló és az Azure Data Lake Gen 2 Storage esetében győződjön meg arról, hogy a hitelesítési hitelesítő adatok rendelkeznek Storage Blob Data Reader-hozzáféréssel . További információ a Storage Blob-adatolvasóról. Alapértelmezés szerint a fiók SAS-jogkivonata nem rendelkezik engedélyekkel.

  • Az adatolvasási hozzáféréshez a hitelesítési hitelesítő adatoknak rendelkezniük kell a tárolókhoz és objektumokhoz szükséges lista- és olvasási engedélyekkel.

  • Az adatírási hozzáféréshez írási és hozzáadási engedélyekre is szükség van.

Betanítás adathalmazok használatával

Az adathalmazokat gépi tanulási kísérletekben használhatja az ML-modellek betanításához. További információ az adathalmazok betanításairól.

Következő lépések