Megosztás a következőn keresztül:


Az Adatimportálás összetevő

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Ezzel az összetevővel adatokat tölthet be egy meglévő felhőbeli adatszolgáltatásokból származó gépi tanulási folyamatba.

Feljegyzés

Az összetevő által biztosított összes funkciót a munkaterület kezdőlapján található adattárak és adatkészletek végezhetik el. Javasoljuk, hogy olyan adattárat és adatkészletet használjon, amely további funkciókat, például adatmonitorozást is tartalmaz. További információ: Az adatok elérése és az adathalmazok regisztrálása . Miután regisztrált egy adathalmazt, a tervezőfelület Adathalmazok ->Saját adathalmazok kategóriájában találja meg. Ez az összetevő a Studio(klasszikus) felhasználói számára van fenntartva egy ismerős élmény érdekében.

Az Adatok importálása összetevő a következő forrásokból származó adatok olvasását támogatja:

  • URL HTTP-en keresztül
  • Azure cloud storages through Datastores)
    • Azure-blobtároló
    • Azure-fájlmegosztás
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Azure SQL Database
    • Azure PostgreSQL

A felhőalapú tárolás használata előtt először regisztrálnia kell egy adattárat az Azure Machine Learning-munkaterületen. További információt az Adatok elérése című témakörben talál.

Miután meghatározta a kívánt adatokat, és csatlakozott a forráshoz, az Adatok importálása az egyes oszlopok adattípusát a benne található értékek alapján következteti, és betölti az adatokat a tervezőfolyamatba. Az Adatok importálása olyan adatkészlet, amely bármely tervezőfolyamattal használható.

Ha a forrásadatok megváltoznak, frissítheti az adathalmazt, és új adatokat adhat hozzá az Adatok importálása újrafuttatásával.

Figyelmeztetés

Ha a munkaterület virtuális hálózaton található, konfigurálnia kell az adattárakat a tervező adatvizualizációs funkcióinak használatára. Az adattárak és adathalmazok virtuális hálózatokban való használatáról további információt az Azure Machine Learning Studio használata Azure-beli virtuális hálózatban című témakörben talál.

Adatok importálásának konfigurálása

  1. Adja hozzá az Adatimportálás összetevőt a folyamathoz. Ezt az összetevőt a tervező Adatbemenet és kimenet kategóriájában találja.

  2. Válassza ki az összetevőt a jobb oldali panel megnyitásához.

  3. Válassza ki az Adatforrás lehetőséget, és válassza ki az adatforrás típusát. Lehet HTTP vagy adattár.

    Ha az adattárat választja, kiválaszthatja az Azure Machine Learning-munkaterületen már regisztrált meglévő adattárakat, vagy létrehozhat egy új adattárat. Ezután határozza meg az adattárban importálandó adatok elérési útját. Egyszerűen tallózhat az elérési úton a Tallózás lehetőség kiválasztásával.

    Képernyőkép a Tallózás elérési út hivatkozásról, amely megnyitja az Elérési út kijelölése párbeszédpanelt.

    Feljegyzés

    Az Adatimportálás összetevő csak táblázatos adatokhoz használható. Ha egyszerre több táblázatos adatfájlt szeretne importálni, az a következő feltételeket igényli, ellenkező esetben hibák lépnek fel:

    1. Ahhoz, hogy az összes adatfájlt belefoglalja a mappába, meg kell adnia folder_name/** az elérési utat.
    2. Minden adatfájlt Unicode-8 kóddal kell kódolni.
    3. Minden adatfájlnak azonos oszlopszámmal és oszlopnevekkel kell rendelkeznie.
    4. Több adatfájl importálásának eredménye az összes sor összefűzése több fájlból, sorrendben.
  4. Válassza ki az előnézeti sémát a belefoglalni kívánt oszlopok szűréséhez. Olyan speciális beállításokat is megadhat, mint a Delimiter a Elemzési beállításokban.

    Képernyőkép a séma előnézetéről, amelyen a 3., 4., 5. és 6. oszlop van kiválasztva.

  5. A kimenet újragenerálása jelölőnégyzet dönti el, hogy végrehajtja-e az összetevőt a kimenet futásidőben történő újragenerálásához.

    Alapértelmezés szerint nincs kiválasztva, ami azt jelenti, hogy ha az összetevőt korábban ugyanazokkal a paraméterekkel hajtották végre, a rendszer újra felhasználja a legutóbbi futtatás kimenetét a futási idő csökkentése érdekében.

    Ha ki van választva, a rendszer újra végrehajtja az összetevőt a kimenet újragenerálásához. Ezért válassza ezt a lehetőséget a tárolóban lévő mögöttes adatok frissítésekor, így segíthet a legújabb adatok beszerzésében.

  6. Küldje el a folyamatot.

    Amikor az Adatok importálása betölti az adatokat a tervezőbe, az egyes oszlopok adattípusát a benne található értékek alapján, numerikus vagy kategorikus értékek alapján következteti.

    Ha van élőfej, a rendszer a kimeneti adathalmaz oszlopainak elnevezésére használja.

    Ha nincsenek meglévő oszlopfejlécek az adatokban, a rendszer az új oszlopneveket col1, col2 formátummal hozza létre,... , coln*.

Results (Eredmények)

Amikor az importálás befejeződött, kattintson a jobb gombbal a kimeneti adatkészletre, és válassza a Vizualizáció lehetőséget annak megtekintéséhez, hogy az adatok importálása sikeresen megtörtént-e.

Ha a folyamat minden futtatásakor új adatkészlet importálása helyett újra szeretné menteni az adatokat, válassza az adathalmaz regisztrálása ikont az összetevő jobb oldali paneljén, a Kimenetek+naplók lapon. Válasszon nevet az adathalmaznak. A mentett adatkészlet a mentéskor megőrzi az adatokat. Az adatkészlet nem frissül a folyamat újrafuttatásakor, még akkor sem, ha a folyamat adathalmaza megváltozik. Ez hasznos lehet az adatok pillanatképeinek készítéséhez.

Az adatok importálása után szükség lehet néhány további előkészületre a modellezéshez és az elemzéshez:

  • A Metaadatok szerkesztése funkcióval módosíthatja az oszlopneveket, más adattípusként kezelhet egy oszlopot, vagy jelezheti, hogy egyes oszlopok címkék vagy szolgáltatások.

  • Az Adathalmaz oszlopainak kijelölése lehetőségével kiválaszthatja az átalakítandó vagy a modellezés során használni kívánt oszlopok egy részhalmazát. Az átalakított vagy eltávolított oszlopok egyszerűen újracsatlakozhatnak az eredeti adathalmazba az Oszlopok hozzáadása összetevővel.

  • A Partíció és a Minta használatával ossza el az adathalmazt, végezzen mintavételezést, vagy szerezze be a felső n sorokat.

Korlátozások

Az adattár-hozzáférés korlátozása miatt, ha a következtetési folyamat importálási adatösszetevőt tartalmaz, az automatikusan törlődik a valós idejű végponton való üzembe helyezéskor.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket.