Megosztás a következőn keresztül:


Importálás azure-táblából

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk azt ismerteti, hogyan használható az Adatok importálása modul a Machine Learning Studio (klasszikus) alkalmazásában strukturált vagy részben strukturált adatok importálására Azure-táblákból egy gépi tanulási kísérletbe.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

Az Azure Table Service egy adatkezelési szolgáltatás az Azure-ban, amely nagy mennyiségű strukturált, nem relációs adat tárolására képes. Ez egy NoSQL-adattár, amely hitelesített hívásokat fogad az Azure-ból és azon kívül.

Az Azure Table Storage-ból való importáláshoz két fióktípus közül kell választania: egy SAS URL-cím használatával elérhető tárfiókot vagy egy privát tárfiókot, amelyhez bejelentkezési hitelesítő adatokra van szükség.

Adatok importálása Azure-táblákból

Az Adatimport varázsló használata

A modul egy új varázslóval segít kiválasztani a tárolási lehetőséget, választani a meglévő előfizetések és fiókok közül, és gyorsan konfigurálni az összes beállítást.

  1. Adja hozzá az Adatok importálása modult a kísérlethez. A modult az Adatbemenet és -kimenet alatt találja.

  2. Kattintson az Adatok importálása varázsló indítása elemre , és kövesse az utasításokat.

  3. Ha a konfigurálás befejeződött, az adatok a kísérletbe való másoláshoz kattintson a jobb gombbal a modulra, és válassza a Kijelölt futtatása lehetőséget.

Ha egy meglévő adatkapcsolatot kell szerkesztenie, a varázsló betölti az összes korábbi konfigurációs adatot, így nem kell elölről kezdenie

Tulajdonságok manuális beállítása az Adatok importálása modulban

A következő lépések ismertetik, hogyan konfigurálhatja manuálisan az importálási forrást.

  1. Adja hozzá az Adatok importálása modult a kísérlethez. Ezt a modult a (klasszikus) Data Input (Adatbemenet) és a Output (Kimenet) csoportban találja a Machine Learning elemek listájában.

  2. Az Adatforrás mezőben válassza az Azure Table lehetőséget.

  3. A Hitelesítés típusa mezőben válassza a Nyilvános (SAS URL) lehetőséget, ha tudja, hogy az információ nyilvános adatforrásként lett megtéve. Az SAS URL-cím egy időhez kötött hozzáférési URL-cím, amelyet egy Azure Storage-segédprogrammal hozhat létre.

    Ellenkező esetben válassza a Fiók lehetőséget.

  4. Ha az adatok egy SAS URL-cím használatával elérhető nyilvános blobban vannak, nincs szükség további hitelesítő adatokra, mert az URL-sztring tartalmazza a letöltéshez és a hitelesítéshez szükséges összes információt.

    A Table SAS URI mezőbe írja vagy illessze be a fiókot és a nyilvános blobot meghatározó teljes URI-t.

    Megjegyzés

    A SAS URL-címen keresztül elérhető oldalon az adatok csak a következő formátumokkal tárolhatók: CSV, TSV és ARFF.

  5. Ha az adatai privát fiókban vannak , meg kell adnunk a hitelesítő adatokat, beleértve a fiók nevét és a kulcsot.

    • A Táblafiók neve mezőbe írja vagy illessze be az elérni kívánt blobot tartalmazó fiók nevét.

      Ha például a tárfiók teljes URL-címe https://myshared.table.core.windows.net, akkor a következőt kell begépelni: myshared.

    • A Table-fiók kulcsaként illessze be a tárfiókhoz társított hozzáférési kulcsot.\

      Ha nem ismeri a hozzáférési kulcsot, tekintse meg a "Tárelérési kulcsok megtekintése, másolása és újragenerálása" című szakaszt a következő cikkben: Az Azure Storage-fiókok.

    • A Tábla neve mezőbe írja be az olvasni kívánt tábla nevét.

  6. Válasszon egy lehetőséget, amely azt jelzi, hogy az Adatok importálása során hány sort kell átvizsgálni. Az Adatok importálása a vizsgálat segítségével leolvassa az adatok oszlopainak listáját, és meghatározza, hogy milyen típusú oszlopnak kell lennie.

    • TopN: Csak a megadott számú sort vizsgálja meg, az adathalmaz tetejétől kezdve.

      A rendszer alapértelmezés szerint 10 sort vizsgál meg, de ezt az értéket a Sorok száma a legfelső szintű számhoz beállítással növelheti vagy csökkentheti .

      Ha az adatok homogének és kiszámíthatók, válassza a TopN lehetőséget, és adjon meg egy számot N-hez. Nagy tábláknál ez gyorsabb olvasási időt eredményezhet.

    • ScanAll: A tábla összes sorának beolvasása.

      Ha az adatok olyan tulajdonságokkal vannak strukturálva, amelyek a tábla mélysége és pozíciója alapján változnak, válassza a ScanAll lehetőséget az összes sor vizsgálatához. Ez biztosítja az eredményül kapott tulajdonság és metaadat-átalakítás integritását.

  7. Jelezze, hogy a kísérlet minden futtatásakor frissíteni szeretné-e az adatokat. Ha a Gyorsítótárazott eredmények használata lehetőséget választja (ez az alapértelmezett beállítás), az Adatok importálása modul a kísérlet első futtatásakor beolvassa az adatokat a megadott forrásból, majd ezt követően gyorsítótárazza az eredményeket. Ha az Adatok importálása modul paraméterei módosulnak, a rendszer újra betölti az adatokat.

    Ha nem választja ki ezt a beállítást, a rendszer a kísérlet minden futtatásakor beolvassa az adatokat a forrásból, függetlenül attól, hogy az adatok azonosak-e vagy sem.

Példák

Az Adatok exportálása modul használatára vonatkozó példákért lásd a Azure AI Gallery.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Gyakori kérdések

Hogyan kerülendő el, hogy feleslegesen töltöm be újra ugyanezeket az adatokat?

Ha a forrásadatok megváltoznak, frissítheti az adatkészletet, és új adatokat adhat hozzá az Adatok importálása újrafuttatható futtatásával. Ha azonban nem szeretne minden alkalommal újra olvasni a forrásból, amikor futtatja a kísérletet, válassza a Gyorsítótárazott eredmények használata lehetőséget TRUE (IGAZ) értékre. Ha ez a beállítás TRUE (IGAZ) értékre van állítva, a modul ellenőrzi, hogy a kísérlet korábban ugyanazokkal a forrással és bemeneti beállításokkal futott-e, és ha egy korábbi futtatás található, a rendszer a gyorsítótárban lévő adatokat használja az adatoknak a forrásból való újrabetöltése helyett.

Szűrhetők az adatok a forrásból való beolvasott adatokra?

Az Adatok importálása modul nem támogatja a szűrést az adatok olvasása során. Kivételt képez az adatcsatornákból való beolvasás, amelyek esetenként lehetővé teszik szűrési feltétel megadását a hírcsatorna URL-címének részeként.

Azonban módosíthatja vagy szűrheti az adatokat, miután beolvasott a Machine Learning Studióba:

  • Egyéni R-szkript használatával módosíthatja vagy szűrheti az adatokat.
  • Használja az Adatok felosztása modult egy relatív kifejezéssel vagy reguláris kifejezéssel a kívánt adatok elkülönítéséhez, majd mentse adatkészletként.

Megjegyzés

Ha azt találják, hogy a szükségesnél több adatot töltöttek be, felülírhatja a gyorsítótárazott adatkészletet egy új adatkészlet beolvasásával, és a régebbi, nagyobb adatokkal azonos néven mentheti őket.

Hogyan kezeli az Importált adatok a különböző földrajzi régiókból betöltött adatokat?

Ha a blob- vagy table storage-fiók a gépi tanulási kísérlethez használt számítási csomóponttól eltérő régióban van, az adatelérés lassabb lehet. Ezen túl az előfizetésbe való be- és ki- és be bejövő adatbelépésekért is díjat kell fizetnie.

Miért nem jelennek meg helyesen a táblában szereplő karakterek?

Machine Learning UTF-8 kódolást támogat. Ha a tábla más kódolást használ, előfordulhat, hogy a karakterek nem lesznek megfelelően importálva.

Vannak tiltott karakterek vagy karakterek, amelyek módosultak az importálás során?

Ha az attribútumadatok idézőjeleket vagy escape-karaktersorozatokat tartalmaznak, a rendszer az ilyen karakterekre vonatkozó szabályokat használja a Microsoft Excel. A többi karakter kezelése az alábbi specifikációk alapján, az RFC 4180 szabvány alapján van kezelve.

Modulparaméterek

Name Tartomány Típus Alapértelmezett Alapértelmezett
Adatforrás Lista Adatforrás vagy fogadó Azure Blob Storage Az adatforrás lehet HTTP, FTP, névtelen HTTPS vagy FTPS, azure blobtárolóban lévő fájl, Azure-tábla, Azure SQL Database, helyszíni SQL Server-adatbázis, Hive-tábla vagy OData-végpont.
Hitelesítéstípus PublicOrSas

Fiók
tableAuthType Fiók Adja meg, hogy az adatok SAS URL-címen keresztül elérhető nyilvános tárolóban vagy olyan privát tárfiókban vannak-e, amelyhez hitelesítés szükséges a hozzáféréshez.

Nyilvános vagy SAS – Nyilvános tárolási lehetőségek

Name Tartomány Típus Alapértelmezett Description
Tábla URI-ja bármelyik Sztring
Tulajdonságnevek SAS-en keresztül történő keresésének sorai egész szám
Sorok száma a TopN-hez SAS-en keresztül

Fiók – Privát tárolási lehetőségek

Name Tartomány Típus Alapértelmezett Description
Táblafiók neve
Táblafiók kulcsa bármelyik SecureString
Table name (Táblázat neve) bármelyik
Tulajdonságnevek keresésének sorai FelsőN

ScanAll
A TopN sorszáma bármelyik egész szám

Kimenetek

Név Típus Description
Eredményadatkészlet Adattábla Adatkészlet letöltött adatokkal

Kivételek

Kivétel Description
0027-es hiba Kivétel történik, ha két objektumnak azonos méretűnek kell lennie, de nem azok.
0003-as hiba Kivétel történik, ha egy vagy több bemenet null vagy üres.
0029-es hiba Kivétel történik, ha érvénytelen URI-t ad át.
0030-as hiba a kivétel akkor jelentkezik, ha nem lehet letölteni egy fájlt.
0002-es hiba Kivétel történik, ha egy vagy több paramétert nem lehetett a megadott típusról a cél metódus által megkövetelt típusra átalakítani.
0009-es hiba Kivétel történik, ha az Azure Storage-fiók neve vagy a tároló neve helytelenül van megadva.
0048-as hiba Kivétel történik, ha nem lehet megnyitni egy fájlt.
0046-os hiba Kivétel történik, ha nem lehet könyvtárat létrehozni a megadott elérési úton.
0049-es hiba Kivétel történik, ha nem lehet fájlokat elemezni.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.

Lásd még

Adatok importálása
Adatok exportálása
Importálás webes URL-ről HTTP-kapcsolaton keresztül
Importálás Hive-lekérdezésből
Importálás Azure SQL Database-ből
Importálás Azure Blob Storage
Importálás adatcsatorna-szolgáltatókból
Importálás helyszíni adatbázisból SQL Server adatbázisból