Importálás azure-táblából
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Ez a cikk azt ismerteti, hogyan használható az Adatok importálása modul a Machine Learning Studio (klasszikus) alkalmazásában strukturált vagy részben strukturált adatok importálására Azure-táblákból egy gépi tanulási kísérletbe.
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
Az Azure Table Service egy adatkezelési szolgáltatás az Azure-ban, amely nagy mennyiségű strukturált, nem relációs adat tárolására képes. Ez egy NoSQL-adattár, amely hitelesített hívásokat fogad az Azure-ból és azon kívül.
Az Azure Table Storage-ból való importáláshoz két fióktípus közül kell választania: egy SAS URL-cím használatával elérhető tárfiókot vagy egy privát tárfiókot, amelyhez bejelentkezési hitelesítő adatokra van szükség.
Adatok importálása Azure-táblákból
Az Adatimport varázsló használata
A modul egy új varázslóval segít kiválasztani a tárolási lehetőséget, választani a meglévő előfizetések és fiókok közül, és gyorsan konfigurálni az összes beállítást.
Adja hozzá az Adatok importálása modult a kísérlethez. A modult az Adatbemenet és -kimenet alatt találja.
Kattintson az Adatok importálása varázsló indítása elemre , és kövesse az utasításokat.
Ha a konfigurálás befejeződött, az adatok a kísérletbe való másoláshoz kattintson a jobb gombbal a modulra, és válassza a Kijelölt futtatása lehetőséget.
Ha egy meglévő adatkapcsolatot kell szerkesztenie, a varázsló betölti az összes korábbi konfigurációs adatot, így nem kell elölről kezdenie
Tulajdonságok manuális beállítása az Adatok importálása modulban
A következő lépések ismertetik, hogyan konfigurálhatja manuálisan az importálási forrást.
Adja hozzá az Adatok importálása modult a kísérlethez. Ezt a modult a (klasszikus) Data Input (Adatbemenet) és a Output (Kimenet) csoportban találja a Machine Learning elemek listájában.
Az Adatforrás mezőben válassza az Azure Table lehetőséget.
A Hitelesítés típusa mezőben válassza a Nyilvános (SAS URL) lehetőséget, ha tudja, hogy az információ nyilvános adatforrásként lett megtéve. Az SAS URL-cím egy időhez kötött hozzáférési URL-cím, amelyet egy Azure Storage-segédprogrammal hozhat létre.
Ellenkező esetben válassza a Fiók lehetőséget.
Ha az adatok egy SAS URL-cím használatával elérhető nyilvános blobban vannak, nincs szükség további hitelesítő adatokra, mert az URL-sztring tartalmazza a letöltéshez és a hitelesítéshez szükséges összes információt.
A Table SAS URI mezőbe írja vagy illessze be a fiókot és a nyilvános blobot meghatározó teljes URI-t.
Megjegyzés
A SAS URL-címen keresztül elérhető oldalon az adatok csak a következő formátumokkal tárolhatók: CSV, TSV és ARFF.
Ha az adatai privát fiókban vannak , meg kell adnunk a hitelesítő adatokat, beleértve a fiók nevét és a kulcsot.
A Táblafiók neve mezőbe írja vagy illessze be az elérni kívánt blobot tartalmazó fiók nevét.
Ha például a tárfiók teljes URL-címe
https://myshared.table.core.windows.net
, akkor a következőt kell begépelni:myshared
.A Table-fiók kulcsaként illessze be a tárfiókhoz társított hozzáférési kulcsot.\
Ha nem ismeri a hozzáférési kulcsot, tekintse meg a "Tárelérési kulcsok megtekintése, másolása és újragenerálása" című szakaszt a következő cikkben: Az Azure Storage-fiókok.
A Tábla neve mezőbe írja be az olvasni kívánt tábla nevét.
Válasszon egy lehetőséget, amely azt jelzi, hogy az Adatok importálása során hány sort kell átvizsgálni. Az Adatok importálása a vizsgálat segítségével leolvassa az adatok oszlopainak listáját, és meghatározza, hogy milyen típusú oszlopnak kell lennie.
TopN: Csak a megadott számú sort vizsgálja meg, az adathalmaz tetejétől kezdve.
A rendszer alapértelmezés szerint 10 sort vizsgál meg, de ezt az értéket a Sorok száma a legfelső szintű számhoz beállítással növelheti vagy csökkentheti .
Ha az adatok homogének és kiszámíthatók, válassza a TopN lehetőséget, és adjon meg egy számot N-hez. Nagy tábláknál ez gyorsabb olvasási időt eredményezhet.
ScanAll: A tábla összes sorának beolvasása.
Ha az adatok olyan tulajdonságokkal vannak strukturálva, amelyek a tábla mélysége és pozíciója alapján változnak, válassza a ScanAll lehetőséget az összes sor vizsgálatához. Ez biztosítja az eredményül kapott tulajdonság és metaadat-átalakítás integritását.
Jelezze, hogy a kísérlet minden futtatásakor frissíteni szeretné-e az adatokat. Ha a Gyorsítótárazott eredmények használata lehetőséget választja (ez az alapértelmezett beállítás), az Adatok importálása modul a kísérlet első futtatásakor beolvassa az adatokat a megadott forrásból, majd ezt követően gyorsítótárazza az eredményeket. Ha az Adatok importálása modul paraméterei módosulnak, a rendszer újra betölti az adatokat.
Ha nem választja ki ezt a beállítást, a rendszer a kísérlet minden futtatásakor beolvassa az adatokat a forrásból, függetlenül attól, hogy az adatok azonosak-e vagy sem.
Példák
Az Adatok exportálása modul használatára vonatkozó példákért lásd a Azure AI Gallery.
Technikai megjegyzések
Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.
Gyakori kérdések
Hogyan kerülendő el, hogy feleslegesen töltöm be újra ugyanezeket az adatokat?
Ha a forrásadatok megváltoznak, frissítheti az adatkészletet, és új adatokat adhat hozzá az Adatok importálása újrafuttatható futtatásával. Ha azonban nem szeretne minden alkalommal újra olvasni a forrásból, amikor futtatja a kísérletet, válassza a Gyorsítótárazott eredmények használata lehetőséget TRUE (IGAZ) értékre. Ha ez a beállítás TRUE (IGAZ) értékre van állítva, a modul ellenőrzi, hogy a kísérlet korábban ugyanazokkal a forrással és bemeneti beállításokkal futott-e, és ha egy korábbi futtatás található, a rendszer a gyorsítótárban lévő adatokat használja az adatoknak a forrásból való újrabetöltése helyett.
Szűrhetők az adatok a forrásból való beolvasott adatokra?
Az Adatok importálása modul nem támogatja a szűrést az adatok olvasása során. Kivételt képez az adatcsatornákból való beolvasás, amelyek esetenként lehetővé teszik szűrési feltétel megadását a hírcsatorna URL-címének részeként.
Azonban módosíthatja vagy szűrheti az adatokat, miután beolvasott a Machine Learning Studióba:
- Egyéni R-szkript használatával módosíthatja vagy szűrheti az adatokat.
- Használja az Adatok felosztása modult egy relatív kifejezéssel vagy reguláris kifejezéssel a kívánt adatok elkülönítéséhez, majd mentse adatkészletként.
Megjegyzés
Ha azt találják, hogy a szükségesnél több adatot töltöttek be, felülírhatja a gyorsítótárazott adatkészletet egy új adatkészlet beolvasásával, és a régebbi, nagyobb adatokkal azonos néven mentheti őket.
Hogyan kezeli az Importált adatok a különböző földrajzi régiókból betöltött adatokat?
Ha a blob- vagy table storage-fiók a gépi tanulási kísérlethez használt számítási csomóponttól eltérő régióban van, az adatelérés lassabb lehet. Ezen túl az előfizetésbe való be- és ki- és be bejövő adatbelépésekért is díjat kell fizetnie.
Miért nem jelennek meg helyesen a táblában szereplő karakterek?
Machine Learning UTF-8 kódolást támogat. Ha a tábla más kódolást használ, előfordulhat, hogy a karakterek nem lesznek megfelelően importálva.
Vannak tiltott karakterek vagy karakterek, amelyek módosultak az importálás során?
Ha az attribútumadatok idézőjeleket vagy escape-karaktersorozatokat tartalmaznak, a rendszer az ilyen karakterekre vonatkozó szabályokat használja a Microsoft Excel. A többi karakter kezelése az alábbi specifikációk alapján, az RFC 4180 szabvány alapján van kezelve.
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Alapértelmezett |
---|---|---|---|---|
Adatforrás | Lista | Adatforrás vagy fogadó | Azure Blob Storage | Az adatforrás lehet HTTP, FTP, névtelen HTTPS vagy FTPS, azure blobtárolóban lévő fájl, Azure-tábla, Azure SQL Database, helyszíni SQL Server-adatbázis, Hive-tábla vagy OData-végpont. |
Hitelesítéstípus | PublicOrSas Fiók |
tableAuthType | Fiók | Adja meg, hogy az adatok SAS URL-címen keresztül elérhető nyilvános tárolóban vagy olyan privát tárfiókban vannak-e, amelyhez hitelesítés szükséges a hozzáféréshez. |
Nyilvános vagy SAS – Nyilvános tárolási lehetőségek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Tábla URI-ja | bármelyik | Sztring | ||
Tulajdonságnevek SAS-en keresztül történő keresésének sorai | egész szám | |||
Sorok száma a TopN-hez SAS-en keresztül |
Fiók – Privát tárolási lehetőségek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Táblafiók neve | ||||
Táblafiók kulcsa | bármelyik | SecureString | ||
Table name (Táblázat neve) | bármelyik | |||
Tulajdonságnevek keresésének sorai | FelsőN ScanAll |
|||
A TopN sorszáma | bármelyik | egész szám |
Kimenetek
Név | Típus | Description |
---|---|---|
Eredményadatkészlet | Adattábla | Adatkészlet letöltött adatokkal |
Kivételek
Kivétel | Description |
---|---|
0027-es hiba | Kivétel történik, ha két objektumnak azonos méretűnek kell lennie, de nem azok. |
0003-as hiba | Kivétel történik, ha egy vagy több bemenet null vagy üres. |
0029-es hiba | Kivétel történik, ha érvénytelen URI-t ad át. |
0030-as hiba | a kivétel akkor jelentkezik, ha nem lehet letölteni egy fájlt. |
0002-es hiba | Kivétel történik, ha egy vagy több paramétert nem lehetett a megadott típusról a cél metódus által megkövetelt típusra átalakítani. |
0009-es hiba | Kivétel történik, ha az Azure Storage-fiók neve vagy a tároló neve helytelenül van megadva. |
0048-as hiba | Kivétel történik, ha nem lehet megnyitni egy fájlt. |
0046-os hiba | Kivétel történik, ha nem lehet könyvtárat létrehozni a megadott elérési úton. |
0049-es hiba | Kivétel történik, ha nem lehet fájlokat elemezni. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.
Lásd még
Adatok importálása
Adatok exportálása
Importálás webes URL-ről HTTP-kapcsolaton keresztül
Importálás Hive-lekérdezésből
Importálás Azure SQL Database-ből
Importálás Azure Blob Storage
Importálás adatcsatorna-szolgáltatókból
Importálás helyszíni adatbázisból SQL Server adatbázisból