Megosztás a következőn keresztül:


Adatok importálása

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Adatok betöltése külső forrásokból a weben; az Azure-beli felhőalapú tárolás különböző formáiból, például táblákból, blobokból és SQL-adatbázisokból; helyszíni SQL Server adatbázisokból

Kategória: Adatbemenet és -kimenet

Megjegyzés

Csak a következőre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzási modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható az Adatok importálása modul a (klasszikus) Machine Learning Studióban az adatok gépi tanulási kísérletbe való betöltéséhez a meglévő felhőbeli adatszolgáltatásokból.

A modul egy varázslóval segíti a tárolási lehetőségek kiválasztását, és a meglévő előfizetések és fiókok közül választva gyorsan konfigurálhatja az összes beállítást. Szerkesztenie kell egy meglévő adatkapcsolatot? Nincs probléma; A varázsló betölti az összes korábbi konfigurációs részletet, hogy ne kelljen elölről kezdenie.

Miután meghatározta a kívánt adatokat, és csatlakozott a forráshoz, az Adatok importálása az egyes oszlopok adattípusát a benne található értékek alapján következteti, és betölti az adatokat a Machine Learning Studio (klasszikus) munkaterületére. Az Adatok importálása egy olyan adatkészlet, amely bármely kísérlethez használható.

Fontos

Jelenleg a támogatott tárfiókok típusai korlátozottak. További információ: Technikai megjegyzések.

Ha a forrásadatok megváltoznak, frissítheti az adathalmazt, és új adatokat adhat hozzá az Adatok importálása újrafuttatásával. Ha azonban nem szeretne a kísérlet minden futtatásakor újraolvasni a forrásból, válassza a Gyorsítótárazott eredmények használata beállítást IGAZ értékre. Ha ezt a beállítást választja, a modul ellenőrzi, hogy a kísérlet korábban ugyanazzal a forrással és ugyanazokkal a bemeneti beállításokkal futott-e. Ha egy korábbi futtatás található, a rendszer a gyorsítótárban lévő adatokat használja ahelyett, hogy újra betölti az adatokat a forrásból.

Megjegyzés

Ezt a modult korábban Olvasónak hívták. Ha korábban egy kísérletben használta az Olvasó modult, a rendszer átnevezi az Adatok importálása parancsra a kísérlet frissítésekor.

Adatforrások

Az Adatok importálása modul az alábbi adatforrásokat támogatja. A hivatkozásokra kattintva részletes útmutatást és példákat találhat az egyes adatforrások használatára.

Ha nem tudja biztosan, hogyan vagy hol kell tárolnia az adatokat, tekintse meg ezt az útmutatót az adatelemzési folyamat gyakori adatforgatókönyveihez: A Machine Learning fejlett elemzési forgatókönyvei.

Adatforrás Használat a következővel:
Webes URL-cím HTTP-en keresztül A HTTP-t használó, CSV, TSV, ARFF vagy SvmLight formátumban megadott webes URL-címen tárolt adatok lekérése
Hive-lekérdezés Adatok lekérése elosztott tárolóból a Hadoopban. A kívánt adatokat a HiveQL nyelv használatával adhatja meg
Azure SQL Database Adatok lekérése Azure SQL Database vagy Azure SQL Data Warehouse
Azure Table Az Azure Table Service-ben tárolt adatok lekérése
Importálás Azure Blob Storage Az Azure Blob szolgáltatásban tárolt adatok lekérése
Adatcsatorna-szolgáltatók Adatcsatornaként közzétett adatok lekérése OData formátumban
Importálás helyszíni SQL Server-adatbázisból Adatok lekérése helyszíni SQL Server-adatbázisból a Microsoft adatkezelés Gateway használatával
Azure Cosmos DB JSON formátumban tárolt adatok lekérése az Azure Cosmos DB-ben.

Tipp

JSON formátumban szeretne adatokat importálni? Az R és Python egyaránt támogatják a REST API-kat, ezért az Adatok elemzéséhez és azure-ML-adatkészletként való mentéséhez használja az Execute Python Script vagy Execute R Script modult.

Vagy használja a CosmosDB-hez készült SQL DB API-t, amely több JSON-tárolót is támogat, beleértve a MongoDB is, hogy beolvassa az adatokat az Importálás az Azure Cosmos DB-ből lehetőséggel. További információ: Importálás az Azure Cosmos DB-ből.

Adatok importálása

  1. Adja hozzá az Adatok importálása modult a kísérlethez. Ezt a modult a Studio (klasszikus) Adatbemenet és kimenet kategóriájában találja.

  2. Kattintson az Adatimportálás indítása varázslóra az adatforrás varázslóval történő konfigurálásához.

    A varázsló lekéri a fiók nevét és hitelesítő adatait, és segít más beállítások konfigurálásában. Ha egy meglévő konfigurációt szerkeszt, először betölti az aktuális értékeket.

  3. Ha nem szeretné használni a varázslót, kattintson az Adatforrás elemre, és válassza ki, hogy milyen típusú felhőalapú tárolóból olvas.

    A további beállítások attól függenek, hogy milyen típusú tárolót választ, és hogy a tárterület biztonságos-e vagy sem. Előfordulhat, hogy meg kell adnia a fiók nevét, fájltípusát vagy hitelesítő adatait. Egyes források nem igényelnek hitelesítést; mások számára előfordulhat, hogy ismernie kell a fiók nevét, kulcsát vagy tárolónevét.

    Részletekért tekintse meg az adatforrások listáját.

  4. Válassza a Gyorsítótárazott eredmények használata lehetőséget, ha az adathalmazt újra szeretné használni az egymást követő futtatásokhoz.

    Feltételezve, hogy a modulparaméterek nem módosultak, a kísérlet csak a modul első futtatásakor tölti be az adatokat, és ezt követően az adathalmaz gyorsítótárazott verzióját használja.

    Törölje ezt a jelölőnégyzetet, ha a kísérlet minden futtatásakor újra be kell töltenie az adatokat.

  5. Futtassa a kísérletet.

    Amikor az Adatok importálása betölti az adatokat a Studióba (klasszikus), az egyes oszlopok adattípusát a benne található értékek alapján( numerikus vagy kategorikus) következteti.

    • Ha van fejléc, a rendszer a kimeneti adathalmaz oszlopainak elnevezésére használja a fejlécet.

    • Ha nincsenek meglévő oszlopfejlécek az adatokban, a rendszer új oszlopneveket hoz létre col1, col2 formátumban,... ,coln.

Results (Eredmények)

Amikor az importálás befejeződött, kattintson a kimeneti adathalmazra, és válassza a Vizualizáció lehetőséget, és ellenőrizze, hogy az adatok importálása sikeres volt-e.

Ha a kísérlet minden futtatásakor új adatkészlet importálása helyett újra szeretné menteni az adatokat, kattintson a jobb gombbal a kimenetre, és válassza a Mentés adathalmazként parancsot. Válasszon nevet az adathalmaznak. A mentett adatkészlet a mentéskor megőrzi az adatokat, és az adatok nem frissülnek a kísérlet újrafuttatásakor, még akkor sem, ha a kísérlet adathalmaza megváltozik. Ez hasznos lehet az adatok pillanatképeinek készítéséhez.

Az adatok importálása után szükség lehet néhány további modellezési és elemzési előkészületre:

Technikai megjegyzések

Ez a szakasz az Adatok importálása modullal kapcsolatos ismert problémák listáját, valamint néhány olyan általános hibaelhárítási információt tartalmaz, amelyek nem a forrástípusra vonatkoznak.

Támogatott fióktípusok

Az Azure gyakran új szolgáltatásokat vagy új tárolási típusokat ad ki; az új fióktípusok támogatása azonban általában késik a Machine Learning Studióban (klasszikus).

  • Jelenleg Machine Learning támogatja az összes általános célú tárfiókot, kivéve a zónaredundáns tárolást (ZRS) használó fiókokat.

  • A helyileg redundáns tárolás (LRS) és a georedundáns tárolási lehetőségek támogatottak.

  • A blokkblobok támogatottak, de a hozzáfűző blobok nem.

Gyakori kérdések és problémák

Ez a szakasz ismert problémákat, gyakori kérdéseket és kerülő megoldásokat ismertet.

A fejléceknek egysorosnak kell lenniük

Ha CSV-fájlokból importál, vegye figyelembe, hogy Machine Learning lehetővé teszi egyetlen fejlécsor használatát. Többsoros fejlécek nem szúrhatók be.

Az importáláskor támogatott egyéni elválasztók, de nem exportálhatók

Az Adatok importálása modul támogatja az olyan adatok importálását, amelyek alternatív oszlopelválasztókat használnak, például a pontosvesszőt (;), amelyet gyakran használnak Európában. Amikor külső tárolóban lévő CSV-fájlokból importál adatokat, válassza ki a kódolási beállítással rendelkező CSV-t , és válasszon egy támogatott kódolást.

Az adatok exportálásra való előkészítésekor azonban nem hozhat létre alternatív elválasztókat a Konvertálás CSV-modullal .

Gyenge oszlopelválasztás vesszőt tartalmazó sztringadatokon

Az oszlopelválasztóként (tabulátorok, szóközök, vesszők stb.) megadható összes karakter véletlenszerűen is megtalálható a szövegmezőkben. A szöveg CSV-ből való importálása mindig körültekintően jár el, hogy elkerülje a szöveg felesleges új oszlopok közötti elválasztását. Ez egy gyakori probléma a szövegfeldolgozásban, amelyet valószínűleg különböző módokon észlelt és kezelt.

Problémák akkor is előfordulhatnak, ha vesszőt tartalmazó karakterlánc-oszlopot próbál exportálni. Machine Learning nem támogatja az ilyen adatok speciális kezelését vagy speciális fordítását, például a sztringek idézőjelek közé helyezését. A vesszők előtt nem használhat feloldó karaktereket is, hogy a vesszők literális karakterként legyenek kezelve. Ennek következtében a kimeneti fájlban új mezők jönnek létre a sztringmezőben észlelt egyes vesszőkhöz.

Az exportálási problémák elkerülése érdekében a Szöveg előfeldolgozása modullal távolítsa el az írásjelek karaktereit a sztringmezőkből.

Egyéni R-szkriptet vagy Python szkriptet is használhat összetett szövegek feldolgozásához, és biztosíthatja az adatok megfelelő importálását vagy exportálását.

UTF-8 kódolás szükséges

Machine Learning UTF-8 kódolást igényel. Ha az importált adatok más kódolást használnak, vagy más alapértelmezett kódolást használó adatforrásból lettek exportálva, különböző problémák jelentkezhetnek a szövegben.

Az alábbi kép például ugyanazt a többnyelvű adatkészletet tartalmazza, amelyet Excel exportált, majd Machine Learning négy különböző fájltípus- és kódolási kombinációval importált.

Visualization of import encoding

A harmadik példa azokat az adatokat mutatja be, amelyek a Excel csv formátumban történő mentése során vesztek el, mivel a megfelelő kódolás nem volt megadva abban az időben. Ezért ha problémákba ütközik, ne csak azt a fájlt ellenőrizze, amelyből importálja, hanem azt is, hogy a fájl megfelelően lett-e exportálva a forrásból.

Az adathalmaz nem rendelkezik oszlopnevekkel

Ha az importált adathalmaz nem rendelkezik oszlopnevekkel, mindenképpen adja meg a "nincs fejléc" beállítás egyikét. Ha így tesz, az Adatok importálása az alapértelmezett oszlopneveket col1, Col2 stb. formátumban adja hozzá. Később a Metaadatok szerkesztése parancs használatával javítsa ki az oszlopneveket.

Ha egy adatkészletet CSV-fájlba exportál, a Metaadatok szerkesztése parancsot használva adjon hozzá oszlopneveket az átalakítás vagy exportálás előtt.

Megkerülő megoldások nem támogatott adatforrásokhoz

Ha olyan forrásból kell adatokat lekérnie, amely nem szerepel a listában, többféle kerülő megoldással próbálkozhat:

  • Ha a számítógépen lévő fájlból szeretne adatokat feltölteni, kattintson az Új a Studióban (klasszikus), válassza az Adatkészlet lehetőséget, majd válassza a Helyi fájlból lehetőséget. Keresse meg a fájlt, és adja meg a formátumot (TSV, CSV stb.). További információ: Betanítási adatok importálása a Studióba (klasszikus)

  • Használja az R vagy Python. Az R-szkript végrehajtása modul megfelelő R-csomaggal használható más felhőalapú adatbázisokból származó adatok lekéréséhez.

    Az Execute Python Script modul lehetővé teszi az adatok különböző forrásokból való olvasását és konvertálását is. A Microsoft adatelemzőinek alábbi példáit a Cortana Intelligence Galleryben tekinti meg:

    PDF átalakítása szöveggé

    Nem szöveges fájl betöltése az Azure Blob Storage-ból

  • Adatok lekérése AWS-fürtökről. Lekérdezést futtathat egy általános Hive-fürtön, amelyen engedélyezve van a WebHCat vagy a HCatalog végpont. Vagy közzéteheti lapként, és elolvashatja a webes URL-címről.

  • Adatok lekérése MongoDB. Az Azure Cosmos DB adatmigrálási segédprogramja számos különböző forrást és formátumot támogat. További információk és példák: Azure Cosmos DB: Adatmigrálási eszköz

További ötletekért és kerülő megoldásokért tekintse meg a Machine Learning fórumot vagy az Azure AI-galériát.

Modulparaméterek

Minden adatforrást különböző beállításokkal kell konfigurálni. Ez a táblázat csak az összes adatforrásban gyakori beállításokat sorolja fel.

Name Tartomány Típus Alapértelmezett Description
Adatforrás Lista Adatforrás vagy fogadó Blobszolgáltatás az Azure Storage Az adatforrás lehet HTTP, névtelen HTTPS, a Blob szolgáltatásban vagy a Table Service-ben található fájl, egy Azure-beli SQL-adatbázis, egy Azure SQL Data Warehouse, Egy Hive-tábla vagy egy OData-végpont.
Gyorsítótárazott eredmények használata IGAZ/HAMIS Logikai HAMIS Ha IGAZ, a modul ellenőrzi, hogy a kísérlet korábban ugyanazokkal a forrás- és beviteli beállításokkal futott-e, és ha egy korábbi futtatás található, a rendszer a gyorsítótárban lévő adatokat használja. Ha HAMIS, vagy ha módosításokat talál, az adatok újratöltődnek a forrásból.

Kimenetek

Név Típus Description
Eredmények adatkészlete Adattábla Letöltött adatokkal rendelkező adatkészlet

Kivételek

Kivétel Description
0027-s hiba Kivételt képez, ha két objektumnak azonos méretűnek kell lennie, de nem.
0003-os hiba Kivétel történik, ha egy vagy több bemenet null értékű vagy üres.
0029-s hiba Kivétel akkor fordul elő, ha érvénytelen URI-t ad át.
0030-ás hiba kivétel jelenik meg abban az esetben, ha nem lehet letölteni egy fájlt.
0002-s hiba Kivétel történik, ha egy vagy több paraméter nem elemezhető vagy konvertálható a megadott típusból a célmetódus által megkövetelt típusra.
0009-s hiba Kivétel történik, ha az Azure Storage-fiók neve vagy a tároló neve helytelenül van megadva.
0048-ás hiba Kivétel történik, ha nem lehet megnyitni egy fájlt.
0015-ös hiba Kivétel történik, ha az adatbázis-kapcsolat meghiúsult.
0046-os hiba Kivétel történik, ha nem lehet könyvtárat létrehozni a megadott elérési úton.
0049-s hiba Kivétel akkor fordul elő, ha nem lehet elemezni egy fájlt.

A Studio (klasszikus) modulokkal kapcsolatos hibák listáját Machine Learning hibakódok között találja.

Az API-kivételek listájáért lásd Machine Learning REST API hibakódjait.

Lásd még

Adatbemenet és -kimenet
Adatformátum-átalakítások
Adatok exportálása
A-Z modullista