Adatok importálása

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A gépi tanulási projektek ML Studióból (klasszikus) Azure Machine Learning való áthelyezéséről olvashat.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Adatok betöltése külső forrásokból a weben; az Azure-beli felhőalapú tárolás különböző formáiból, például táblákból, blobokból és SQL-adatbázisokból; helyszíni SQL Server adatbázisokból

Kategória: Adatbemenet és -kimenet

Megjegyzés

Csak a következőre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzási modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható az Adatok importálása modul a (klasszikus) Machine Learning Studióban az adatok gépi tanulási kísérletbe való betöltéséhez a meglévő felhőbeli adatszolgáltatásokból.

A modul egy varázslóval segíti a tárolási lehetőségek kiválasztását, és a meglévő előfizetések és fiókok közül választva gyorsan konfigurálhatja az összes beállítást. Szerkesztenie kell egy meglévő adatkapcsolatot? Nincs probléma; A varázsló betölti az összes korábbi konfigurációs részletet, hogy ne kelljen elölről kezdenie.

Miután meghatározta a kívánt adatokat, és csatlakozott a forráshoz, az Adatok importálása az egyes oszlopok adattípusát a benne található értékek alapján következteti, és betölti az adatokat a Machine Learning Studio (klasszikus) munkaterületére. Az Adatok importálása egy olyan adatkészlet, amely bármely kísérlethez használható.

Fontos

Jelenleg a támogatott tárfiókok típusai korlátozottak. További információ: Technikai megjegyzések.

Ha a forrásadatok megváltoznak, frissítheti az adathalmazt, és új adatokat adhat hozzá az Adatok importálása újrafuttatásával. Ha azonban nem szeretne a kísérlet minden futtatásakor újraolvasni a forrásból, válassza a Gyorsítótárazott eredmények használata beállítást IGAZ értékre. Ha ezt a beállítást választja, a modul ellenőrzi, hogy a kísérlet korábban ugyanazzal a forrással és ugyanazokkal a bemeneti beállításokkal futott-e. Ha egy korábbi futtatás található, a rendszer a gyorsítótárban lévő adatokat használja ahelyett, hogy újra betölti az adatokat a forrásból.

Megjegyzés

Ezt a modult korábban Olvasónak hívták. Ha korábban egy kísérletben használta az Olvasó modult, a rendszer átnevezi az Adatok importálása parancsra a kísérlet frissítésekor.

Adatforrások

Az Adatok importálása modul az alábbi adatforrásokat támogatja. A hivatkozásokra kattintva részletes útmutatást és példákat találhat az egyes adatforrások használatára.

Ha nem tudja biztosan, hogyan vagy hol kell tárolnia az adatokat, tekintse meg ezt az útmutatót az adatelemzési folyamat gyakori adatforgatókönyveihez: A Machine Learning fejlett elemzési forgatókönyvei.

Adatforrás	Használat a következővel:
Webes URL-cím HTTP-en keresztül	A HTTP-t használó, CSV, TSV, ARFF vagy SvmLight formátumban megadott webes URL-címen tárolt adatok lekérése
Hive-lekérdezés	Adatok lekérése elosztott tárolóból a Hadoopban. A kívánt adatokat a HiveQL nyelv használatával adhatja meg
Azure SQL Database	Adatok lekérése Azure SQL Database vagy Azure SQL Data Warehouse
Azure Table	Az Azure Table Service-ben tárolt adatok lekérése
Importálás Azure Blob Storage	Az Azure Blob szolgáltatásban tárolt adatok lekérése
Adatcsatorna-szolgáltatók	Adatcsatornaként közzétett adatok lekérése OData formátumban
Importálás helyszíni SQL Server-adatbázisból	Adatok lekérése helyszíni SQL Server-adatbázisból a Microsoft adatkezelés Gateway használatával
Azure Cosmos DB	JSON formátumban tárolt adatok lekérése az Azure Cosmos DB-ben.

Tipp

JSON formátumban szeretne adatokat importálni? Az R és Python egyaránt támogatják a REST API-kat, ezért az Adatok elemzéséhez és azure-ML-adatkészletként való mentéséhez használja az Execute Python Script vagy Execute R Script modult.

Vagy használja a CosmosDB-hez készült SQL DB API-t, amely több JSON-tárolót is támogat, beleértve a MongoDB is, hogy beolvassa az adatokat az Importálás az Azure Cosmos DB-ből lehetőséggel. További információ: Importálás az Azure Cosmos DB-ből.

Adatok importálása

Adja hozzá az Adatok importálása modult a kísérlethez. Ezt a modult a Studio (klasszikus) Adatbemenet és kimenet kategóriájában találja.
Kattintson az Adatimportálás indítása varázslóra az adatforrás varázslóval történő konfigurálásához.

A varázsló lekéri a fiók nevét és hitelesítő adatait, és segít más beállítások konfigurálásában. Ha egy meglévő konfigurációt szerkeszt, először betölti az aktuális értékeket.
Ha nem szeretné használni a varázslót, kattintson az Adatforrás elemre, és válassza ki, hogy milyen típusú felhőalapú tárolóból olvas.

A további beállítások attól függenek, hogy milyen típusú tárolót választ, és hogy a tárterület biztonságos-e vagy sem. Előfordulhat, hogy meg kell adnia a fiók nevét, fájltípusát vagy hitelesítő adatait. Egyes források nem igényelnek hitelesítést; mások számára előfordulhat, hogy ismernie kell a fiók nevét, kulcsát vagy tárolónevét.

Részletekért tekintse meg az adatforrások listáját.
Válassza a Gyorsítótárazott eredmények használata lehetőséget, ha az adathalmazt újra szeretné használni az egymást követő futtatásokhoz.

Feltételezve, hogy a modulparaméterek nem módosultak, a kísérlet csak a modul első futtatásakor tölti be az adatokat, és ezt követően az adathalmaz gyorsítótárazott verzióját használja.

Törölje ezt a jelölőnégyzetet, ha a kísérlet minden futtatásakor újra be kell töltenie az adatokat.
Futtassa a kísérletet.

Amikor az Adatok importálása betölti az adatokat a Studióba (klasszikus), az egyes oszlopok adattípusát a benne található értékek alapján( numerikus vagy kategorikus) következteti.
- Ha van fejléc, a rendszer a kimeneti adathalmaz oszlopainak elnevezésére használja a fejlécet.
- Ha nincsenek meglévő oszlopfejlécek az adatokban, a rendszer új oszlopneveket hoz létre col1, col2 formátumban,... ,coln.

Results (Eredmények)

Amikor az importálás befejeződött, kattintson a kimeneti adathalmazra, és válassza a Vizualizáció lehetőséget, és ellenőrizze, hogy az adatok importálása sikeres volt-e.

Ha a kísérlet minden futtatásakor új adatkészlet importálása helyett újra szeretné menteni az adatokat, kattintson a jobb gombbal a kimenetre, és válassza a Mentés adathalmazként parancsot. Válasszon nevet az adathalmaznak. A mentett adatkészlet a mentéskor megőrzi az adatokat, és az adatok nem frissülnek a kísérlet újrafuttatásakor, még akkor sem, ha a kísérlet adathalmaza megváltozik. Ez hasznos lehet az adatok pillanatképeinek készítéséhez.

Az adatok importálása után szükség lehet néhány további modellezési és elemzési előkészületre:

Az adatok statisztikai összegzéseinek létrehozása az adatok összegzése vagy a számítási alapstatisztika használatával.
A Metaadatok szerkesztése funkcióval módosíthatja az oszlopneveket, más adattípusként kezelhet egy oszlopot, vagy jelezheti, hogy egyes oszlopok címkék vagy szolgáltatások.
Az Adathalmaz oszlopainak kijelölése lehetőségével kiválaszthatja az oszlopok egy részhalmazát, amelyet átalakíthat vagy használhat a modellezés során. Az átalakított vagy eltávolított oszlopok könnyen újracsatlakozhatnak az eredeti adathalmazhoz az Oszlopok hozzáadása vagy az Adatillesztés modul használatával.
A Partíció és a Minta használatával ossza el az adathalmazt, végezzen mintavételezést, vagy kérje le a legfelső n sorokat.
Az SQL-átalakítás alkalmazásával összesítheti az adatokat, szűrheti vagy átalakíthatja AZ SQL-utasítások használatával.
Ezekkel a modulokkal törölheti a szövegoszlopokat, és új szövegszolgáltatásokat hozhat létre:
- Szöveg előfeldolgozása
- N-Gram-funkciók kinyerése szövegből
- Megnevezett entitások felismerése
- Hajtsa végre Python szkriptet, hogy egyéni NLP-t implementáljon az nltk alapján.

Technikai megjegyzések

Ez a szakasz az Adatok importálása modullal kapcsolatos ismert problémák listáját, valamint néhány olyan általános hibaelhárítási információt tartalmaz, amelyek nem a forrástípusra vonatkoznak.

Támogatott fióktípusok

Az Azure gyakran új szolgáltatásokat vagy új tárolási típusokat ad ki; az új fióktípusok támogatása azonban általában késik a Machine Learning Studióban (klasszikus).

Jelenleg Machine Learning támogatja az összes általános célú tárfiókot, kivéve a zónaredundáns tárolást (ZRS) használó fiókokat.
A helyileg redundáns tárolás (LRS) és a georedundáns tárolási lehetőségek támogatottak.
A blokkblobok támogatottak, de a hozzáfűző blobok nem.

Gyakori kérdések és problémák

Ez a szakasz ismert problémákat, gyakori kérdéseket és kerülő megoldásokat ismertet.

A fejléceknek egysorosnak kell lenniük

Ha CSV-fájlokból importál, vegye figyelembe, hogy Machine Learning lehetővé teszi egyetlen fejlécsor használatát. Többsoros fejlécek nem szúrhatók be.

Az importáláskor támogatott egyéni elválasztók, de nem exportálhatók

Az Adatok importálása modul támogatja az olyan adatok importálását, amelyek alternatív oszlopelválasztókat használnak, például a pontosvesszőt (;), amelyet gyakran használnak Európában. Amikor külső tárolóban lévő CSV-fájlokból importál adatokat, válassza ki a kódolási beállítással rendelkező CSV-t , és válasszon egy támogatott kódolást.

Az adatok exportálásra való előkészítésekor azonban nem hozhat létre alternatív elválasztókat a Konvertálás CSV-modullal .

Gyenge oszlopelválasztás vesszőt tartalmazó sztringadatokon

Az oszlopelválasztóként (tabulátorok, szóközök, vesszők stb.) megadható összes karakter véletlenszerűen is megtalálható a szövegmezőkben. A szöveg CSV-ből való importálása mindig körültekintően jár el, hogy elkerülje a szöveg felesleges új oszlopok közötti elválasztását. Ez egy gyakori probléma a szövegfeldolgozásban, amelyet valószínűleg különböző módokon észlelt és kezelt.

Problémák akkor is előfordulhatnak, ha vesszőt tartalmazó karakterlánc-oszlopot próbál exportálni. Machine Learning nem támogatja az ilyen adatok speciális kezelését vagy speciális fordítását, például a sztringek idézőjelek közé helyezését. A vesszők előtt nem használhat feloldó karaktereket is, hogy a vesszők literális karakterként legyenek kezelve. Ennek következtében a kimeneti fájlban új mezők jönnek létre a sztringmezőben észlelt egyes vesszőkhöz.

Az exportálási problémák elkerülése érdekében a Szöveg előfeldolgozása modullal távolítsa el az írásjelek karaktereit a sztringmezőkből.

Egyéni R-szkriptet vagy Python szkriptet is használhat összetett szövegek feldolgozásához, és biztosíthatja az adatok megfelelő importálását vagy exportálását.

UTF-8 kódolás szükséges

Machine Learning UTF-8 kódolást igényel. Ha az importált adatok más kódolást használnak, vagy más alapértelmezett kódolást használó adatforrásból lettek exportálva, különböző problémák jelentkezhetnek a szövegben.

Az alábbi kép például ugyanazt a többnyelvű adatkészletet tartalmazza, amelyet Excel exportált, majd Machine Learning négy különböző fájltípus- és kódolási kombinációval importált.

Visualization of import encoding

A harmadik példa azokat az adatokat mutatja be, amelyek a Excel csv formátumban történő mentése során vesztek el, mivel a megfelelő kódolás nem volt megadva abban az időben. Ezért ha problémákba ütközik, ne csak azt a fájlt ellenőrizze, amelyből importálja, hanem azt is, hogy a fájl megfelelően lett-e exportálva a forrásból.

Az adathalmaz nem rendelkezik oszlopnevekkel

Ha az importált adathalmaz nem rendelkezik oszlopnevekkel, mindenképpen adja meg a "nincs fejléc" beállítás egyikét. Ha így tesz, az Adatok importálása az alapértelmezett oszlopneveket col1, Col2 stb. formátumban adja hozzá. Később a Metaadatok szerkesztése parancs használatával javítsa ki az oszlopneveket.

Ha egy adatkészletet CSV-fájlba exportál, a Metaadatok szerkesztése parancsot használva adjon hozzá oszlopneveket az átalakítás vagy exportálás előtt.

Megkerülő megoldások nem támogatott adatforrásokhoz

Ha olyan forrásból kell adatokat lekérnie, amely nem szerepel a listában, többféle kerülő megoldással próbálkozhat:

Ha a számítógépen lévő fájlból szeretne adatokat feltölteni, kattintson az Új a Studióban (klasszikus), válassza az Adatkészlet lehetőséget, majd válassza a Helyi fájlból lehetőséget. Keresse meg a fájlt, és adja meg a formátumot (TSV, CSV stb.). További információ: Betanítási adatok importálása a Studióba (klasszikus)
Használja az R vagy Python. Az R-szkript végrehajtása modul megfelelő R-csomaggal használható más felhőalapú adatbázisokból származó adatok lekéréséhez.

Az Execute Python Script modul lehetővé teszi az adatok különböző forrásokból való olvasását és konvertálását is. A Microsoft adatelemzőinek alábbi példáit a Cortana Intelligence Galleryben tekinti meg:

PDF átalakítása szöveggé

Nem szöveges fájl betöltése az Azure Blob Storage-ból
Adatok lekérése AWS-fürtökről. Lekérdezést futtathat egy általános Hive-fürtön, amelyen engedélyezve van a WebHCat vagy a HCatalog végpont. Vagy közzéteheti lapként, és elolvashatja a webes URL-címről.
Adatok lekérése MongoDB. Az Azure Cosmos DB adatmigrálási segédprogramja számos különböző forrást és formátumot támogat. További információk és példák: Azure Cosmos DB: Adatmigrálási eszköz

További ötletekért és kerülő megoldásokért tekintse meg a Machine Learning fórumot vagy az Azure AI-galériát.

Modulparaméterek

Minden adatforrást különböző beállításokkal kell konfigurálni. Ez a táblázat csak az összes adatforrásban gyakori beállításokat sorolja fel.

Name	Tartomány	Típus	Alapértelmezett	Description
Adatforrás	Lista	Adatforrás vagy fogadó	Blobszolgáltatás az Azure Storage	Az adatforrás lehet HTTP, névtelen HTTPS, a Blob szolgáltatásban vagy a Table Service-ben található fájl, egy Azure-beli SQL-adatbázis, egy Azure SQL Data Warehouse, Egy Hive-tábla vagy egy OData-végpont.
Gyorsítótárazott eredmények használata	IGAZ/HAMIS	Logikai	HAMIS	Ha IGAZ, a modul ellenőrzi, hogy a kísérlet korábban ugyanazokkal a forrás- és beviteli beállításokkal futott-e, és ha egy korábbi futtatás található, a rendszer a gyorsítótárban lévő adatokat használja. Ha HAMIS, vagy ha módosításokat talál, az adatok újratöltődnek a forrásból.

Kimenetek

Név	Típus	Description
Eredmények adatkészlete	Adattábla	Letöltött adatokkal rendelkező adatkészlet

Kivételek

Kivétel	Description
0027-s hiba	Kivételt képez, ha két objektumnak azonos méretűnek kell lennie, de nem.
0003-os hiba	Kivétel történik, ha egy vagy több bemenet null értékű vagy üres.
0029-s hiba	Kivétel akkor fordul elő, ha érvénytelen URI-t ad át.
0030-ás hiba	kivétel jelenik meg abban az esetben, ha nem lehet letölteni egy fájlt.
0002-s hiba	Kivétel történik, ha egy vagy több paraméter nem elemezhető vagy konvertálható a megadott típusból a célmetódus által megkövetelt típusra.
0009-s hiba	Kivétel történik, ha az Azure Storage-fiók neve vagy a tároló neve helytelenül van megadva.
0048-ás hiba	Kivétel történik, ha nem lehet megnyitni egy fájlt.
0015-ös hiba	Kivétel történik, ha az adatbázis-kapcsolat meghiúsult.
0046-os hiba	Kivétel történik, ha nem lehet könyvtárat létrehozni a megadott elérési úton.
0049-s hiba	Kivétel akkor fordul elő, ha nem lehet elemezni egy fájlt.

A Studio (klasszikus) modulokkal kapcsolatos hibák listáját Machine Learning hibakódok között találja.

Az API-kivételek listájáért lásd Machine Learning REST API hibakódjait.

Lásd még

Adatbemenet és -kimenet
Adatformátum-átalakítások
Adatok exportálása
A-Z modullista

Megosztás a következőn keresztül:

Adatok importálása

A modul áttekintése

Adatforrások

Adatok importálása

Results (Eredmények)

Technikai megjegyzések

Támogatott fióktípusok

Gyakori kérdések és problémák

A fejléceknek egysorosnak kell lenniük

Az importáláskor támogatott egyéni elválasztók, de nem exportálhatók

Gyenge oszlopelválasztás vesszőt tartalmazó sztringadatokon

UTF-8 kódolás szükséges

Az adathalmaz nem rendelkezik oszlopnevekkel

Megkerülő megoldások nem támogatott adatforrásokhoz

Modulparaméterek

Kimenetek

Kivételek

Lásd még

További források