Betanítási adatok importálása a Machine Learning Studióba (klasszikus) különböző adatforrásokból
ÉRVÉNYES: Machine Learning Studio (klasszikus) Azure Machine Learning
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- A gépi tanulási projektek ML Studióból (klasszikus) Azure Machine Learningbe való áthelyezéséről szóló információk.
- További információ az Azure Machine Learningről
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Ha saját adatokat szeretne használni a Machine Learning Studióban (klasszikus) egy prediktív elemzési megoldás fejlesztéséhez és betanítása érdekében, a következő adatokból használhatja az adatokat:
- Helyi fájl – Helyi adatok betöltése előre a merevlemezről adathalmaz-modul létrehozásához a munkaterületen
- Online adatforrások – Az Adatok importálása modullal több online forrásból származó adatokhoz férhet hozzá, miközben a kísérlet fut
- Machine Learning Studio (klasszikus) kísérlet – Adathalmazként mentett adatok használata a Machine Learning Studióban (klasszikus)
- SQL Server-adatbázis – Adatok használata SQL Server-adatbázisból anélkül, hogy manuálisan kellene másolni az adatokat
Feljegyzés
A Machine Learning Studióban (klasszikus) számos mintaadatkészlet érhető el, amelyeket betanítási adatokhoz használhat. Ezekről további információt a Machine Learning Studio (klasszikus) mintaadatkészleteinek használata című témakörben talál.
Adatok előkészítése
A Machine Learning Studio (klasszikus) úgy lett kialakítva, hogy négyszögletes vagy táblázatos adatokkal működjön, például olyan szöveges adatokkal, amelyek egy adatbázisból vannak elválasztva vagy strukturált adatok, bár bizonyos körülmények között nem téglalap alakú adatok használhatók.
A legjobb, ha az adatok viszonylag tisztaak, mielőtt importálja őket a Studióba (klasszikus). Például gondoskodnia kell az olyan problémákról, mint a nem kvótált sztringek.
Vannak azonban olyan modulok a Studióban (klasszikus), amelyek lehetővé teszik az adatok bizonyos kezelését a kísérletben az adatok importálása után. A használni kívánt gépi tanulási algoritmusoktól függően előfordulhat, hogy el kell döntenie, hogyan fogja kezelni az olyan adatszerkezeti problémákat, mint a hiányzó értékek és a ritka adatok, és vannak olyan modulok, amelyek segíthetnek ebben. A modulkatalógus Adatátalakítás szakaszában megtekintheti azokat a modulokat, amelyek ezeket a függvényeket hajtják végre.
A kísérlet bármely pontján megtekintheti vagy letöltheti a modul által előállított adatokat a kimeneti portra kattintva. A modultól függően különböző letöltési lehetőségek érhetők el, vagy megjelenítheti az adatokat a böngészőben a Studióban (klasszikus).
Támogatott adatformátumok és adattípusok
Számos adattípust importálhat a kísérletbe attól függően, hogy milyen mechanizmussal importál adatokat, és honnan származik:
- Egyszerű szöveg (.txt)
- Vesszővel tagolt értékek (CSV) fejléccel (.csv) vagy anélkül (.nh.csv)
- Tabulátorral elválasztott értékek (TSV) fejléccel (.tsv) vagy anélkül (.nh.tsv)
- Excel-fájl
- Azure-tábla
- Hive-tábla
- SQL Database-tábla
- OData-értékek
- SVMLight-adatok (.svmlight) (formátuminformációkért lásd az SVMLight definícióját )
- Attribútumrelációs fájlformátum (ARFF) adatai (.arff) (a formázási információkért lásd az ARFF definícióját )
- Zip-fájl (.zip)
- R-objektum vagy munkaterületfájl (. RData)
Ha olyan formátumban importál adatokat, mint például a metaadatokat tartalmazó ARFF, a Studio (klasszikus) ezen metaadatok használatával határozza meg az egyes oszlopok fejlécét és adattípusát.
Ha olyan adatokat importál, mint a TSV vagy a CSV formátum, amelyek nem tartalmazzák ezeket a metaadatokat, a Studio (klasszikus) az adatok mintavételezésével az egyes oszlopok adattípusára következtet. Ha az adatok nem rendelkeznek oszlopfejlécekkel, a Studio (klasszikus) alapértelmezett neveket ad meg.
A Metaadatok szerkesztése modullal explicit módon megadhatja vagy módosíthatja az oszlopok fejléceit és adattípusait.
A Studio a következő adattípusokat ismeri fel (klasszikus):
- Sztring
- Egész szám
- Dupla
- Logikai
- Dátum/idő
- időtartam
A Studio egy adattábla nevű belső adattípust használ az adatok modulok közötti átadásához. Az Adatok átalakítása adattábla-formátumba a Konvertálás adatkészletté modullal explicit módon alakítható át.
Az adattáblától eltérő formátumokat elfogadó modulok csendesen átalakítják az adatokat adattáblává, mielőtt átadják azokat a következő modulnak.
Szükség esetén az adattábla formátumát CSV, TSV, ARFF vagy SVMLight formátumba konvertálhatja más konverziós modulok használatával. A modulkatalógus Adatformátum-átalakítások szakaszában keresse meg azokat a modulokat, amelyek ezeket a függvényeket hajtják végre.
Adatkapacitások
A Machine Learning Studio (klasszikus) moduljai legfeljebb 10 GB sűrű numerikus adathalmazt támogatnak a gyakori használati esetekhez. Ha egy modul egynél több bemenetből fogad adatokat, a bemenet összesített mérete nem haladhatja meg a 10 GB-ot. Nagyobb adathalmazokat a Hive-ből vagy az Azure SQL Database-ből származó lekérdezésekkel, illetve a Learning by Counts előfeldolgozással is mintát vehet az adatok importálása előtt.
A szolgáltatásnormalizálás során a következő, 10 GB alá korlátozott adattípusok bővíthetők nagyobb adatkészletekké:
- Ritka
- Kategorikus
- Sztringek
- Bináris adatok
A következő modulok 10 GB-nál kisebb adatkészletekre vannak korlátozva:
- Ajánló modulok
- SMOTE (Synthetic Minority Oversampling Technique) modul
- Parancsfájlkezelési modulok: R, Python, SQL
- Olyan modulok, amelyeknél a kimeneti adatok mérete meghaladhatja a bemeneti adatok méretét; például az egyesítés vagy a szolgáltatáskivonatolás
- Kereszt-ellenőrzés, modell-hiperparaméterek beállítása, sorszámregresszió és multi-osztályú osztályozás nagyszámú ismétlés esetében
Néhány gb-nál nagyobb adathalmazok esetén töltse fel az adatokat az Azure Storage-ba vagy az Azure SQL Database-be, vagy használja az Azure HDInsightot ahelyett, hogy közvetlenül egy helyi fájlból töltené fel az adatokat.
A képek adataival kapcsolatos információkat a Képek importálása modul referenciájában találja.
Importálás helyi fájlból
Feltölthet egy adatfájlt a merevlemezről, hogy betanítási adatokként használhassa a Studióban (klasszikus). Adatfájl importálásakor létrehoz egy adathalmazmodult, amely készen áll a munkaterületen végzett kísérletekben való használatra.
Ha helyi merevlemezről szeretne adatokat importálni, tegye a következőket:
- Kattintson a +ÚJ gombra a Studio (klasszikus) ablak alján.
- Válassza az ADATKÉSZLET és a HELYI FÁJL lehetőséget.
- Az Új adathalmaz feltöltése párbeszédpanelen keresse meg a feltölteni kívánt fájlt.
- Adjon meg egy nevet, azonosítsa az adattípust, és opcionálisan adjon meg egy leírást. A leírás ajánlott – lehetővé teszi az adatok jellemzőinek rögzítését az adatok jövőbeni használatakor.
- Az Ez egy meglévő adatkészlet új verziója jelölőnégyzet lehetővé teszi egy meglévő adatkészlet új adatokkal való frissítését. Ehhez kattintson erre a jelölőnégyzetre, és adja meg egy meglévő adatkészlet nevét.
A feltöltési idő az adatok méretétől és a szolgáltatáshoz való kapcsolódás sebességétől függ. Ha tudja, hogy a fájl hosszú ideig fog tartani, várjon a Studióban (klasszikus) más műveleteket is. Ha azonban az adatok feltöltése előtt bezárja a böngészőt, a feltöltés sikertelen lesz.
Az adatok feltöltése után azokat egy adathalmaz-modul tárolja, és a munkaterület bármely kísérlete számára elérhetővé válik.
Kísérlet szerkesztésekor a modulpalettán található Mentett adathalmazok listában megtalálja a Saját adathalmazok listában feltöltött adathalmazokat. Az adathalmazt a kísérletvászonra húzhatja, ha az adathalmazt további elemzésekhez és gépi tanuláshoz szeretné használni.
Importálás online adatforrásokból
Az Adatok importálása modul használatával a kísérlet különböző online adatforrásokból importálhat adatokat a kísérlet futtatása közben.
Feljegyzés
Ez a cikk általános információkat tartalmaz az Adatok importálása modulról. Az elérhető adattípusokról, a formátumokról, a paraméterekről és a gyakori kérdésekre adott válaszokról az Adatimportálás modul moduljának referenciatémakörében talál részletesebb tájékoztatást.
Az Adatok importálása modul használatával számos online adatforrás egyikéből érheti el az adatokat, miközben a kísérlet fut:
- Webes URL-cím HTTP használatával
- Hadoop a HiveQL használatával
- Azure Blob Storage
- Azure-tábla
- Azure SQL Database FELÜGYELT SQL-példány vagy SQL Server
- Jelenleg egy adatcsatorna-szolgáltató, az OData
- Azure Cosmos DB
Mivel ezek a betanítási adatok a kísérlet futtatása közben érhetők el, csak ebben a kísérletben érhetők el. Összehasonlításképpen az adathalmaz-modulban tárolt adatok a munkaterület bármely kísérletéhez elérhetők.
Ha online adatforrásokat szeretne elérni a Studio (klasszikus) kísérletében, adja hozzá az Adatok importálása modult a kísérlethez. Ezután válassza az Adatimportálás indítása varázslót a Tulajdonságok területen az adatforrás kiválasztásához és konfigurálásához szükséges részletes útmutatókhoz. Másik lehetőségként manuálisan is kiválaszthatja az adatforrást a Tulajdonságok területen, és megadhatja az adatok eléréséhez szükséges paramétereket.
A támogatott online adatforrásokat az alábbi táblázat részletezi. Ez a táblázat a támogatott fájlformátumokat és az adatok eléréséhez használt paramétereket is összefoglalja.
Fontos
Az Adatok importálása és az Adatok exportálása modul jelenleg csak a klasszikus üzemi modellel létrehozott Azure Storage-ból tud adatokat olvasni és írni. Más szóval az új Azure Blob Storage-fióktípus, amely gyakori tárolási hozzáférési szintet vagy ritka elérésű tárolási hozzáférési szintet kínál, még nem támogatott.
Általában azokat az Azure Storage-fiókokat, amelyeket a szolgáltatás rendelkezésre állása előtt hozott létre, nem érinti. Ha új fiókot kell létrehoznia, válassza a Klasszikus lehetőséget az üzembehelyezési modellhez, vagy használja a Resource Managert, és válassza az Általános célt a Blob Storage helyett a fióktípushoz.
További információ: Azure Blob Storage: Gyakori és ritka elérésű tárolási szintek.
Támogatott online adatforrások
A Machine Learning Studio (klasszikus) Adatimportálás modulja a következő adatforrásokat támogatja:
Adatforrás | Leírás | Paraméterek |
---|---|---|
Webes URL-cím HTTP-en keresztül | Adatokat olvas be vesszővel tagolt értékek (CSV), tabulátorral tagolt értékek (TSV), attribútum-relációs fájlformátum (ARFF) és támogatási vektorgépek (SVM-light) formátumban bármely HTTP-t használó webes URL-címről | URL: A fájl teljes nevét adja meg, beleértve a webhely URL-címét és a fájlnevet is, bármilyen kiterjesztéssel. Adatformátum: A támogatott adatformátumok egyikét adja meg: CSV, TSV, ARFF vagy SVM-light. Ha az adatok fejlécsort tartalmaznak, az oszlopnevek hozzárendelésére szolgál. |
Hadoop/HDFS | Adatokat olvas be a Hadoop elosztott tárolójából. A kívánt adatokat egy SQL-szerű lekérdezési nyelv, a HiveQL használatával adhatja meg. A HiveQL az adatok összesítésére és adatszűrésére is használható, mielőtt hozzáadja az adatokat a Studióhoz (klasszikus). | Hive-adatbázis-lekérdezés: Az adatok létrehozásához használt Hive-lekérdezést adja meg. HCatalog-kiszolgáló URI-ja : A fürt nevét a fürtnév.azurehdinsight.net> formátummal <adta meg. Hadoop-felhasználói fiók neve: A fürt kiépítéséhez használt Hadoop-felhasználói fióknevet adja meg. Hadoop felhasználói fiók jelszava : A fürt kiépítésekor használt hitelesítő adatokat adja meg. További információ: Hadoop-fürtök létrehozása a HDInsightban. Kimeneti adatok helye: Meghatározza, hogy az adatok hadoop elosztott fájlrendszerben (HDFS) vagy az Azure-ban legyenek-e tárolva.
Ha a kimeneti adatokat az Azure-ban tárolja, meg kell adnia az Azure Storage-fiók nevét, a Storage hozzáférési kulcsát és a Storage-tároló nevét. |
SQL-adatbázis | Beolvassa az Azure SQL Database-ben, a felügyelt SQL-példányban vagy egy Azure-beli virtuális gépen futó SQL Server-adatbázisban tárolt adatokat. | Adatbázis-kiszolgáló neve: Annak a kiszolgálónak a nevét adja meg, amelyen az adatbázis fut.
Azure-beli virtuális gépen üzemeltetett SQL-kiszolgáló esetén adja meg a TCP:<Virtual Machine DNS-nevét>, 1433 Adatbázis neve : A kiszolgálón lévő adatbázis nevét adja meg. Kiszolgálói felhasználói fiók neve: Egy olyan fiók felhasználónevet ad meg, amely hozzáférési engedélyekkel rendelkezik az adatbázishoz. Kiszolgálói felhasználói fiók jelszava: Megadja a felhasználói fiók jelszavát. Adatbázis-lekérdezés:Adjon meg egy SQL-utasítást, amely leírja az olvasni kívánt adatokat. |
Helyszíni SQL-adatbázis | Egy SQL-adatbázisban tárolt adatokat olvas be. | Adatátjáró: Megadja a adatkezelés átjáró nevét egy olyan számítógépen, amelyen hozzáférhet az SQL Server-adatbázishoz. Az átjáró beállításáról további információt a Machine Learning Studio (klasszikus) speciális elemzéseinek végrehajtása SQL Server-adatokkal című témakörben talál. Adatbázis-kiszolgáló neve: Annak a kiszolgálónak a nevét adja meg, amelyen az adatbázis fut. Adatbázis neve : A kiszolgálón lévő adatbázis nevét adja meg. Kiszolgálói felhasználói fiók neve: Egy olyan fiók felhasználónevet ad meg, amely hozzáférési engedélyekkel rendelkezik az adatbázishoz. Felhasználónév és jelszó: Az Adatok megadása gombra kattintva adja meg az adatbázis hitelesítő adatait. Az SQL Server konfigurálásának módjától függően windowsos integrált hitelesítést vagy SQL Server-hitelesítést is használhat. Adatbázis-lekérdezés:Adjon meg egy SQL-utasítást, amely leírja az olvasni kívánt adatokat. |
Azure-tábla | Adatokat olvas be az Azure Storage Table szolgáltatásából. Ha ritkán olvas nagy mennyiségű adatot, használja az Azure Table Service-t. Rugalmas, nem relációs (NoSQL), nagymértékben méretezhető, olcsó és magas rendelkezésre állású tárolási megoldást biztosít. |
Az Adatok importálása beállítás attól függően változik, hogy nyilvános adatokhoz vagy bejelentkezési hitelesítő adatokat igénylő privát tárfiókhoz fér hozzá. Ezt a hitelesítési típus határozza meg, amelynek értéke "PublicOrSAS" vagy "Account", amelyek mindegyike saját paraméterkészlettel rendelkezik. Nyilvános vagy közös hozzáférésű jogosultságkód (SAS) URI: A paraméterek a következők:
Megadja a tulajdonságneveket beolvasni kívánt sorokat: Az értékek TopN értékűek a megadott számú sor vizsgálatához, a ScanAll pedig a tábla összes sorának lekéréséhez. Ha az adatok homogének és kiszámíthatóak, javasoljuk, hogy válassza a TopN lehetőséget, és adjon meg egy számot az N értékhez. Nagy táblák esetén ez gyorsabb olvasási időt eredményezhet. Ha az adatok olyan tulajdonságokkal vannak strukturálva, amelyek a táblázat mélységétől és helyzetétől függően változnak, a ScanAll beállítással az összes sort beolvashatja. Ez biztosítja az eredményként kapott tulajdonság- és metaadat-átalakítás integritását.
Fiókkulcs: A fiókhoz társított tárkulcsot adja meg. Tábla neve : Annak a táblának a nevét adja meg, amely az olvasandó adatokat tartalmazza. A tulajdonságneveket beolvasni kívánt sorok: Az értékek a TopN értékek a megadott számú sor beolvasásához, a ScanAll pedig a tábla összes sorának lekéréséhez. Ha az adatok homogének és kiszámíthatók, javasoljuk, hogy válassza a TopN lehetőséget, és adjon meg egy számot az N értékhez. Nagy táblák esetén ez gyorsabb olvasási időt eredményezhet. Ha az adatok olyan tulajdonságokkal vannak strukturálva, amelyek a táblázat mélységétől és helyzetétől függően változnak, a ScanAll beállítással az összes sort beolvashatja. Ez biztosítja az eredményként kapott tulajdonság- és metaadat-átalakítás integritását. |
Azure Blob Storage | Beolvassa az Azure Storage Blob szolgáltatásában tárolt adatokat, beleértve a képeket, a strukturálatlan szöveget vagy a bináris adatokat. A Blob szolgáltatással nyilvánosan közzéteheti az adatokat, vagy privát módon tárolhatja az alkalmazásadatokat. Az adatokat bárhonnan elérheti HTTP- vagy HTTPS-kapcsolatokkal. |
Az Adatok importálása modul beállításai attól függően változnak, hogy nyilvános adatokhoz vagy bejelentkezési hitelesítő adatokat igénylő privát tárfiókhoz fér hozzá. Ezt a hitelesítési típus határozza meg, amely "PublicOrSAS" vagy "Account" értékkel rendelkezhet. Nyilvános vagy közös hozzáférésű jogosultságkód (SAS) URI: A paraméterek a következők:
Fájlformátum: A Blob szolgáltatásban lévő adatok formátumát adja meg. A támogatott formátumok a CSV, a TSV és az ARFF.
Fiókkulcs: A fiókhoz társított tárkulcsot adja meg. Tároló, könyvtár vagy blob elérési útja: Az olvasni kívánt adatokat tartalmazó blob nevét adja meg. Blobfájl formátuma: A blobszolgáltatásban lévő adatok formátumát adja meg. A támogatott adatformátumok a CSV, a TSV, az ARFF, a MEGADOTT kódolású CSV és az Excel.
Az Excel-beállítással adatokat olvashat az Excel-munkafüzetekből. Az Excel adatformátum beállításában adja meg, hogy az adatok Excel-munkalaptartományban vagy Excel-táblázatban találhatóak-e. Az Excel-munkalap vagy a beágyazott táblázat beállításban adja meg annak a lapnak vagy táblázatnak a nevét, amelyből olvasni szeretne. |
Adatcsatorna-szolgáltató | Adatokat olvas be egy támogatott hírcsatorna-szolgáltatótól. Jelenleg csak az Open Data Protocol (OData) formátum támogatott. | Adattartalom típusa: Megadja az OData formátumot. Forrás URL-címe: Az adatcsatorna teljes URL-címét adja meg. A Northwind mintaadatbázisból például a következő URL-cím olvasható be: https://services.odata.org/northwind/northwind.svc/ |
Importálás másik kísérletből
Lesznek olyan időszakok, amikor egy kísérletből közbenső eredményt szeretne készíteni, és egy másik kísérlet részeként szeretné használni. Ehhez a modult adatkészletként kell mentenie:
- Kattintson annak a modulnak a kimenetére, amelyet adathalmazként szeretne menteni.
- Kattintson a Mentés adathalmazként elemre.
- Amikor a rendszer kéri, adjon meg egy nevet és egy leírást, amely lehetővé teszi az adathalmaz egyszerű azonosítását.
- Kattintson az OK pipára .
Amikor a mentés befejeződik, az adatkészlet a munkaterület bármely kísérletében használható lesz. A modulkatalógus Mentett adathalmazok listájában találja.