Importálás Azure Cosmos DB
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Ez a cikk azt ismerteti, hogyan használható az Adatok importálása modul a Machine Learning Studio (klasszikus) alkalmazásában adatok importálására Azure Cosmos DB gépi tanulási kísérletben való használatra.
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
Azure Cosmos DB támogatja a NoSQL-adatbázistárolást egy rugalmas adatmodell használatával. Az adattárban található SQL API-k gépi tanuláshoz való használatának előnyei közé tartozik a gyors és kiszámítható teljesítmény, az automatikus skálázás, a globális terjesztés és a gazdag lekérdezési képességek.
Ez a Azure SQL Database lehetővé teszi a bejövő adatkészletek dinamikus szűrését.
A működése: További információ a Azure Cosmos DB
- Ahhoz, hogy a gépi tanulást a Azure Cosmos DB-adatokkal elkezdeni, hozzá kell férnie egy meglévő Azure Cosmos DB-fiókhoz, amely kapcsolódó dokumentumok gyűjteményét tartalmazza.
Megjegyzés
A Machine Learning Studio (klasszikus) felhasználói felülete sok helyen továbbra is DocumentDB nevet használ. Ezért előfordulhat, hogy továbbra is referenciákat lát a DocumentDB-re, annak ellenére, hogy az API be van építve a Azure Cosmos DB.
Adatok importálása a Azure Cosmos DB
Határozottan javasoljuk, hogy az importálás előtt készítse el az adatok profilját, hogy a séma biztosan a várt módon legyen. Az importálási folyamat átvizsgál néhány fő sort a séma meghatározásához, de a későbbi sorok további oszlopokat vagy hibákat okozhatnak.
Adatok importálása a varázslóval
A modul tartalmaz egy új varázslót, amely segít kiválasztani a tárolási lehetőségeket, választani a meglévő előfizetések és fiókok közül, és gyorsan konfigurálni az összes beállítást.
Adja hozzá az Adatok importálása modult a kísérlethez. A modult az Adatbemenet és -kimenet alatt találja.
Kattintson az Adatok importálása varázsló indítása elemre , és kövesse az utasításokat.
Ha a konfigurálás befejeződött, az adatok a kísérletbe való másoláshoz kattintson a jobb gombbal a modulra, és válassza a Kijelölt futtatása lehetőséget.
Tipp
Ha egy meglévő adatkapcsolatot kell szerkesztenie, a varázsló betölti az összes korábbi konfigurációs adatot. Nem kell elölről kezdenie.
Tulajdonságok manuális beállítása az Adatok importálása modulban
A következő lépések ismertetik, hogyan konfigurálhatja manuálisan az importálási forrást.
Adja hozzá az Adatok importálása modult a kísérlethez. Ezt a modult az Adatbemenet és -kimenet kategóriában találja .
Az Adatforrás mezőben válassza az Azure DocumentDB lehetőséget.
Előfordulhat, hogy meg kell adnia a dokumentum-adatbázis kapcsolati adatait.
Tipp
Keresse meg a Machine Learning Studio (klasszikus) beállításának nevét, amely később megváltozik. A névváltozás nem befolyásolta az importálási funkciót.
A Végpont URL-címe mezőben az Azure Portalon kattintson a Kulcsok elemre, és másolja az oldal tetején található URI mező tartalmát.
Az Adatbázis-azonosító szövegbe illessze be a használni használt adatbázis nevét.
Az adatbázis nevének az Azure Portalról való lekért nevéhez kattintson a Dokumentumkezelő elemre. Ezen a panelen megtekintheti az adatbázisok és gyűjtemények listáját.
A DocumentDB-kulcshoz illessze be a fiók hozzáférési kulcsát.
A kulcsok megkereséhez kattintson a Kulcsok elemre, majd másolja ki az ELSŐDLEGES KULCS vagy a MÁSODLAGOS KULCS mezők tartalmát.
A Gyűjtemény azonosítója mezőbe írja be a gyűjtemény nevét a megadott CosmosDB-adatbázisban látható módon.
Definiálhat SQL lekérdezési és szűrési feltételt az adatokra a lekérdezési és SQL lekérdezési SQL beállításokkal.
A SQL lekérdezéshez írjon be egy lekérdezést, amely meghatározza a gyűjteményből lekérni szükséges adatokat. Javasoljuk, hogy a Lekérdezéskezelővel előre hozza létre és tesztelje a CosmosDB-lekérdezéseket.
A SQL lekérdezési paraméterekhez adjon meg egy JSON formátumú kifejezést, amely dinamikusan szűrheti a visszaadott adatokat. Általában a paraméterérték tényleges értékét kell megadva, amikor egy webszolgáltatás részeként futtatja a kísérletet.
Ha paramétert használ, a szűrőváltozó nevét a lekérdezési szövegmezőben megadott WHERE záradék SQL meg.
Ha nem ad meg szűrőkifejezést, a rendszer alapértelmezés szerint a "{}" értéket adja vissza, és minden rekordot visszaad.
A CosmosDB-lekérdezésekkel kapcsolatos példákat, ismert problémákat és további tanácsokat SQL a Műszaki megjegyzések szakaszban.
Válassza a Gyorsítótárazott eredmények használata lehetőséget, ha újra fel szeretné használni a meglévő eredményeket.
Ha nem választja ki ezt a beállítást, a rendszer a kísérlet minden futtatásakor beolvassa az adatokat a forrásból, függetlenül attól, hogy az adatok azonosak-e vagy sem.
Machine Learning nem tudja összehasonlítani a gyorsítótárazott adatokat a CosmosDB-fiókban lévő adatokkal. Ezért nem lehet növekményes frissítéseket végrehajtani a Machine Learning.
Ha csak az adatok módosulása esetén szeretne újraimportációt, ezt a logikát egy másik alkalmazásban kell meghatároznia, például a Azure Data Factory. További információ: Adatok áthelyezése a Azure Cosmos DB a Azure Data Factory.
Futtassa a kísérletet, vagy csak az Adatok importálása modult , és kattintson a Futtatás kiválasztva lehetőségre.
Results (Eredmények)
A modul vagy kísérlet futtatása után a jobb gombbal a modul kimenetére kattintva táblázatos formában vizualizálhatja az eredményeket.
Ha pillanatképet készít az adatokról a Machine Learning munkaterületén adatkészletként, kattintson a jobb gombbal a modul kimenetére, és válassza a Save As Dataset (Mentés adatkészletként) lehetőséget. Ez azonban csak az importáláskor elérhető adatokat rögzíti. Ha az adatok várhatóan gyakran változnak, szükség szerint futtassa újra az Adatok importálása adatokat.
Példák
A gépi tanulás adatforrásként való használatának részletes Azure Cosmos DB lásd a Azure AI Gallery.
- SQL lekérdezések a Azure Cosmos DB: Ez a cikk bemutatja, hogyan hajthatja végre SQL lekérdezéseket a Azure Cosmos DB adatokon.
Technikai megjegyzések
Ez a szakasz speciális konfigurációs beállításokat és válaszokat tartalmaz a gyakori kérdésekre.
Példák egyszerű és paraméteres lekérdezésekre
Tegyük fel, hogy csak az 10000 lábnál nem magasabb szintekkel található adatokat szeretné használni.
Egyszerű lekérdezés
Illessze be a következő lekérdezést SQL lekérdezés szövegmezőbe:Select * from volcanodb where volcanodb.Elevation < 10000
Ebben az esetben a szűrőkifejezés értéke "{}" értékre van állítva, és a rendszer minden rekordot visszaad.
Paraméteres lekérdezés
Ha csak az egy adott országhoz kapcsolódó adatokat kell lekérdezni, megadhatja az ország értékét a lekérdezésnek futásidőben átadott paraméterként. Ehhez a következő módosításokra van szükség:
A SQL mező szövegmezőben határozzon meg egy változót, amely a
Country
mezőre lesz alkalmazva a lekérdezés SQL részeként:Select * from volcanodb where volcanodb.Country = @param1
A lekérdezési SQL mezőben adja meg a paraméter nevét és értékét JSON formátumban, a következő formátumban:
{"@param1":"Turkey"}
Források
Ha még nem létezik dokumentumtár, az első lépésekhez tekintse meg ezeket a cikkeket.
Segítség az adatáttelepítéshez és a lekérdezési szintaxishoz
A JSON-adattárak lekérdezési mintáiért töltse le a Azure Cosmos DB-adatlapot.
Ha tartalmat kell feltöltenie a Azure Cosmos DB, javasoljuk, hogy Azure Cosmos DB migrálási eszközt. Ellenőrzi, feltölti és indexeli az adatokat. Az eszköz több forrást is támogat, például a MongoDB-t, az Amazon DynamoDB-t, a HBase-t, SQL Server adatbázisokat és CSV-fájlokat.
Sémalekérdezések használata
Ha az adatok konzisztensek és kiszámíthatók, egyszerű, SQL hasonló szintaxist használhat, például: SELECT * FROM <document collection>
. Ezt sémalekérdezésnek nevezzük , mert nem adott meg pontos visszaadni attribútumokat. Az ilyen lekérdezések a megadott gyűjtemény összes mezőjét és sorát visszaadják.
A séma megadása azonban váratlan eredményekhez vagy futásidő-hibákhoz vezethet, ha a dokumentumokban inkonzisztens sémák vannak. Ennek az az oka, hogy az Adatok importálása modul a következőképpen kísérl meg előre meghatározott számú sor alapján kiveszni a sémát:
- Ha nincs megadva attribútum, a modul megvizsgálja a CosmosDB-adatbázis első sorát.
- A modul attribútumok alapján hoz létre oszlopneveket, és kitalálja, hogy az oszlop adattípusainak milyennek kell lennie a példasor alapján.
- Ha a későbbi sorok új vagy eltérő attribútumokat tartalmaznak, futásidő-hiba keletkezik.
Ezért javasoljuk, hogy mindig adja meg a CosmosDB-adattárból visszaadni kívánt attribútumokat és értékeket. A szintaxis használata SELECT *
helyett például azt javasoljuk, hogy a lekérdezés által lekért összes attribútumnak a következő nevet nevezze el:
SELECT MyTable.Gender, MyTable.Age, MyTable.Name FROM <document collection>
Modulparaméterek
A következő táblázat csak az Adatok importálása modulnak azokat a paramétereit tartalmazza, amelyek a Azure Cosmos DB vonatkoznak.
Name | Tartomány | Típus | Kötelező | Alapértelmezett | Description |
---|---|---|---|---|---|
Adatforrás | list | HTTP | kötelező | Nincs | Az adatforrás lehet HTTP, FTP, névtelen HTTPS vagy FTPS, azure blobtárolóban lévő fájl, Azure-tábla, Azure SQL Database, Hive-tábla, OData-végpont vagy Azure Cosmos dB. |
Végpont URL-címe | bármelyik | sztring | kötelező | Nincs | Adja meg a Azure Cosmos DB URI-ját |
Adatbázis-azonosító | bármelyik | sztring | kötelező | Nincs | Adja meg a Azure Cosmos DB nevét |
DocumentDB-kulcs | bármelyik | SecureString (Biztonságos karakterlánc) | kötelező | Nincs | Adjon meg egy érvényes API-kulcsot a Azure Cosmos DB fiókhoz |
Gyűjtemény azonosítója | bármelyik | sztring | kötelező | Nincs | Adja meg a gyűjtemény nevét a Azure Cosmos DB adatbázisban |
SQL Lekérdezés | bármelyik | sztring | kötelező | Nincs | Egy SQL lekérdezés, amely rekordokat ad vissza a Azure Cosmos DB adattárból |
Kimenetek
Név | Típus | Description |
---|---|---|
Eredményadatkészlet | Adattábla | Adatkészlet letöltött adatokkal |
Kivételek
Kivétel | Description |
---|---|
0003-as hiba | Kivétel történik, ha egy vagy több bemenet null vagy üres. |
0029-es hiba | Kivétel történik, ha érvénytelen URI-t ad át. |
0002-es hiba | Kivétel történik, ha egy vagy több paramétert nem lehetett a megadott típusból a cél metódus által megkövetelt típusra átalakítani. |
0048-as hiba | Kivétel akkor fordul elő, ha nem lehet megnyitni egy fájlt. |
0049-es hiba | Kivétel akkor fordul elő, ha nem lehet egy fájlt elemezni. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listáját a hibakódok Machine Learning REST API.
Lásd még
Adatok importálása
Adatok exportálása
Importálás webes URL-ről HTTP-kapcsolaton keresztül
Importálás Hive-lekérdezésből
Importálás Azure SQL Database-ből
Importálás Azure Blob Storage
Importálás adatcsatorna-szolgáltatóktól
Importálás helyszíni adatbázisból SQL Server adatbázisból