Útmutató: Tükrözött Azure Cosmos DB-adatok elérése a Lakehouse-ban és a Microsoft Fabric notebookjaiban (előzetes verzió)

Cikk
04/24/2024

Ebben az útmutatóban megtudhatja, hogyan férhet hozzá a tükrözött Azure Cosmos DB-adatokhoz a Lakehouse-ban és a Microsoft Fabric (előzetes verzió) jegyzetfüzeteiben.

Fontos

Az Azure Cosmos DB tükrözése jelenleg előzetes verzióban érhető el. Az éles számítási feladatok nem támogatottak az előzetes verzióban. Jelenleg csak a NoSQL-fiókokhoz készült Azure Cosmos DB támogatott.

Előfeltételek

Egy meglévő Azure Cosmos DB for NoSQL-fiók.
- Ha nem rendelkezik Azure-előfizetéssel, ingyenesen kipróbálhatja az Azure Cosmos DB for NoSQL-t.
- Ha már rendelkezik Azure-előfizetéssel, hozzon létre egy új Azure Cosmos DB for NoSQL-fiókot.
Meglévő hálókapacitás. Ha nem rendelkezik meglévő kapacitással, indítsa el a Fabric próbaverzióját.
Engedélyezze a tükrözést a Háló-bérlőben vagy -munkaterületen. Ha a funkció még nincs engedélyezve, engedélyezze a tükrözést a Háló bérlőben.
Az Azure Cosmos DB for NoSQL-fiókot konfigurálni kell a Fabric-tükrözéshez. További információ: fiókkövetelmények.

Tipp.

A nyilvános előzetes verzióban ajánlott a meglévő Azure Cosmos DB-adatok tesztelési vagy fejlesztési másolatának használata, amely biztonsági másolatból gyorsan helyreállítható.

A tükrözés beállítása és előfeltételei

Konfigurálja a tükrözést az Azure Cosmos DB for NoSQL-adatbázishoz. Ha nem tudja, hogyan konfigurálhatja a tükrözést, tekintse meg a tükrözött adatbázis konfigurálását ismertető oktatóanyagot.

Lépjen a Háló portálra.
Hozzon létre egy új kapcsolatot és tükrözött adatbázist az Azure Cosmos DB-fiók hitelesítő adataival.
Várja meg, amíg a replikáció befejezi az adatok kezdeti pillanatképét.

Tükrözött adatok elérése a Lakehouse-ban és a jegyzetfüzetekben

A Lakehouse használatával tovább bővítheti az Azure Cosmos DB for NoSQL-tükrözött adatok elemzéséhez használható eszközök számát. Itt a Lakehouse használatával hozhat létre Egy Spark-jegyzetfüzetet az adatok lekérdezéséhez.

Lépjen ismét a Háló portál kezdőlapjához.
A navigációs menüben válassza a Létrehozás lehetőséget.
Válassza a Létrehozás lehetőséget, keresse meg a adatmérnök szakaszt, majd válassza a Lakehouse lehetőséget.
Adja meg a Lakehouse nevét, majd válassza a Létrehozás lehetőséget.
Most válassza az Adatok lekérése, majd az Új parancsikon lehetőséget. A billentyűparancsok listájában válassza a Microsoft OneLake lehetőséget.
Válassza ki a tükrözött Azure Cosmos DB for NoSQL-adatbázist a Fabric-munkaterület tükrözött adatbázisainak listájából. Jelölje ki a Lakehouse-hoz használni kívánt táblákat, válassza a Tovább, majd a Létrehozás lehetőséget.
Nyissa meg a táblázat helyi menüjét a Lakehouse-ban, és válassza az Új vagy a meglévő jegyzetfüzet lehetőséget.
Egy új jegyzetfüzet automatikusan megnyílik, és betölt egy adatkeretet a használatával SELECT LIMIT 1000.
Lekérdezések futtatása, például a SELECT * Spark használata.
```
df = spark.sql("SELECT * FROM Lakehouse.OrdersDB_customers LIMIT 1000")
display(df)
```
Feljegyzés

Ez a példa a tábla nevét feltételezi. A Spark-lekérdezés írásakor használja a saját tábláját.

Visszaírás a Spark használatával

Végül Spark- és Python-kóddal visszaírhatja az adatokat a forrás Azure Cosmos DB-fiókba a Fabric jegyzetfüzeteiből. Érdemes lehet az elemzési eredményeket visszaírni a Cosmos DB-be, amely aztán kiszolgálósíkként használható az OLTP-alkalmazásokhoz.

Hozzon létre négy kódcellát a jegyzetfüzetben.
Először kérdezd le a tükrözött adatokat.
```
fMirror = spark.sql("SELECT * FROM Lakehouse1.OrdersDB_ordercatalog")
```
Tipp.

A mintakódblokkokban szereplő táblanevek feltételeznek egy bizonyos adatsémát. Ezt nyugodtan lecserélheti a saját táblázat- és oszlopneveire.

Most alakítsa át és összesíti az adatokat.

dfCDB = dfMirror.filter(dfMirror.categoryId.isNotNull()).groupBy("categoryId").agg(max("price").alias("max_price"), max("id").alias("id"))

Ezután konfigurálja a Sparkot, hogy a hitelesítő adatok, az adatbázisnév és a tárolónév használatával írjon vissza az Azure Cosmos DB for NoSQL-fiókjába.

writeConfig = {
  "spark.cosmos.accountEndpoint" : "https://xxxx.documents.azure.com:443/",
  "spark.cosmos.accountKey" : "xxxx",
  "spark.cosmos.database" : "xxxx",
  "spark.cosmos.container" : "xxxx"
}

Végül a Spark használatával írjon vissza a forrásadatbázisba.

dfCDB.write.mode("APPEND").format("cosmos.oltp").options(**writeConfig).save()

Futtassa az összes kódcellát.

Fontos

Az Azure Cosmos DB-be történő írási műveletek kérelemegységeket (RU-kat) használnak fel.

Megosztás a következőn keresztül:

Útmutató: Tükrözött Azure Cosmos DB-adatok elérése a Lakehouse-ban és a Microsoft Fabric notebookjaiban (előzetes verzió)

Előfeltételek

A tükrözés beállítása és előfeltételei

Tükrözött adatok elérése a Lakehouse-ban és a jegyzetfüzetekben

Visszaírás a Spark használatával

Visszajelzés

Visszajelzés

További források

Megosztás a következőn keresztül:

Útmutató: Tükrözött Azure Cosmos DB-adatok elérése a Lakehouse-ban és a Microsoft Fabric notebookjaiban (előzetes verzió)

Előfeltételek

A tükrözés beállítása és előfeltételei

Tükrözött adatok elérése a Lakehouse-ban és a jegyzetfüzetekben

Visszaírás a Spark használatával

Kapcsolódó tartalom

Visszajelzés

Visszajelzés

További források