A OneLake integrálása a Azure Synapse Analyticsszel
Az Azure Synapse egy korlátok nélküli elemzőszolgáltatás, amely egyesíti a vállalati adattárházakat és a Big Data-elemzéseket. Ez az oktatóanyag bemutatja, hogyan csatlakozhat a OneLake-hoz Azure Synapse Analytics használatával.
Fontos
A Microsoft Fabric jelenleg előzetes verzióban érhető el. Ezek az információk egy előzetes termékre vonatkoznak, amely a kiadás előtt lényegesen módosulhat. A Microsoft nem vállal kifejezett vagy vélelmezett garanciát az itt megadott információkra vonatkozóan.
Adatok írása a Synapse-ből az Apache Spark használatával
Az alábbi lépéseket követve az Apache Spark használatával mintaadatokat írhat a OneLake-be Azure Synapse Analyticsből.
Nyissa meg a Synapse-munkaterületet, és hozzon létre egy Apache Spark-készletet az előnyben részesített paraméterekkel.
Hozzon létre egy új Apache Spark-jegyzetfüzetet.
Nyissa meg a jegyzetfüzetet, állítsa a nyelvet PySpark (Python) értékre, és csatlakoztassa az újonnan létrehozott Spark-készlethez.
Egy külön lapon keresse meg a Microsoft Fabric-tóházat, és keresse meg a legfelső szintű Táblák mappát.
Kattintson a jobb gombbal a Táblák mappára, és válassza a Tulajdonságok parancsot.
Másolja ki az ABFS elérési útját a tulajdonságok panelről.
A Azure Synapse jegyzetfüzetben, az első új kódcellában adja meg a lakehouse elérési útját. Az adatok itt lesznek később megírva. Futtassa a cellát.
# Replace the path below with the ABFS path to your lakehouse Tables folder. oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
Egy új kódcellában töltsön be adatokat egy azure-beli nyitott adathalmazból egy adatkeretbe. Ezt az adatkészletet fogja betölteni a tótárházba. Futtassa a cellát.
yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet') display(yellowTaxiDf.limit(10))
Új kódcellában szűrheti, átalakíthatja vagy előkészítheti az adatokat. Ebben a forgatókönyvben levághatja az adathalmazt a gyorsabb betöltéshez, más adathalmazokhoz való csatlakozáshoz, vagy adott eredményekre szűrhet. Futtassa a cellát.
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1) display(filteredTaxiDf.limit(10))
Egy új kódcellában a OneLake-elérési út használatával írja be a szűrt adatkeretet egy új Delta-Parquet táblába a Fabric lakehouse-ban. Futtassa a cellát.
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
Végül egy új kódcellában tesztelje, hogy az adatok sikeresen meg vannak-e írva, ha beolvassa az újonnan betöltött fájlt a OneLake-ból. Futtassa a cellát.
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/') display(lakehouseRead.limit(10))
Gratulálunk! Most már olvashat és írhat adatokat a OneLake-ben az Apache Spark használatával az Azure Synapse Analyticsben.
Adatok írása a Synapse-ból SQL használatával
Az alábbi lépéseket követve kiszolgáló nélküli SQL használatával olvashatja be az adatokat a OneLake-ből Azure Synapse Analyticsből.
Nyisson meg egy Háló-tóházat, és azonosítsa a Synapse-ból lekérdezni kívánt táblát.
Kattintson a jobb gombbal a táblára, és válassza a Tulajdonságok parancsot.
Másolja ki a táblázat ABFS-elérési útját .
Nyissa meg a Synapse-munkaterületet Synapse Studio.
Hozzon létre egy új SQL-szkriptet.
Az SQL-lekérdezésszerkesztőben írja be a következő lekérdezést, és cserélje le a elemet
ABFS_PATH_HERE
a korábban kimásolt elérési útra.SELECT TOP 10 * FROM OPENROWSET( BULK 'ABFS_PATH_HERE', FORMAT = 'delta') as rows;
Futtassa a lekérdezést a tábla első 10 sorának megtekintéséhez.
Gratulálunk! Most már olvashat adatokat a OneLake-ból kiszolgáló nélküli SQL használatával az Azure Synapse Analyticsben.