Integrace OneLake s Azure Synapse Analytics
Azure Synapse je neomezená analytická služba, která spojuje podnikové skladování dat a analýzy velkých objemů dat. V tomto kurzu se dozvíte, jak se připojit k OneLake pomocí Azure Synapse Analytics.
Důležité
Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžného vydání produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, ať už vyjádřené nebo předpokládané.
Zápis dat ze Synapse pomocí Apache Sparku
Pokud chcete použít Apache Spark k zápisu ukázkových dat do OneLake z Azure Synapse Analytics, postupujte podle těchto kroků.
Otevřete pracovní prostor Synapse a vytvořte fond Apache Sparku s upřednostňovanými parametry.
Vytvořte nový poznámkový blok Apache Sparku.
Otevřete poznámkový blok, nastavte jazyk na PySpark (Python) a připojte ho k nově vytvořenému fondu Sparku.
Na samostatné kartě přejděte do microsoft fabric lakehouse a najděte složku Tabulky nejvyšší úrovně.
Klikněte pravým tlačítkem na složku Tabulky a klikněte na Vlastnosti.
Zkopírujte cestu ABFS z podokna vlastností.
Zpět v poznámkovém bloku Azure Synapse v první nové buňce kódu zadejte cestu lakehouse. Tady budou vaše data zapsána později. Spusťte buňku.
# Replace the path below with the ABFS path to your lakehouse Tables folder. oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
V nové buňce kódu načtěte data z otevřené datové sady Azure do datového rámce. Toto je datová sada, kterou načtete do lakehouse. Spusťte buňku.
yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet') display(yellowTaxiDf.limit(10))
V nové buňce kódu můžete data filtrovat, transformovat nebo připravit. V tomto scénáři můžete datovou sadu zkrátit pro rychlejší načítání, připojit se k jiným datovým sadám nebo vyfiltrovat konkrétní výsledky. Spusťte buňku.
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1) display(filteredTaxiDf.limit(10))
V nové buňce kódu pomocí cesty OneLake zapište filtrovaný datový rámec do nové tabulky Delta-Parquet v fabric lakehouse. Spusťte buňku.
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
Nakonec v nové buňce s kódem otestujte, že se data úspěšně zapsala, a to přečtením nově načteného souboru z OneLake. Spusťte buňku.
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/') display(lakehouseRead.limit(10))
Gratulujeme! Teď můžete číst a zapisovat data ve OneLake pomocí Apache Sparku v Azure Synapse Analytics.
Zápis dat ze Synapse pomocí SQL
Pokud chcete použít bezserverový SQL ke čtení dat z OneLake z Azure Synapse Analytics, postupujte podle těchto kroků.
Otevřete lakehouse fabric a identifikujte tabulku, na kterou se chcete dotazovat ze Synapse.
Klikněte pravým tlačítkem myši na tabulku a klikněte na Vlastnosti.
Zkopírujte cestu ABFS pro tabulku.
Otevřete pracovní prostor Synapse v Synapse Studio.
Vytvořte nový skript SQL.
V editoru dotazů SQL zadejte následující dotaz a nahraďte
ABFS_PATH_HERE
cestou, kterou jste zkopírovali dříve.SELECT TOP 10 * FROM OPENROWSET( BULK 'ABFS_PATH_HERE', FORMAT = 'delta') as rows;
Spuštěním dotazu zobrazte prvních 10 řádků tabulky.
Gratulujeme! Teď můžete číst data z OneLake pomocí bezserverového SQL v Azure Synapse Analytics.