Integrace OneLake s Azure Synapse Analytics

Článek
12/06/2023

Azure Synapse je neomezená analytická služba, která spojuje podnikové datové sklady a analýzu velkého objemu dat. V tomto kurzu se dozvíte, jak se připojit k OneLake pomocí Azure Synapse Analytics.

Zápis dat ze Synapse pomocí Apache Sparku

Pomocí těchto kroků můžete pomocí Apache Sparku zapisovat ukázková data do OneLake z Azure Synapse Analytics.

Otevřete pracovní prostor Synapse a vytvořte fond Apache Sparku s upřednostňovanými parametry.
Vytvořte nový poznámkový blok Apache Sparku.
Otevřete poznámkový blok, nastavte jazyk na PySpark (Python) a připojte ho k nově vytvořenému fondu Sparku.
Na samostatné kartě přejděte do microsoft Fabric lakehouse a najděte složku Tabulky nejvyšší úrovně.
Klikněte pravým tlačítkem myši na složku Tabulky a vyberte Vlastnosti.
Zkopírujte cestu ABFS z podokna vlastností.

Zpátky v poznámkovém bloku Azure Synapse v první nové buňce kódu zadejte cestu k jezeru. Toto jezero je místo, kde se vaše data zapisuje později. Spusťte buňku.

# Replace the path below with the ABFS path to your lakehouse Tables folder. 
oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'

V nové buňce kódu načtěte data z otevřené datové sady Azure do datového rámce. Tato datová sada je ta, kterou načtete do jezera. Spusťte buňku.

yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
display(yellowTaxiDf.limit(10))

V nové buňce kódu, filtrování, transformaci nebo přípravě dat. V tomto scénáři můžete datovou sadu zkrátit a zrychlit načítání, spojovat se s jinými datovými sadami nebo filtrovat podle konkrétních výsledků. Spusťte buňku.
```
filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
display(filteredTaxiDf.limit(10))
```
V nové buňce kódu pomocí cesty OneLake napište filtrovaný datový rámec do nové tabulky Delta-Parquet ve vašem fabric lakehouse. Spusťte buňku.
```
filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
```
Nakonec v nové buňce kódu otestujte, že vaše data byla úspěšně zapsána čtením nově načteného souboru z OneLake. Spusťte buňku.
```
lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
display(lakehouseRead.limit(10))
```

Blahopřejeme. Teď můžete číst a zapisovat data ve OneLake pomocí Apache Sparku ve službě Azure Synapse Analytics.

Čtení dat ze služby Synapse pomocí SQL

Při čtení dat z OneLake z Azure Synapse Analytics použijte bezserverové SQL.

Otevřete Objekt Fabric Lakehouse a identifikujte tabulku, kterou chcete dotazovat ze služby Synapse.
Klikněte pravým tlačítkem myši na tabulku a vyberte Vlastnosti.
Zkopírujte cestu ABFS pro tabulku.
Otevřete pracovní prostor Synapse v nástroji Synapse Studio.
Vytvořte nový skript SQL.
V editoru dotazů SQL zadejte následující dotaz a nahraďte ABFS_PATH_HERE cestu, kterou jste zkopírovali dříve.
```
SELECT TOP 10 *
FROM OPENROWSET(
BULK 'ABFS_PATH_HERE',
FORMAT = 'delta') as rows;
```
Spuštěním dotazu zobrazte prvních 10 řádků tabulky.

Blahopřejeme. Teď můžete číst data z OneLake pomocí bezserverového SQL ve službě Azure Synapse Analytics.

Integrace OneLake s Průzkumník služby Azure Storage

Integrace OneLake s Azure Synapse Analytics

Zápis dat ze Synapse pomocí Apache Sparku

Čtení dat ze služby Synapse pomocí SQL

Váš názor

Váš názor

Další materiály

Integrace OneLake s Azure Synapse Analytics

Zápis dat ze Synapse pomocí Apache Sparku

Čtení dat ze služby Synapse pomocí SQL

Související obsah

Váš názor

Váš názor

Další materiály