Integrace OneLake s Azure Synapse Analytics

Azure Synapse je neomezená analytická služba, která spojuje podnikové skladování dat a analýzy velkých objemů dat. V tomto kurzu se dozvíte, jak se připojit k OneLake pomocí Azure Synapse Analytics.

Důležité

Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžného vydání produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, ať už vyjádřené nebo předpokládané.

Zápis dat ze Synapse pomocí Apache Sparku

Pokud chcete použít Apache Spark k zápisu ukázkových dat do OneLake z Azure Synapse Analytics, postupujte podle těchto kroků.

  1. Otevřete pracovní prostor Synapse a vytvořte fond Apache Sparku s upřednostňovanými parametry.

    Snímek obrazovky ukazující, kde na obrazovce fondu Apache Sparku vybrat Nový

  2. Vytvořte nový poznámkový blok Apache Sparku.

  3. Otevřete poznámkový blok, nastavte jazyk na PySpark (Python) a připojte ho k nově vytvořenému fondu Sparku.

  4. Na samostatné kartě přejděte do microsoft fabric lakehouse a najděte složku Tabulky nejvyšší úrovně.

  5. Klikněte pravým tlačítkem na složku Tabulky a klikněte na Vlastnosti.

    Snímek obrazovky znázorňující, kde otevřít průzkumník lakehouse v podokně Vlastnosti

  6. Zkopírujte cestu ABFS z podokna vlastností.

    Snímek obrazovky znázorňující, kam zkopírovat cestu ABFS

  7. Zpět v poznámkovém bloku Azure Synapse v první nové buňce kódu zadejte cestu lakehouse. Tady budou vaše data zapsána později. Spusťte buňku.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. V nové buňce kódu načtěte data z otevřené datové sady Azure do datového rámce. Toto je datová sada, kterou načtete do lakehouse. Spusťte buňku.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. V nové buňce kódu můžete data filtrovat, transformovat nebo připravit. V tomto scénáři můžete datovou sadu zkrátit pro rychlejší načítání, připojit se k jiným datovým sadám nebo vyfiltrovat konkrétní výsledky. Spusťte buňku.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. V nové buňce kódu pomocí cesty OneLake zapište filtrovaný datový rámec do nové tabulky Delta-Parquet v fabric lakehouse. Spusťte buňku.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Nakonec v nové buňce s kódem otestujte, že se data úspěšně zapsala, a to přečtením nově načteného souboru z OneLake. Spusťte buňku.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Gratulujeme! Teď můžete číst a zapisovat data ve OneLake pomocí Apache Sparku v Azure Synapse Analytics.

Zápis dat ze Synapse pomocí SQL

Pokud chcete použít bezserverový SQL ke čtení dat z OneLake z Azure Synapse Analytics, postupujte podle těchto kroků.

  1. Otevřete lakehouse fabric a identifikujte tabulku, na kterou se chcete dotazovat ze Synapse.

  2. Klikněte pravým tlačítkem myši na tabulku a klikněte na Vlastnosti.

  3. Zkopírujte cestu ABFS pro tabulku.

    Snímek obrazovky znázorňující, kam zkopírovat cestu ABFS

  4. Otevřete pracovní prostor Synapse v Synapse Studio.

  5. Vytvořte nový skript SQL.

  6. V editoru dotazů SQL zadejte následující dotaz a nahraďte ABFS_PATH_HERE cestou, kterou jste zkopírovali dříve.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Spuštěním dotazu zobrazte prvních 10 řádků tabulky.

Gratulujeme! Teď můžete číst data z OneLake pomocí bezserverového SQL v Azure Synapse Analytics.

Další kroky