Sdílet prostřednictvím


Transformace se službou Azure Databricks

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu vytvoříte ucelený kanál, který obsahuje aktivity ověřování, kopírování dat a poznámkových bloků ve službě Azure Data Factory.

  • Ověření zajišťuje, že zdrojová datová sada je připravená pro příjem dat před aktivací úlohy kopírování a analýzy.

  • Kopírování dat duplikuje zdrojovou datovou sadu do úložiště jímky, která je připojená jako DBFS v poznámkovém bloku Azure Databricks. Tímto způsobem může datová sada přímo využívat Spark.

  • Poznámkový blok Aktivuje poznámkový blok Databricks, který transformuje datovou sadu. Přidá také datovou sadu do zpracované složky nebo azure Synapse Analytics.

Pro zjednodušení šablona v tomto kurzu nevytvoří naplánovanou aktivační událost. V případě potřeby ho můžete přidat.

Diagram kanálu

Požadavky

  • Účet služby Azure Blob Storage s kontejnerem, který se volá sinkdata jako jímka.

    Poznamenejte si název účtu úložiště, název kontejneru a přístupový klíč. Tyto hodnoty budete potřebovat později v šabloně.

  • Pracovní prostor Azure Databricks

Import poznámkového bloku pro transformaci

Import poznámkového bloku transformace do pracovního prostoru Databricks:

  1. Přihlaste se ke svému pracovnímu prostoru Azure Databricks a pak vyberte Importovat. Příkaz nabídky pro import pracovního prostoru Cesta k vašemu pracovnímu prostoru se může lišit od zobrazené cesty, ale zapamatujte si ji pro pozdější použití.

  2. Vyberte Importovat z adresy URL. Do textového pole zadejte https://adflabstaging1.blob.core.windows.net/share/Transformations.html.

    Výběry pro import poznámkového bloku

  3. Teď aktualizujeme poznámkový blok transformace informacemi o připojení k úložišti.

    V importovaném poznámkovém bloku přejděte na příkaz 5 , jak je znázorněno v následujícím fragmentu kódu.

    • Nahraďte <storage name>a <access key> nahraďte vlastními informacemi o připojení k úložišti.
    • Použijte účet úložiště s kontejnerem sinkdata .
    # Supply storageName and accessKey values  
    storageName = "<storage name>"  
    accessKey = "<access key>"  
    
    try:  
      dbutils.fs.mount(  
        source = "wasbs://sinkdata\@"+storageName+".blob.core.windows.net/",  
        mount_point = "/mnt/Data Factorydata",  
        extra_configs = {"fs.azure.account.key."+storageName+".blob.core.windows.net": accessKey})  
    
    except Exception as e:  
      # The error message has a long stack track. This code tries to print just the relevant line indicating what failed.
    
    import re
    result = re.findall(r"\^\s\*Caused by:\s*\S+:\s\*(.*)\$", e.message, flags=re.MULTILINE)
    if result:
      print result[-1] \# Print only the relevant error message
    else:  
      print e \# Otherwise print the whole stack trace.  
    
  4. Vygenerujte přístupový token Databricks pro službu Data Factory pro přístup k Databricks.

    1. V pracovním prostoru Databricks vyberte ikonu profilu uživatele v pravém horním rohu.
    2. Vyberte Uživatelská nastavení. Příkaz nabídky pro uživatelská nastavení
    3. Na kartě Přístupové tokeny vyberte Vygenerovat nový token.
    4. Vyberte Generovat.

    Uložte přístupový token pro pozdější použití při vytváření propojené služby Databricks. Přístupový token vypadá nějak takto dapi32db32cbb4w6eee18b7d87e45exxxxxx.

Jak používat tuto šablonu

  1. Přejděte k transformaci pomocí šablony Azure Databricks a vytvořte nové propojené služby pro následující připojení.

    Nastavení připojení

    • Připojení ke zdrojovému objektu blob – pro přístup ke zdrojovým datům.

      V tomto cvičení můžete použít veřejné úložiště objektů blob, které obsahuje zdrojové soubory. Pro konfiguraci použijte následující snímek obrazovky. Pomocí následující adresy URL SAS se připojte ke zdrojovému úložišti (přístup jen pro čtení):

      https://storagewithdata.blob.core.windows.net/data?sv=2018-03-28&si=read%20and%20list&sr=c&sig=PuyyS6%2FKdB2JxcZN0kPlmHSBlD8uIKyzhBWmWzznkBw%3D

      Výběry pro metodu ověřování a adresu URL SAS

    • Cílové připojení objektu blob – pro uložení zkopírovaných dat.

      V okně Nová propojená služba vyberte objekt blob úložiště jímky.

      Objekt blob úložiště jímky jako nová propojená služba

    • Azure Databricks – připojení ke clusteru Databricks

      Vytvořte službu propojenou službou Databricks pomocí přístupového klíče, který jste vygenerovali dříve. Pokud ho máte, můžete zvolit interaktivní cluster . Tento příklad používá možnost Nový cluster úloh.

      Výběry pro připojení ke clusteru

  2. Vyberte Použít tuto šablonu. Zobrazí se vytvořený kanál.

    Vytvořit kanál

Úvod a konfigurace kanálu

V novém kanálu se většina nastavení konfiguruje automaticky s výchozími hodnotami. Zkontrolujte konfigurace kanálu a proveďte potřebné změny.

  1. V příznaku Dostupnost aktivity ověření ověřte, že je zdrojová hodnota datové sady nastavená na SourceAvailabilityDataset dříve vytvořenou hodnotu.

    Hodnota zdrojové datové sady

  2. V souboru aktivity kopírování dat do objektu blob zkontrolujte karty Zdroj a Jímka. V případě potřeby změňte nastavení.

    • Karta ZdrojKarta Zdroj

    • Karta JímkaKarta Jímka

  3. V transformaci aktivity poznámkového bloku zkontrolujte a podle potřeby aktualizujte cesty a nastavení.

    Propojená služba Databricks by měla být předem vyplněná hodnotou z předchozího kroku, jak je znázorněno na obrázku: Vyplněná hodnota propojené služby Databricks

    Kontrola nastavení poznámkového bloku:

    1. Vyberte kartu Nastavení. V případě cesty poznámkového bloku ověřte správnost výchozí cesty. Možná budete muset procházet a zvolit správnou cestu k poznámkovému bloku.

      Cesta k poznámkovému bloku

    2. Rozbalte selektor základních parametrů a ověřte, že parametry odpovídají tomu, co je znázorněno na následujícím snímku obrazovky. Tyto parametry se předávají do poznámkového bloku Databricks ze služby Data Factory.

      Základní parametry

  4. Ověřte, že parametry kanálu odpovídají tomu, co je znázorněno na následujícím snímku obrazovky: Parametry kanálu

  5. Připojte se k datovým sadám.

    Poznámka:

    V následujících datových sadách byla cesta k souboru automaticky zadána v šabloně. Pokud se vyžadují nějaké změny, ujistěte se, že jste zadali cestu pro kontejner i adresář pro případ, že dojde k chybě připojení.

    • SourceAvailabilityDataset – zkontrolujte, jestli jsou zdrojová data dostupná.

      Výběry pro propojenou službu a cestu k souboru pro SourceAvailabilityDataset

    • SourceFilesDataset – pro přístup ke zdrojovým datům.

      Výběry pro propojenou službu a cestu k souboru pro SourceFilesDataset

    • DestinationFilesDataset – zkopírování dat do cílového umístění jímky Použijte následující hodnoty:

      • Propojená služba - sinkBlob_LS vytvořená v předchozím kroku

      • Cesta k - sinkdata/staged_sink souboru

        Výběry pro propojenou službu a cestu k souboru pro DestinationFilesDataset

  6. Vyberte Ladit a spusťte kanál. Odkaz na protokoly Databricks najdete pro podrobnější protokoly Sparku.

    Propojení s protokoly Databricks z výstupu

    Datový soubor můžete také ověřit pomocí Průzkumník služby Azure Storage.

    Poznámka:

    Pro korelaci s spuštěním kanálu Data Factory tento příklad připojí ID spuštění kanálu z datové továrny do výstupní složky. To pomáhá sledovat soubory vygenerované jednotlivými spuštěními. ID spuštění připojeného kanálu