Transformace se službou Azure Databricks

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu vytvoříte ucelený kanál, který obsahuje aktivity ověřování, kopírování dat a poznámkových bloků ve službě Azure Data Factory.

  • Ověření zajišťuje, že zdrojová datová sada je připravená pro příjem dat před aktivací úlohy kopírování a analýzy.

  • Kopírování dat duplikuje zdrojovou datovou sadu do úložiště jímky, která je připojená jako DBFS v poznámkovém bloku Azure Databricks. Tímto způsobem může datová sada přímo využívat Spark.

  • Poznámkový blok Aktivuje poznámkový blok Databricks, který transformuje datovou sadu. Přidá také datovou sadu do zpracované složky nebo azure Synapse Analytics.

Pro zjednodušení šablona v tomto kurzu nevytvoří naplánovanou aktivační událost. V případě potřeby ho můžete přidat.

Diagram of the pipeline

Požadavky

  • Účet služby Azure Blob Storage s kontejnerem, který se volá sinkdata jako jímka.

    Poznamenejte si název účtu úložiště, název kontejneru a přístupový klíč. Tyto hodnoty budete potřebovat později v šabloně.

  • Pracovní prostor Azure Databricks

Import poznámkového bloku pro transformaci

Import poznámkového bloku transformace do pracovního prostoru Databricks:

  1. Přihlaste se ke svému pracovnímu prostoru Azure Databricks a pak vyberte Importovat. Menu command for importing a workspace Cesta k vašemu pracovnímu prostoru se může lišit od zobrazené cesty, ale zapamatujte si ji pro pozdější použití.

  2. Vyberte Importovat z adresy URL. Do textového pole zadejte https://adflabstaging1.blob.core.windows.net/share/Transformations.html.

    Selections for importing a notebook

  3. Teď aktualizujeme poznámkový blok transformace informacemi o připojení k úložišti.

    V importovaném poznámkovém bloku přejděte na příkaz 5 , jak je znázorněno v následujícím fragmentu kódu.

    • Nahraďte <storage name>a <access key> nahraďte vlastními informacemi o připojení k úložišti.
    • Použijte účet úložiště s kontejnerem sinkdata .
    # Supply storageName and accessKey values  
    storageName = "<storage name>"  
    accessKey = "<access key>"  
    
    try:  
      dbutils.fs.mount(  
        source = "wasbs://sinkdata\@"+storageName+".blob.core.windows.net/",  
        mount_point = "/mnt/Data Factorydata",  
        extra_configs = {"fs.azure.account.key."+storageName+".blob.core.windows.net": accessKey})  
    
    except Exception as e:  
      # The error message has a long stack track. This code tries to print just the relevant line indicating what failed.
    
    import re
    result = re.findall(r"\^\s\*Caused by:\s*\S+:\s\*(.*)\$", e.message, flags=re.MULTILINE)
    if result:
      print result[-1] \# Print only the relevant error message
    else:  
      print e \# Otherwise print the whole stack trace.  
    
  4. Vygenerujte přístupový token Databricks pro službu Data Factory pro přístup k Databricks.

    1. V pracovním prostoru Databricks vyberte ikonu profilu uživatele v pravém horním rohu.
    2. Vyberte Nastavení uživatele. Menu command for user settings
    3. Na kartě Přístupové tokeny vyberte Vygenerovat nový token.
    4. Vyberte Generovat.

    "Generate" button

    Uložte přístupový token pro pozdější použití při vytváření propojené služby Databricks. Přístupový token vypadá nějak takto dapi32db32cbb4w6eee18b7d87e45exxxxxx.

Jak používat tuto šablonu

  1. Přejděte k transformaci pomocí šablony Azure Databricks a vytvořte nové propojené služby pro následující připojení.

    Connections setting

    • Připojení ion zdrojového objektu blob – pro přístup ke zdrojovým datům.

      V tomto cvičení můžete použít veřejné úložiště objektů blob, které obsahuje zdrojové soubory. Pro konfiguraci použijte následující snímek obrazovky. Pomocí následující adresy URL SAS se připojte ke zdrojovému úložišti (přístup jen pro čtení):

      https://storagewithdata.blob.core.windows.net/data?sv=2018-03-28&si=read%20and%20list&sr=c&sig=PuyyS6%2FKdB2JxcZN0kPlmHSBlD8uIKyzhBWmWzznkBw%3D

      Selections for authentication method and SAS URL

    • Cílový objekt blob Připojení ion – pro uložení zkopírovaných dat.

      V okně Nová propojená služba vyberte objekt blob úložiště jímky.

      Sink storage blob as a new linked service

    • Azure Databricks – připojení ke clusteru Databricks

      Vytvořte službu propojenou službou Databricks pomocí přístupového klíče, který jste vygenerovali dříve. Pokud ho máte, můžete zvolit interaktivní cluster . Tento příklad používá možnost Nový cluster úloh.

      Selections for connecting to the cluster

  2. Vyberte Použít tuto šablonu. Zobrazí se vytvořený kanál.

    Create a pipeline

Úvod a konfigurace kanálu

V novém kanálu se většina nastavení konfiguruje automaticky s výchozími hodnotami. Zkontrolujte konfigurace kanálu a proveďte potřebné změny.

  1. V příznaku Dostupnost aktivity ověření ověřte, že je zdrojová hodnota datové sady nastavená na SourceAvailabilityDataset dříve vytvořenou hodnotu.

    Source dataset value

  2. V souboru aktivity kopírování dat do objektu blob zkontrolujte karty Zdroj a Jímka. V případě potřeby změňte nastavení.

    • Karta ZdrojSource tab

    • Karta JímkaSink tab

  3. V transformaci aktivity poznámkového bloku zkontrolujte a podle potřeby aktualizujte cesty a nastavení.

    Propojená služba Databricks by měla být předem vyplněná hodnotou z předchozího kroku, jak je znázorněno na obrázku: Populated value for the Databricks linked service

    Kontrola nastavení poznámkového bloku:

    1. Vyberte kartu Nastavení. V případě cesty poznámkového bloku ověřte správnost výchozí cesty. Možná budete muset procházet a zvolit správnou cestu k poznámkovému bloku.

      Notebook path

    2. Rozbalte selektor základních parametrů a ověřte, že parametry odpovídají tomu, co je znázorněno na následujícím snímku obrazovky. Tyto parametry se předávají do poznámkového bloku Databricks ze služby Data Factory.

      Base parameters

  4. Ověřte, že parametry kanálu odpovídají tomu, co je znázorněno na následujícím snímku obrazovky: Pipeline parameters

  5. Připojení k datovým sadám.

    Poznámka:

    V následujících datových sadách byla cesta k souboru automaticky zadána v šabloně. Pokud se vyžadují nějaké změny, ujistěte se, že jste zadali cestu pro kontejner i adresář pro případ, že dojde k chybě připojení.

    • SourceAvailabilityDataset – zkontrolujte, jestli jsou zdrojová data dostupná.

      Selections for linked service and file path for SourceAvailabilityDataset

    • SourceFilesDataset – pro přístup ke zdrojovým datům.

      Selections for linked service and file path for SourceFilesDataset

    • DestinationFilesDataset – zkopírování dat do cílového umístění jímky Použijte následující hodnoty:

      • Propojená služba - sinkBlob_LS vytvořená v předchozím kroku

      • Cesta k - sinkdata/staged_sink souboru

        Selections for linked service and file path for DestinationFilesDataset

  6. Vyberte Ladit a spusťte kanál. Odkaz na protokoly Databricks najdete pro podrobnější protokoly Sparku.

    Link to Databricks logs from output

    Datový soubor můžete také ověřit pomocí Průzkumník služby Azure Storage.

    Poznámka:

    Pro korelaci s spuštěním kanálu Data Factory tento příklad připojí ID spuštění kanálu z datové továrny do výstupní složky. To pomáhá sledovat soubory vygenerované jednotlivými spuštěními. Appended pipeline run ID