Použití nástrojů Azure Data Lake pro Visual Studio Code

Důležité

Nové účty Azure Data Lake Analytics už není možné vytvářet, pokud není povolené vaše předplatné. Pokud potřebujete povolit předplatné, kontaktujte podporu a poskytněte svůj obchodní scénář.

Pokud už používáte Azure Data Lake Analytics, budete muset do 29. února 2024 vytvořit plán migrace pro Azure Synapse Analytics pro vaši organizaci.

V tomto článku se dozvíte, jak můžete pomocí Nástroje Azure Data Lake pro Visual Studio Code (VS Code) vytvářet, testovat a spouštět skripty U-SQL. Informace jsou také popsány v následujícím videu:

Videopřehrávač: Nástroje Azure Data Lake pro VS Code

Požadavky

Nástroje Azure Data Lake pro VS Code podporují Windows, Linux a macOS. Místní spuštění U-SQL a místní ladění funguje jenom ve Windows.

Pro macOS a Linux:

Instalace nástrojů Azure Data Lake

Po instalaci požadovaných součástí můžete nainstalovat nástroje Azure Data Lake pro VS Code.

Instalace nástrojů Azure Data Lake

  1. Otevřete Visual Studio Code.

  2. V levém podokně vyberte Rozšíření . Do vyhledávacího pole zadejte Azure Data Lake Tools .

  3. Vyberte Nainstalovat vedle položky Azure Data Lake Tools.

    Výběry pro instalaci nástrojů Data Lake

    Po několika sekundách se tlačítko Nainstalovat změní na Znovu načíst.

  4. Výběrem možnosti Znovu načíst aktivujte rozšíření Azure Data Lake Tools .

  5. Potvrďte to výběrem možnosti Znovu načíst okno . Nástroje Azure Data Lake můžete zobrazit v podokně Rozšíření.

Aktivace nástrojů Azure Data Lake

Vytvořte soubor .usql nebo otevřete existující soubor .usql a aktivujte příponu.

Práce s U-SQL

Pokud chcete pracovat s U-SQL, musíte otevřít buď soubor U-SQL, nebo složku.

Otevření ukázkového skriptu

Otevřete paletu příkazů (Ctrl+Shift+P) a zadejte ADL: Otevřít ukázkový skript. Otevře další instanci této ukázky. V této instanci můžete také upravit, nakonfigurovat a odeslat skript.

Otevření složky pro projekt U-SQL

  1. V editoru Visual Studio Code vyberte nabídku Soubor a pak vyberte Otevřít složku.

  2. Zadejte složku a pak vyberte Vybrat složku.

  3. Vyberte nabídku Soubor a pak vyberte Nový. Do projektu se přidá soubor Untitled-1.

  4. Do souboru Untitled-1 zadejte následující kód:

    @departments  =
        SELECT * FROM
            (VALUES
                (31,    "Sales"),
                (33,    "Engineering"),
                (34,    "Clerical"),
                (35,    "Marketing")
            ) AS
                  D( DepID, DepName );
    

    OUTPUT @departments TO "/Output/departments.csv" USING Outputters.Csv();

    Skript vytvoří soubor departments.csv s některými daty obsaženými ve složce /output.

  5. Uložte soubor jako myUSQL.usql v otevřené složce.

Kompilace skriptu U-SQL

  1. Výběrem kombinace kláves Ctrl+Shift+P otevřete paletu příkazů.
  2. Zadejte ADL: Kompilace skriptu. Výsledky kompilace se zobrazí v okně Výstup . Můžete také kliknout pravým tlačítkem myši na soubor skriptu a pak vybrat ADL: Kompilace skriptu pro kompilaci úlohy U-SQL. Výsledek kompilace se zobrazí v podokně Výstup .

Odeslání skriptu U-SQL

  1. Výběrem kombinace kláves Ctrl+Shift+P otevřete paletu příkazů.
  2. Zadejte ADL: Odeslat úlohu. Můžete také kliknout pravým tlačítkem na soubor skriptu a pak vybrat ADL: Odeslat úlohu.

Po odeslání úlohy U-SQL se protokoly odeslání zobrazí v okně Výstup ve VS Code. Zobrazení úlohy se zobrazí v pravém podokně. Pokud je odeslání úspěšné, zobrazí se také adresa URL úlohy. Adresu URL úlohy můžete otevřít ve webovém prohlížeči a sledovat tak stav úlohy v reálném čase.

Na kartě SOUHRN úlohy můžete zobrazit podrobnosti o úloze. Mezi hlavní funkce patří opětovné odeslání skriptu, duplikování skriptu a otevření na portálu. Na kartě DATA v zobrazení úlohy můžete odkazovat na vstupní soubory, výstupní soubory a soubory prostředků. Soubory je možné stáhnout do místního počítače.

Karta Souhrn v zobrazení úlohy

Karta Data v zobrazení úlohy

Nastavení výchozího kontextu

Výchozí kontext můžete nastavit tak, aby se toto nastavení použilo pro všechny soubory skriptů, pokud jste nenastavili parametry pro soubory jednotlivě.

  1. Výběrem kombinace kláves Ctrl+Shift+P otevřete paletu příkazů.

  2. Zadejte ADL: Nastavit výchozí kontext. Nebo klikněte pravým tlačítkem na editor skriptů a vyberte ADL: Nastavit výchozí kontext.

  3. Zvolte požadovaný účet, databázi a schéma. Nastavení se uloží do konfiguračního souboru xxx_settings.json.

    Účet, databáze a schéma nastavené jako výchozí kontext

Nastavení parametrů skriptu

  1. Výběrem kombinace kláves Ctrl+Shift+P otevřete paletu příkazů.

  2. Zadejte ADL: Nastavení parametrů skriptu.

  3. Soubor xxx_settings.json se otevře s následujícími vlastnostmi:

    • účet: Účet Azure Data Lake Analytics v rámci vašeho předplatného Azure, který je potřeba ke kompilaci a spouštění úloh U-SQL. Před kompilací a spouštěním úloh U-SQL je potřeba nakonfigurovat účet počítače.
    • databáze: Databáze v rámci vašeho účtu. Výchozí hodnota je master.
    • schéma: Schéma v databázi. Výchozí hodnota je dbo.
    • optionalSettings:
      • priorita: Rozsah priorit je od 1 do 1000, přičemž 1 má nejvyšší prioritu. Výchozí hodnota je 1000.
      • degreeOfParallelism: Rozsah paralelismu je od 1 do 150. Výchozí hodnota je maximální paralelismus povolený ve vašem účtu Azure Data Lake Analytics.

    Obsah souboru JSON

Poznámka

Po uložení konfigurace se informace o účtu, databázi a schématu zobrazí na stavovém řádku v levém dolním rohu odpovídajícího souboru .usql, pokud nemáte nastavený výchozí kontext.

Nastavení Git ignore

  1. Výběrem kombinace kláves Ctrl+Shift+P otevřete paletu příkazů.

  2. Zadejte ADL: Nastavte Git Ignore.

    • Pokud v pracovní složce VS Code nemáte soubor .gitIgnore , vytvoří se ve vaší složce soubor s názvem .gitIgnore . Ve výchozím nastavení se do souboru přidají čtyři položky (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache, obj). V případě potřeby můžete provést další aktualizace.
    • Pokud už máte v pracovní složce VS Code soubor .gitIgnore, nástroj přidá do souboru .gitIgnore čtyři položky (usqlCodeBehindReference, usqlCodeBehindGenerated, .cache, obj), pokud tyto čtyři položky nebyly do souboru zahrnuty.

    Položky v souboru .gitIgnore

Práce se soubory kódu na pozadí: C Sharp, Python a R

Azure Data Lake Tools podporuje několik vlastních kódů. Pokyny najdete v tématu Vývoj U-SQL pomocí Pythonu, R a C Sharpu pro Azure Data Lake Analytics ve VS Code.

Práce se sestaveními

Informace o vývoji sestavení najdete v tématu Vývoj sestavení U-SQL pro úlohy Azure Data Lake Analytics.

K registraci sestavení vlastního kódu v katalogu Data Lake Analytics můžete použít nástroje Data Lake.

Registrace sestavení

Sestavení můžete zaregistrovat pomocí příkazu ADL: Register Assembly (Zaregistrovat sestavení) nebo ADL: Register Assembly (Upřesnit).

Registrace pomocí příkazu ADL: Register Assembly (Zaregistrovat sestavení)

  1. Stisknutím kombinace kláves Ctrl+Shift+P otevřete paletu příkazů.
  2. Zadejte ADL: Zaregistrovat sestavení.
  3. Zadejte cestu k místnímu sestavení.
  4. Vyberte účet Data Lake Analytics.
  5. Vyberte databázi.

Portál se otevře v prohlížeči a zobrazí proces registrace sestavení.

Praktičtější způsob, jak aktivovat příkaz ADL: Zaregistrovat sestavení, je kliknout pravým tlačítkem na soubor .dll v Průzkumník souborů.

Registrace pomocí příkazu ADL: Register Assembly (Advanced)

  1. Stisknutím kombinace kláves Ctrl+Shift+P otevřete paletu příkazů.

  2. Zadejte ADL: Register Assembly (Upřesnit).

  3. Zadejte cestu k místnímu sestavení.

  4. Zobrazí se soubor JSON. V případě potřeby zkontrolujte a upravte závislosti sestavení a parametry prostředků. Pokyny se zobrazí v okně Výstup . Pokud chcete pokračovat k registraci sestavení, uložte (Ctrl+S) soubor JSON.

    Soubor JSON se závislostmi sestavení a parametry prostředků

Poznámka

  • Nástroje Azure Data Lake automaticky určí, jestli má knihovna DLL nějaké závislosti sestavení. Závislosti se po zjištění zobrazí v souboru JSON.
  • Prostředky knihovny DLL (například .txt, .png a .csv) můžete nahrát jako součást registrace sestavení.

Dalším způsobem, jak aktivovat příkaz ADL: Register Assembly (Upřesnit), je kliknout pravým tlačítkem na soubor .dll v Průzkumník souborů.

Následující kód U-SQL ukazuje, jak volat sestavení. V ukázce je název sestavení test.

REFERENCE ASSEMBLY [test];
@a =
    EXTRACT
        Iid int,
    Starts DateTime,
    Region string,
    Query string,
    DwellTime int,
    Results string,
    ClickedUrls string
    FROM @"Sample/SearchLog.txt"
    USING Extractors.Tsv();
@d =
    SELECT DISTINCT Region
    FROM @a;
@d1 =
    PROCESS @d
    PRODUCE
        Region string,
    Mkt string
    USING new USQLApplication_codebehind.MyProcessor();
OUTPUT @d1
    TO @"Sample/SearchLogtest.txt"
    USING Outputters.Tsv();

Použití místního spuštění U-SQL a místního ladění pro uživatele Windows

Místní spuštění U-SQL otestuje místní data a ověří váš skript místně před publikováním kódu do Data Lake Analytics. Pomocí funkce místního ladění můžete před odesláním kódu do Data Lake Analytics provést následující úlohy:

  • Ladění kódu na pozadí jazyka C#
  • Krokujte kódem.
  • Ověřte skript místně.

Funkce místního spuštění a místního ladění funguje jenom v prostředích Windows a nepodporuje se v operačních systémech macOS a Linux.

Pokyny k místnímu spuštění a místnímu ladění najdete v tématu Místní spuštění U-SQL a místní ladění pomocí editoru Visual Studio Code.

Připojení k Azure

Než budete moct kompilovat a spouštět skripty U-SQL v Data Lake Analytics, musíte se připojit ke svému účtu Azure.

Připojení k Azure pomocí příkazu

  1. Stisknutím kombinace kláves Ctrl+Shift+P otevřete paletu příkazů.

  2. Zadejte ADL: Přihlášení. Přihlašovací informace se zobrazí v pravém dolním rohu.

    Zadání příkazu pro přihlášení

    Oznámení o přihlášení a ověřování

  3. Výběrem možnosti Kopírovat & otevřít otevřete přihlašovací webovou stránku. Vložte kód do pole a pak vyberte Pokračovat.

    Přihlašovací webová stránka

  4. Podle pokynů se přihlaste z webové stránky. Po připojení se název vašeho účtu Azure zobrazí na stavovém řádku v levém dolním rohu okna VS Code.

Poznámka

  • Data Lake Tools vás příště automaticky přihlásí, pokud se neodhlásíte.
  • Pokud jsou u vašeho účtu povolené dva faktory, doporučujeme místo PIN kódu použít ověřování telefonem.

Pokud se chcete odhlásit, zadejte příkaz ADL: Odhlášení.

Připojení k Azure z průzkumníka

Rozbalte AZURE DATALAKE, vyberte Přihlásit se k Azure a pak postupujte podle kroků 3 a 4 tématu Připojení k Azure pomocí příkazu.

Výběr možnosti Přihlásit se k Azure v průzkumníku

Z průzkumníka se nemůžete odhlásit. Pokud se chcete odhlásit, přečtěte si téma Připojení k Azure pomocí příkazu.

Vytvoření extrakčního skriptu

Skript pro extrakci souborů .csv, .tsv a .txt můžete vytvořit pomocí příkazu ADL: Create EXTRACT Script nebo z průzkumníka Azure Data Lake.

Vytvoření extrakčního skriptu pomocí příkazu

  1. Stisknutím kombinace kláves Ctrl+Shift+P otevřete paletu příkazů a zadejte ADL: Create EXTRACT Script (Vytvořit skript EXTRACT).
  2. Zadejte úplnou cestu k souboru Azure Storage a vyberte klávesu Enter.
  3. Vyberte jeden účet.
  4. Pro .txt soubor vyberte oddělovač, který soubor extrahuje.

Proces vytvoření skriptu pro extrakci

Skript pro extrakci se vygeneruje na základě vašich položek. Pro skript, který nedokáže rozpoznat sloupce, zvolte jednu z těchto dvou možností. Pokud ne, vygeneruje se pouze jeden skript.

Výsledek vytvoření skriptu pro extrakci

Vytvoření skriptu pro extrakci z průzkumníka

Dalším způsobem, jak vytvořit skript pro extrakci, je místní nabídka na .csv, .tsv nebo soubor .txt ve službě Azure Data Lake Store nebo Azure Blob Storage.

Příkaz Create EXTRACT Script (Vytvořit skript EXTRACT) z místní nabídky

Další kroky