Integrace OneLake se službou Azure HDInsight

Azure HDInsight je spravovaná cloudová služba pro analýzu velkých objemů dat, která organizacím pomáhá zpracovávat velké objemy dat. V tomto kurzu se dozvíte, jak se připojit k OneLake pomocí poznámkového bloku Jupyter z clusteru Azure HDInsight.

Použití Služby Azure HDInsight

Připojení k OneLake pomocí poznámkového bloku Jupyter z clusteru HDInsight:

  1. Vytvořte cluster HDInsight (HDI) Spark. Postupujte podle těchto pokynů: Nastavte clustery ve službě HDInsight.

    1. Při poskytování informací o clusteru si zapamatujte uživatelské jméno a heslo pro přihlášení ke clusteru, protože je budete potřebovat pro pozdější přístup ke clusteru.

    2. Vytvořte spravovanou identitu přiřazenou uživatelem (UAMI): Vytvořte pro Azure HDInsight – UAMI a zvolte ji jako identitu na obrazovce Úložiště .

      Snímek obrazovky znázorňující, kde zadat spravovanou identitu přiřazenou uživatelem na obrazovce Úložiště

  2. Dejte tomuto nástroji UAMI přístup k pracovnímu prostoru Fabric, který obsahuje vaše položky. Nápovědu k rozhodování o tom, jaká role je nejlepší, najdete v tématu Role pracovního prostoru.

    Snímek obrazovky znázorňující, kde vybrat položku na panelu Správa přístupu

  3. Přejděte do svého jezera a najděte název vašeho pracovního prostoru a jezerahouse. Najdete je v adrese URL vašeho jezera nebo v podokně Vlastnosti souboru.

  4. Na webu Azure Portal vyhledejte cluster a vyberte poznámkový blok.

    Snímek obrazovky znázorňující, kde najdete cluster a poznámkový blok na webu Azure Portal

  5. Zadejte informace o přihlašovacích údaji, které jste zadali při vytváření clusteru.

    Snímek obrazovky znázorňující, kde zadat informace o přihlašovacích údaji

  6. Vytvořte nový poznámkový blok Sparku.

  7. Zkopírujte názvy pracovních prostorů a lakehouse do poznámkového bloku a sestavte adresu URL OneLake pro váš lakehouse. Teď můžete číst jakýkoli soubor z této cesty k souboru.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Zkuste do jezera zapsat nějaká data.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Otestujte, jestli se data úspěšně zapisovala, a to tak, že zkontrolujete lakehouse nebo si přečtete nově načtený soubor.

Teď můžete číst a zapisovat data v OneLake pomocí poznámkového bloku Jupyter v clusteru HDI Spark.