Vytváření clusterů HDInsight pomocí Azure Data Lake Storage Gen1 pomocí webu Azure Portal

Zjistěte, jak pomocí webu Azure Portal vytvořit cluster HDInsight s Azure Data Lake Storage Gen1 jako výchozím úložištěm nebo dalším úložištěm. I když je pro cluster HDInsight volitelné další úložiště, doporučujeme ukládat obchodní data do dalších účtů úložiště.

Předpoklady

Než začnete, ujistěte se, že splňujete následující požadavky:

  • Předplatné Azure. Přejděte na Získat bezplatnou zkušební verzi Azure.
  • Účet Azure Data Lake Storage Gen1. Postupujte podle pokynů v tématu Začínáme s Azure Data Lake Storage Gen1 pomocí webu Azure Portal. Musíte také vytvořit kořenovou složku v účtu. V tomto článku se používá kořenová složka s názvem /clusters .
  • instanční objekt Microsoft Entra. Tento návod obsahuje pokyny k vytvoření instančního objektu v Microsoft Entra ID. Pokud ale chcete vytvořit instanční objekt, musíte být správcem Microsoft Entra. Pokud jste správce, můžete tento požadavek přeskočit a pokračovat.

Poznámka:

Instanční objekt můžete vytvořit jenom v případě, že jste správcem Microsoft Entra. Než budete moct vytvořit cluster HDInsight s Data Lake Storage Gen1, musí správce Microsoft Entra vytvořit instanční objekt. Instanční objekt musí být také vytvořen pomocí certifikátu, jak je popsáno v tématu Vytvoření instančního objektu s certifikátem.

Vytvoření clusteru HDInsight

V této části vytvoříte cluster HDInsight se službou Data Lake Storage Gen1 jako výchozí nebo další úložiště. Tento článek se zaměřuje pouze na část konfigurace Data Lake Storage Gen1. Obecné informace a postupy vytvoření clusteru najdete v tématu Vytváření clusterů Hadoop v HDInsight.

Vytvoření clusteru s Data Lake Storage Gen1 jako výchozím úložištěm

Vytvoření clusteru HDInsight se službou Data Lake Storage Gen1 jako výchozím účtem úložiště:

  1. Přihlaste se k portálu Azure.

  2. Pro obecné informace o vytváření clusterů HDInsight postupujte podle pokynů k vytváření clusterů HDInsight.

  3. V okně Úložiště v části Primární typ úložiště vyberte Azure Data Lake Storage Gen1 a zadejte následující informace:

    HDInsight storage account settings

    • Vyberte účet Data Lake Store: Vyberte existující účet Data Lake Storage Gen1. Vyžaduje se existující účet Data Lake Storage Gen1. Viz Požadavky.
    • Kořenová cesta: Zadejte cestu, kam se mají ukládat soubory specifické pro cluster. Na snímku obrazovky je to /clusters/myhdiadlcluster/, ve kterém musí existovat složka /clusters , a portál vytvoří složku myhdicluster . Myhdicluster je název clusteru.
    • Přístup ke službě Data Lake Store: Nakonfigurujte přístup mezi účtem Data Lake Storage Gen1 a clusterem HDInsight. Pokyny najdete v tématu Konfigurace přístupu k Data Lake Storage Gen1.
    • Další účty úložiště: Přidejte účty úložiště Azure jako další účty úložiště pro cluster. Přidání dalších účtů Data Lake Storage Gen1 se provádí tak, že udělíte oprávnění clusteru k datům v dalších účtech Data Lake Storage Gen1 a současně nakonfigurujete účet Data Lake Storage Gen1 jako primární typ úložiště. Viz Konfigurace přístupu ke službě Data Lake Storage Gen1.
  4. V přístupu ke službě Data Lake Store klikněte na vybrat a pokračujte vytvořením clusteru, jak je popsáno v tématu Vytváření clusterů Hadoop v HDInsight.

Vytvoření clusteru s Data Lake Storage Gen1 jako dalším úložištěm

Následující pokyny vytvoří cluster HDInsight s účtem azure Blob Storage jako výchozím úložištěm a účet úložiště s Data Lake Storage Gen1 jako další úložiště.

Vytvoření clusteru HDInsight s Data Lake Storage Gen1 jako dalším účtem úložiště:

  1. Přihlaste se k portálu Azure.

  2. Pro obecné informace o vytváření clusterů HDInsight postupujte podle pokynů k vytváření clusterů HDInsight.

  3. V okně Úložiště v části Primární typ úložiště vyberte Azure Storage a zadejte následující informace:

    HDInsight storage account settings additional storage

    • Metoda výběru – Pokud chcete zadat účet úložiště, který je součástí vašeho předplatného Azure, vyberte Moje předplatná a pak vyberte účet úložiště. Pokud chcete zadat účet úložiště mimo vaše předplatné Azure, vyberte Přístupový klíč a zadejte informace pro vnější účet úložiště.

    • Výchozí kontejner – Použijte výchozí hodnotu nebo zadejte vlastní název.

    • Další účty úložiště – Přidejte další účty úložiště Azure jako další úložiště.

    • Přístup ke službě Data Lake Store – Nakonfigurujte přístup mezi účtem Data Lake Storage Gen1 a clusterem HDInsight. Pokyny najdete v tématu Konfigurace přístupu ke službě Data Lake Storage Gen1.

Konfigurace přístupu ke službě Data Lake Storage Gen1

V této části nakonfigurujete přístup Data Lake Storage Gen1 z clusterů HDInsight pomocí instančního objektu Microsoft Entra.

Zadání instančního objektu

Na webu Azure Portal můžete použít existující instanční objekt nebo vytvořit nový.

Vytvoření instančního objektu z webu Azure Portal:

  1. Viz Vytvoření instančního objektu a certifikátů pomocí ID Microsoft Entra.

Použití existujícího instančního objektu z webu Azure Portal:

  1. Instanční objekt by měl mít oprávnění vlastníka účtu úložiště. Viz Nastavení oprávnění pro instanční objekt, který má být vlastníkem účtu úložiště.

  2. Vyberte přístup ke službě Data Lake Store.

  3. V okně pro přístup k Data Lake Storage Gen1 vyberte Použít existující.

  4. Vyberte instanční objekt a pak vyberte instanční objekt.

  5. Nahrajte certifikát (soubor .pfx), který je přidružený k vybranému instančnímu objektu, a zadejte heslo certifikátu.

    Add service principal to HDInsight cluster

  6. Vyberte Access a nakonfigurujte přístup ke složce. Viz Konfigurace oprávnění k souborům.

Nastavení oprávnění k tomu, aby instanční objekt byl vlastníkem účtu úložiště

  1. V okně Řízení přístupu (IAM) účtu úložiště klikněte na Přidat přiřazení role.
  2. V okně Přidat přiřazení role vyberte Roli jako vlastníka a vyberte hlavní název služby (SPN) a klikněte na uložit.

Konfigurace oprávnění k souborům

Konfigurace se liší v závislosti na tom, jestli se účet používá jako výchozí úložiště nebo další účet úložiště:

  • Používá se jako výchozí úložiště.

    • oprávnění na kořenové úrovni účtu Data Lake Storage Gen1
    • oprávnění na kořenové úrovni úložiště clusteru HDInsight. Například složka /clusters použitá dříve v kurzu.
  • Použití jako dalšího úložiště

    • Oprávnění ke složkám, ke které potřebujete přístup k souborům.

Přiřazení oprávnění k účtu úložiště s Data Lake Storage Gen1 na kořenové úrovni:

  1. V okně pro přístup k Data Lake Storage Gen1 vyberte Access. Otevře se okno Vybrat oprávnění k souboru. Zobrazí seznam všech účtů úložiště ve vašem předplatném.

  2. Najeďte myší na název účtu s Data Lake Storage Gen1 (neklikáním) a zaškrtněte políčko.

    Select file permissions

    Ve výchozím nastavení jsou vybrány všechny funkce READ, WRITE a EXECUTE .

  3. Klikněte na Vybrat v dolní části stránky.

  4. Výběrem možnosti Spustit přiřaďte oprávnění.

  5. Vyberte Hotovo.

Přiřazení oprávnění na kořenové úrovni clusteru HDInsight:

  1. V okně pro přístup k Data Lake Storage Gen1 vyberte Access. Otevře se okno Vybrat oprávnění k souboru. Zobrazí seznam všech účtů úložiště s Data Lake Storage Gen1 ve vašem předplatném.
  2. V okně Vybrat oprávnění k souborům vyberte účet úložiště s názvem Data Lake Storage Gen1 a zobrazte jeho obsah.
  3. Výběrem zaškrtávacího políčka na levé straně složky vyberte kořen úložiště clusteru HDInsight. Podle předchozího snímku obrazovky je kořen úložiště clusteru složka /clusters , kterou jste zadali při výběru Data Lake Storage Gen1 jako výchozího úložiště.
  4. Nastavte oprávnění ke složce. Ve výchozím nastavení jsou vybrány všechny operace čtení, zápisu a spouštění.
  5. Klikněte na Vybrat v dolní části stránky.
  6. Vyberte Spustit.
  7. Vyberte Hotovo.

Pokud jako další úložiště používáte Data Lake Storage Gen1, musíte přiřadit oprávnění jenom pro složky, ke kterým chcete získat přístup z clusteru HDInsight. Například na následujícím snímku obrazovky zadáte přístup jenom ke složce mynewfolder v účtu úložiště s Data Lake Storage Gen1.

Assign service principal permissions to the HDInsight cluster

Ověření nastavení clusteru

Po dokončení nastavení clusteru v okně clusteru ověřte výsledky provedením obou následujících kroků:

  • Pokud chcete ověřit, že přidružené úložiště pro cluster je účet se zadaným úložištěm Data Lake Storage Gen1, vyberte v levém podokně účty úložiště.

    Verify associated storage

  • Pokud chcete ověřit, že je instanční objekt správně přidružený ke clusteru HDInsight, vyberte přístup k Data Lake Storage Gen1 v levém podokně.

    Verify service principal

Příklady

Po nastavení clusteru se službou Data Lake Storage Gen1 jako úložiště se podívejte na tyto příklady použití clusteru HDInsight k analýze dat uložených v Data Lake Storage Gen1.

Spuštění dotazu Hive na data v Data Lake Storage Gen1 (jako primární úložiště)

Ke spuštění dotazu Hive použijte rozhraní zobrazení Hive na portálu Ambari. Pokyny k používání zobrazení Hivu Ambari najdete v tématu Použití zobrazení Hive se systémem Hadoop v HDInsight.

Když pracujete s daty v Data Lake Storage Gen1, je potřeba změnit několik řetězců.

Pokud například použijete cluster, který jste vytvořili s Data Lake Storage Gen1 jako primární úložiště, cesta k datům je: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Dotaz Hive pro vytvoření tabulky z ukázkových dat uložených v Data Lake Storage Gen1 vypadá takto:

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Popisy:

  • adl://hdiadlsg1storage.azuredatalakestore.net/ je kořen účtu s Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster je kořen dat clusteru, která jste zadali při vytváření clusteru.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ je umístění ukázkového souboru, který jste použili v dotazu.

Spuštění dotazu Hive na data v Data Lake Storage Gen1 (jako další úložiště)

Pokud cluster, který jste vytvořili, používá úložiště objektů blob jako výchozí úložiště, ukázková data nejsou obsažená v účtu úložiště s Data Lake Storage Gen1, která se používá jako další úložiště. V takovém případě nejprve přeneste data z úložiště Blob do účtu úložiště pomocí Data Lake Storage Gen1 a pak spusťte dotazy, jak je znázorněno v předchozím příkladu.

Informace o kopírování dat z Úložiště objektů blob do účtu úložiště pomocí Data Lake Storage Gen1 najdete v následujících článcích:

Použití Data Lake Storage Gen1 s clusterem Spark

Cluster Spark můžete použít ke spouštění úloh Sparku na datech uložených v Data Lake Storage Gen1. Další informace najdete v tématu Použití clusteru HDInsight Spark k analýze dat v Data Lake Storage Gen1.

Použití Data Lake Storage Gen1 v topologii Stormu

Viz také