Vytváření clusterů HDInsight pomocí Azure Data Lake Storage Gen1 pomocí webu Azure Portal
Zjistěte, jak pomocí webu Azure Portal vytvořit cluster HDInsight s Azure Data Lake Storage Gen1 jako výchozím úložištěm nebo dalším úložištěm. I když je pro cluster HDInsight volitelné další úložiště, doporučujeme ukládat obchodní data do dalších účtů úložiště.
Předpoklady
Než začnete, ujistěte se, že splňujete následující požadavky:
- Předplatné Azure. Přejděte na Získat bezplatnou zkušební verzi Azure.
- Účet Azure Data Lake Storage Gen1. Postupujte podle pokynů v tématu Začínáme s Azure Data Lake Storage Gen1 pomocí webu Azure Portal. Musíte také vytvořit kořenovou složku v účtu. V tomto článku se používá kořenová složka s názvem /clusters .
- instanční objekt Microsoft Entra. Tento návod obsahuje pokyny k vytvoření instančního objektu v Microsoft Entra ID. Pokud ale chcete vytvořit instanční objekt, musíte být správcem Microsoft Entra. Pokud jste správce, můžete tento požadavek přeskočit a pokračovat.
Poznámka:
Instanční objekt můžete vytvořit jenom v případě, že jste správcem Microsoft Entra. Než budete moct vytvořit cluster HDInsight s Data Lake Storage Gen1, musí správce Microsoft Entra vytvořit instanční objekt. Instanční objekt musí být také vytvořen pomocí certifikátu, jak je popsáno v tématu Vytvoření instančního objektu s certifikátem.
Vytvoření clusteru HDInsight
V této části vytvoříte cluster HDInsight se službou Data Lake Storage Gen1 jako výchozí nebo další úložiště. Tento článek se zaměřuje pouze na část konfigurace Data Lake Storage Gen1. Obecné informace a postupy vytvoření clusteru najdete v tématu Vytváření clusterů Hadoop v HDInsight.
Vytvoření clusteru s Data Lake Storage Gen1 jako výchozím úložištěm
Vytvoření clusteru HDInsight se službou Data Lake Storage Gen1 jako výchozím účtem úložiště:
Přihlaste se k portálu Azure.
Pro obecné informace o vytváření clusterů HDInsight postupujte podle pokynů k vytváření clusterů HDInsight.
V okně Úložiště v části Primární typ úložiště vyberte Azure Data Lake Storage Gen1 a zadejte následující informace:
- Vyberte účet Data Lake Store: Vyberte existující účet Data Lake Storage Gen1. Vyžaduje se existující účet Data Lake Storage Gen1. Viz Požadavky.
- Kořenová cesta: Zadejte cestu, kam se mají ukládat soubory specifické pro cluster. Na snímku obrazovky je to /clusters/myhdiadlcluster/, ve kterém musí existovat složka /clusters , a portál vytvoří složku myhdicluster . Myhdicluster je název clusteru.
- Přístup ke službě Data Lake Store: Nakonfigurujte přístup mezi účtem Data Lake Storage Gen1 a clusterem HDInsight. Pokyny najdete v tématu Konfigurace přístupu k Data Lake Storage Gen1.
- Další účty úložiště: Přidejte účty úložiště Azure jako další účty úložiště pro cluster. Přidání dalších účtů Data Lake Storage Gen1 se provádí tak, že udělíte oprávnění clusteru k datům v dalších účtech Data Lake Storage Gen1 a současně nakonfigurujete účet Data Lake Storage Gen1 jako primární typ úložiště. Viz Konfigurace přístupu ke službě Data Lake Storage Gen1.
V přístupu ke službě Data Lake Store klikněte na vybrat a pokračujte vytvořením clusteru, jak je popsáno v tématu Vytváření clusterů Hadoop v HDInsight.
Vytvoření clusteru s Data Lake Storage Gen1 jako dalším úložištěm
Následující pokyny vytvoří cluster HDInsight s účtem azure Blob Storage jako výchozím úložištěm a účet úložiště s Data Lake Storage Gen1 jako další úložiště.
Vytvoření clusteru HDInsight s Data Lake Storage Gen1 jako dalším účtem úložiště:
Přihlaste se k portálu Azure.
Pro obecné informace o vytváření clusterů HDInsight postupujte podle pokynů k vytváření clusterů HDInsight.
V okně Úložiště v části Primární typ úložiště vyberte Azure Storage a zadejte následující informace:
Metoda výběru – Pokud chcete zadat účet úložiště, který je součástí vašeho předplatného Azure, vyberte Moje předplatná a pak vyberte účet úložiště. Pokud chcete zadat účet úložiště mimo vaše předplatné Azure, vyberte Přístupový klíč a zadejte informace pro vnější účet úložiště.
Výchozí kontejner – Použijte výchozí hodnotu nebo zadejte vlastní název.
Další účty úložiště – Přidejte další účty úložiště Azure jako další úložiště.
Přístup ke službě Data Lake Store – Nakonfigurujte přístup mezi účtem Data Lake Storage Gen1 a clusterem HDInsight. Pokyny najdete v tématu Konfigurace přístupu ke službě Data Lake Storage Gen1.
Konfigurace přístupu ke službě Data Lake Storage Gen1
V této části nakonfigurujete přístup Data Lake Storage Gen1 z clusterů HDInsight pomocí instančního objektu Microsoft Entra.
Zadání instančního objektu
Na webu Azure Portal můžete použít existující instanční objekt nebo vytvořit nový.
Vytvoření instančního objektu z webu Azure Portal:
- Viz Vytvoření instančního objektu a certifikátů pomocí ID Microsoft Entra.
Použití existujícího instančního objektu z webu Azure Portal:
Instanční objekt by měl mít oprávnění vlastníka účtu úložiště. Viz Nastavení oprávnění pro instanční objekt, který má být vlastníkem účtu úložiště.
Vyberte přístup ke službě Data Lake Store.
V okně pro přístup k Data Lake Storage Gen1 vyberte Použít existující.
Vyberte instanční objekt a pak vyberte instanční objekt.
Nahrajte certifikát (soubor .pfx), který je přidružený k vybranému instančnímu objektu, a zadejte heslo certifikátu.
Vyberte Access a nakonfigurujte přístup ke složce. Viz Konfigurace oprávnění k souborům.
Nastavení oprávnění k tomu, aby instanční objekt byl vlastníkem účtu úložiště
- V okně Řízení přístupu (IAM) účtu úložiště klikněte na Přidat přiřazení role.
- V okně Přidat přiřazení role vyberte Roli jako vlastníka a vyberte hlavní název služby (SPN) a klikněte na uložit.
Konfigurace oprávnění k souborům
Konfigurace se liší v závislosti na tom, jestli se účet používá jako výchozí úložiště nebo další účet úložiště:
Používá se jako výchozí úložiště.
- oprávnění na kořenové úrovni účtu Data Lake Storage Gen1
- oprávnění na kořenové úrovni úložiště clusteru HDInsight. Například složka /clusters použitá dříve v kurzu.
Použití jako dalšího úložiště
- Oprávnění ke složkám, ke které potřebujete přístup k souborům.
Přiřazení oprávnění k účtu úložiště s Data Lake Storage Gen1 na kořenové úrovni:
V okně pro přístup k Data Lake Storage Gen1 vyberte Access. Otevře se okno Vybrat oprávnění k souboru. Zobrazí seznam všech účtů úložiště ve vašem předplatném.
Najeďte myší na název účtu s Data Lake Storage Gen1 (neklikáním) a zaškrtněte políčko.
Ve výchozím nastavení jsou vybrány všechny funkce READ, WRITE a EXECUTE .
Klikněte na Vybrat v dolní části stránky.
Výběrem možnosti Spustit přiřaďte oprávnění.
Vyberte Hotovo.
Přiřazení oprávnění na kořenové úrovni clusteru HDInsight:
- V okně pro přístup k Data Lake Storage Gen1 vyberte Access. Otevře se okno Vybrat oprávnění k souboru. Zobrazí seznam všech účtů úložiště s Data Lake Storage Gen1 ve vašem předplatném.
- V okně Vybrat oprávnění k souborům vyberte účet úložiště s názvem Data Lake Storage Gen1 a zobrazte jeho obsah.
- Výběrem zaškrtávacího políčka na levé straně složky vyberte kořen úložiště clusteru HDInsight. Podle předchozího snímku obrazovky je kořen úložiště clusteru složka /clusters , kterou jste zadali při výběru Data Lake Storage Gen1 jako výchozího úložiště.
- Nastavte oprávnění ke složce. Ve výchozím nastavení jsou vybrány všechny operace čtení, zápisu a spouštění.
- Klikněte na Vybrat v dolní části stránky.
- Vyberte Spustit.
- Vyberte Hotovo.
Pokud jako další úložiště používáte Data Lake Storage Gen1, musíte přiřadit oprávnění jenom pro složky, ke kterým chcete získat přístup z clusteru HDInsight. Například na následujícím snímku obrazovky zadáte přístup jenom ke složce mynewfolder v účtu úložiště s Data Lake Storage Gen1.
Ověření nastavení clusteru
Po dokončení nastavení clusteru v okně clusteru ověřte výsledky provedením obou následujících kroků:
Pokud chcete ověřit, že přidružené úložiště pro cluster je účet se zadaným úložištěm Data Lake Storage Gen1, vyberte v levém podokně účty úložiště.
Pokud chcete ověřit, že je instanční objekt správně přidružený ke clusteru HDInsight, vyberte přístup k Data Lake Storage Gen1 v levém podokně.
Příklady
Po nastavení clusteru se službou Data Lake Storage Gen1 jako úložiště se podívejte na tyto příklady použití clusteru HDInsight k analýze dat uložených v Data Lake Storage Gen1.
Spuštění dotazu Hive na data v Data Lake Storage Gen1 (jako primární úložiště)
Ke spuštění dotazu Hive použijte rozhraní zobrazení Hive na portálu Ambari. Pokyny k používání zobrazení Hivu Ambari najdete v tématu Použití zobrazení Hive se systémem Hadoop v HDInsight.
Když pracujete s daty v Data Lake Storage Gen1, je potřeba změnit několik řetězců.
Pokud například použijete cluster, který jste vytvořili s Data Lake Storage Gen1 jako primární úložiště, cesta k datům je: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Dotaz Hive pro vytvoření tabulky z ukázkových dat uložených v Data Lake Storage Gen1 vypadá takto:
CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'
Popisy:
adl://hdiadlsg1storage.azuredatalakestore.net/
je kořen účtu s Data Lake Storage Gen1./clusters/myhdiadlcluster
je kořen dat clusteru, která jste zadali při vytváření clusteru./HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/
je umístění ukázkového souboru, který jste použili v dotazu.
Spuštění dotazu Hive na data v Data Lake Storage Gen1 (jako další úložiště)
Pokud cluster, který jste vytvořili, používá úložiště objektů blob jako výchozí úložiště, ukázková data nejsou obsažená v účtu úložiště s Data Lake Storage Gen1, která se používá jako další úložiště. V takovém případě nejprve přeneste data z úložiště Blob do účtu úložiště pomocí Data Lake Storage Gen1 a pak spusťte dotazy, jak je znázorněno v předchozím příkladu.
Informace o kopírování dat z Úložiště objektů blob do účtu úložiště pomocí Data Lake Storage Gen1 najdete v následujících článcích:
- Kopírování dat mezi Azure Blob Storage a Data Lake Storage Gen1 pomocí Distcp
- Kopírování dat z Úložiště objektů blob v Azure do Data Lake Storage Gen1 pomocí AdlCopy
Použití Data Lake Storage Gen1 s clusterem Spark
Cluster Spark můžete použít ke spouštění úloh Sparku na datech uložených v Data Lake Storage Gen1. Další informace najdete v tématu Použití clusteru HDInsight Spark k analýze dat v Data Lake Storage Gen1.