Vytvoření clusteru HDInsight s Azure Data Lake Storage Gen1 pomocí šablony Azure Resource Manager

Článek
05/29/2018

Zjistěte, jak pomocí Azure PowerShell nakonfigurovat cluster HDInsight s Azure Data Lake Storage Gen1 jako dodatečné úložiště.

U podporovaných typů clusterů je možné Data Lake Storage Gen1 použít jako výchozí úložiště nebo jako další účet úložiště. Při použití Data Lake Storage Gen1 jako dalšího úložiště bude výchozím účtem úložiště pro clustery stále Azure Blob Storage (WASB) a soubory související s clusterem (například protokoly atd.) se pořád zapisují do výchozího úložiště, zatímco data, která chcete zpracovat, se můžou ukládat do Data Lake Storage Gen1 účtu. Použití Data Lake Storage Gen1 jako dalšího účtu úložiště nemá vliv na výkon ani na schopnost číst a zapisovat do úložiště z clusteru.

Použití Data Lake Storage Gen1 pro úložiště clusteru HDInsight

Tady jsou některé důležité informace o používání SLUŽBY HDInsight s Data Lake Storage Gen1:

Možnost vytvořit clustery HDInsight s přístupem k Data Lake Storage Gen1, protože výchozí úložiště je k dispozici pro HDInsight verze 3.5 a 3.6.
Možnost vytvořit clustery HDInsight s přístupem k Data Lake Storage Gen1, protože pro HDInsight verze 3.2, 3.4, 3.5 a 3.6 je k dispozici další úložiště.

V tomto článku zřídíme cluster Hadoop s Data Lake Storage Gen1 jako další úložiště. Pokyny k vytvoření clusteru Hadoop s Data Lake Storage Gen1 jako výchozím úložištěm najdete v tématu Vytvoření clusteru HDInsight s Data Lake Storage Gen1 pomocí Azure Portal.

Požadavky

Poznámka

Při práci s Azure doporučujeme používat modul Azure Az PowerShellu. Začněte tím, že si projdete téma Instalace Azure PowerShellu. Informace o tom, jak migrovat na modul Az PowerShell, najdete v tématu Migrace Azure PowerShellu z AzureRM na Az.

Je nutné, abyste před zahájením tohoto kurzu měli tyto položky:

Předplatné Azure. Viz Získání bezplatné zkušební verze Azure.
Azure PowerShell 1.0 nebo vyšší. Viz téma Instalace a konfigurace prostředí Azure PowerShell.
Microsoft Entra instančního objektu. Kroky v tomto kurzu obsahují pokyny k vytvoření instančního objektu v Microsoft Entra ID. Abyste však mohli vytvořit instanční objekt, musíte být správcem Microsoft Entra. Pokud jste správcem Microsoft Entra, můžete tuto podmínku přeskočit a pokračovat v kurzu.

Pokud nejste správcem Microsoft Entra, nebudete moct provést kroky potřebné k vytvoření instančního objektu. V takovém případě musí správce Microsoft Entra nejprve vytvořit instanční objekt, abyste mohli vytvořit cluster HDInsight s Data Lake Storage Gen1. Instanční objekt musí být také vytvořen pomocí certifikátu, jak je popsáno v tématu Vytvoření instančního objektu s certifikátem.

Vytvoření clusteru HDInsight pomocí Data Lake Storage Gen1

Šablona Resource Manager a požadavky pro použití této šablony jsou k dispozici na GitHubu v tématu Nasazení clusteru HDInsight Linux s novými Data Lake Storage Gen1. Postupujte podle pokynů uvedených na tomto odkazu a vytvořte cluster HDInsight s Data Lake Storage Gen1 jako dalším úložištěm.

Pokyny na výše uvedeném odkazu vyžadují PowerShell. Než začnete s těmito pokyny, ujistěte se, že se přihlašujete ke svému účtu Azure. Na ploše otevřete nové okno Azure PowerShell a zadejte následující fragmenty kódu. Po zobrazení výzvy k přihlášení se ujistěte, že se přihlašujete jako jeden ze správců nebo vlastníka předplatného:

# Log in to your Azure account
Connect-AzAccount

# List all the subscriptions associated to your account
Get-AzSubscription

# Select a subscription
Set-AzContext -SubscriptionId <subscription ID>

Šablona nasadí tyto typy prostředků:

Nahrání ukázkových dat do Data Lake Storage Gen1

Šablona Resource Manager vytvoří nový účet úložiště s Data Lake Storage Gen1 a přidruží ho ke clusteru HDInsight. Teď musíte nahrát ukázková data do Data Lake Storage Gen1. Tato data budete později v tomto kurzu potřebovat ke spouštění úloh z clusteru HDInsight, které přistupují k datům v účtu úložiště pomocí Data Lake Storage Gen1. Pokyny k nahrání dat najdete v tématu Nahrání souboru do Data Lake Storage Gen1. Pokud hledáte ukázková data, která byste mohli nahrát, můžete použít složku Ambulance Data z úložiště Git Azure Data Lake.

Nastavení relevantních seznamů ACL pro ukázková data

Abyste měli jistotu, že jsou ukázková data, která nahráváte, přístupná z clusteru HDInsight, musíte zajistit, aby Microsoft Entra aplikace, která slouží k vytvoření identity mezi clusterem HDInsight a Data Lake Storage Gen1, měl přístup k souboru nebo složce, ke které se pokoušíte získat přístup. Chcete-li to provést, proveďte následující kroky.

Vyhledejte název aplikace Microsoft Entra, která je přidružená ke clusteru HDInsight, a účet úložiště s Data Lake Storage Gen1. Jedním ze způsobů, jak vyhledat název, je otevřít okno clusteru HDInsight, které jste vytvořili pomocí šablony Resource Manager, kliknout na kartu Cluster Microsoft Entra identita a vyhledat hodnotu Zobrazovaný název instančního objektu.
Nyní poskytněte přístup k této aplikaci Microsoft Entra k souboru nebo složce, ke kterým chcete získat přístup z clusteru HDInsight. Informace o nastavení správných seznamů ACL pro soubor nebo složku v Data Lake Storage Gen1 najdete v tématu Zabezpečení dat v Data Lake Storage Gen1.

Spuštění testovacích úloh v clusteru HDInsight pro použití Data Lake Storage Gen1

Po nakonfigurování clusteru HDInsight můžete v clusteru spustit testovací úlohy a otestovat, že cluster HDInsight má přístup k Data Lake Storage Gen1. Za tímto účelem spustíme ukázkovou úlohu Hive, která vytvoří tabulku s využitím ukázkových dat, která jste dříve nahráli do svého účtu úložiště pomocí Data Lake Storage Gen1.

V této části SSH přejdete do clusteru HDInsight s Linuxem a spustíte ukázkový dotaz Hive. Pokud používáte klienta windows, doporučujeme použít PuTTY, který si můžete stáhnout z .https://www.chiark.greenend.org.uk/~sgtatham/putty/download.html

Další informace o používání PuTTY najdete v tématu Použití SSH se systémem Linux Hadoop ve službě HDInsight z Windows.

Po připojení spusťte rozhraní příkazového řádku Hive pomocí následujícího příkazu:
```
hive
```

Pomocí rozhraní příkazového řádku zadejte následující příkazy pro vytvoření nové tabulky s názvem vehicles pomocí ukázkových dat v Data Lake Storage Gen1:

DROP TABLE vehicles;
CREATE EXTERNAL TABLE vehicles (str string) LOCATION 'adl://<mydatalakestoragegen1>.azuredatalakestore.net:443/';
SELECT * FROM vehicles LIMIT 10;

Zobrazený výstup by měl vypadat přibližně takto:

1,1,2014-09-14 00:00:03,46.81006,-92.08174,51,S,1
1,2,2014-09-14 00:00:06,46.81006,-92.08174,13,NE,1
1,3,2014-09-14 00:00:09,46.81006,-92.08174,48,NE,1
1,4,2014-09-14 00:00:12,46.81006,-92.08174,30,W,1
1,5,2014-09-14 00:00:15,46.81006,-92.08174,47,S,1
1,6,2014-09-14 00:00:18,46.81006,-92.08174,9,S,1
1,7,2014-09-14 00:00:21,46.81006,-92.08174,53,N,1
1,8,2014-09-14 00:00:24,46.81006,-92.08174,63,SW,1
1,9,2014-09-14 00:00:27,46.81006,-92.08174,4,NE,1
1,10,2014-09-14 00:00:30,46.81006,-92.08174,31,N,1

Přístup k Data Lake Storage Gen1 pomocí příkazů HDFS

Jakmile nakonfigurujete cluster HDInsight tak, aby používal Data Lake Storage Gen1, můžete k přístupu k úložišti použít příkazy prostředí HDFS.

V této části SSH přejdete do clusteru HDInsight s Linuxem a spustíte příkazy HDFS. Pokud používáte klienta windows, doporučujeme použít PuTTY, který si můžete stáhnout z .https://www.chiark.greenend.org.uk/~sgtatham/putty/download.html

Další informace o používání PuTTY najdete v tématu Použití SSH se systémem Linux Hadoop ve službě HDInsight z Windows.

Po připojení použijte následující příkaz systému souborů HDFS k výpisu souborů v účtu úložiště s Data Lake Storage Gen1.

hdfs dfs -ls adl://<storage account with Data Lake Storage Gen1 name>.azuredatalakestore.net:443/

Měl by obsahovat soubor, který jste dříve nahráli do Data Lake Storage Gen1.

15/09/17 21:41:15 INFO web.CaboWebHdfsFileSystem: Replacing original urlConnectionFactory with org.apache.hadoop.hdfs.web.URLConnectionFactory@21a728d6
Found 1 items
-rwxrwxrwx   0 NotSupportYet NotSupportYet     671388 2015-09-16 22:16 adl://mydatalakestoragegen1.azuredatalakestore.net:443/mynewfolder

Pomocí příkazu můžete také hdfs dfs -put nahrát některé soubory do Data Lake Storage Gen1 a pak pomocí příkazu hdfs dfs -ls ověřit, jestli se soubory úspěšně nahrály.