Een cluster maken met Data Lake Storage Gen2 met behulp van Azure CLI
Als u een HDInsight-cluster wilt maken dat gebruikmaakt van Data Lake Storage Gen2 voor opslag, volgt u deze stappen.
Vereisten
- Als u niet bekend bent met Azure Data Lake Storage Gen2, raadpleegt u de overzichtssectie.
- Als u nog geen Azure-account hebt, registreer u dan voor een gratis account voordat u verdergaat.
- Als u de CLI-scriptvoorbeelden wilt uitvoeren, hebt u drie opties:
- Gebruik Azure Cloud Shell vanaf Azure Portal (zie volgende sectie).
- Gebruik de ingesloten Azure Cloud Shell via de knop 'Nu proberen' in de rechterbovenhoek van elk codeblok.
- Installeer de nieuwste versie van de Azure CLI (2.0.13 of later) als u liever een lokale CLI-console gebruikt. Meld u aan bij Azure met behulp van
az login
een account dat is gekoppeld aan het Azure-abonnement waaronder u de door de gebruiker toegewezen beheerde identiteit wilt implementeren. Azure CLI.
Azure Cloud Shell
Azure host Azure Cloud Shell, een interactieve shell-omgeving die u via uw browser kunt gebruiken. U kunt Bash of PowerShell gebruiken met Cloud Shell om met Azure-services te werken. U kunt de vooraf geïnstalleerde Cloud Shell-opdrachten gebruiken om de code in dit artikel uit te voeren zonder dat u iets hoeft te installeren in uw lokale omgeving.
Om Azure Cloud Shell op te starten:
Optie | Voorbeeld/koppeling |
---|---|
Selecteer Uitproberen in de rechterbovenhoek van een code- of opdrachtblok. Als u Try It selecteert, wordt de code of opdracht niet automatisch gekopieerd naar Cloud Shell. | |
Ga naar https://shell.azure.com, of selecteer de knop Cloud Shell starten om Cloud Shell in uw browser te openen. | |
Klik op de knop Cloud Shell in het menu in de balk rechtsboven in de Azure-portal. |
Azure Cloud Shell gebruiken:
Start Cloud Shell.
Selecteer de knop Kopiëren op een codeblok (of opdrachtblok) om de code of opdracht te kopiëren.
Plak de code of opdracht in de Cloud Shell-sessie door Ctrl+Shift+V in Windows en Linux te selecteren of door Cmd+Shift+V te selecteren in macOS.
Selecteer Enter om de code of opdracht uit te voeren.
Waarschuwing
HDInsight-clusters worden pro rato per minuut gefactureerd, ongeacht of u er wel of niet gebruik van maakt. Verwijder uw cluster daarom als u er klaar mee bent. Zie how to delete an HDInsight cluster (een HDInsight-cluster verwijderen).
U kunt een voorbeeldsjabloonbestand downloaden en een voorbeeldparametersbestand downloaden. Voordat u de sjabloon en het onderstaande Azure CLI-codefragment gebruikt, vervangt u de volgende tijdelijke aanduidingen door de juiste waarden:
Plaatsaanduiding | Beschrijving |
---|---|
<SUBSCRIPTION_ID> |
De id van uw Azure-abonnement |
<RESOURCEGROUPNAME> |
De resourcegroep waar u het nieuwe cluster en opslagaccount wilt maken. |
<MANAGEDIDENTITYNAME> |
De naam van de beheerde identiteit die machtigingen krijgt voor uw opslagaccount met Azure Data Lake Storage Gen2. |
<STORAGEACCOUNTNAME> |
Het nieuwe opslagaccount met Azure Data Lake Storage Gen2 dat wordt gemaakt. |
<FILESYSTEMNAME> |
De naam van het bestandssysteem dat dit cluster moet gebruiken in het opslagaccount. |
<CLUSTERNAME> |
De naam van uw HDInsight-cluster. |
<PASSWORD> |
Het gekozen wachtwoord voor het aanmelden bij het cluster met behulp van SSH en het Ambari-dashboard. |
In het onderstaande codefragment worden de volgende eerste stappen uitgevoerd:
- Meldt u aan bij uw Azure-account.
- Hiermee stelt u het actieve abonnement in waar de gemaakte bewerkingen worden uitgevoerd.
- Hiermee maakt u een nieuwe resourcegroep voor de nieuwe implementatieactiviteiten.
- Hiermee maakt u een door de gebruiker toegewezen beheerde identiteit.
- Hiermee voegt u een extensie toe aan de Azure CLI om functies voor Data Lake Storage Gen2 te gebruiken.
- Hiermee maakt u een nieuw opslagaccount met Data Lake Storage Gen2 met behulp van de
--hierarchical-namespace true
vlag.
az login
az account set --subscription <SUBSCRIPTION_ID>
# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus
# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>
az extension add --name storage-preview
az storage account create --name <STORAGEACCOUNTNAME> \
--resource-group <RESOURCEGROUPNAME> \
--location eastus --sku Standard_LRS \
--kind StorageV2 --hierarchical-namespace true
Meld u vervolgens aan bij de portal. Voeg de nieuwe door de gebruiker toegewezen beheerde identiteit toe aan de rol Eigenaar van opslagblobgegevens in het opslagaccount. Deze stap wordt beschreven in stap 3 onder Azure Portal.
Belangrijk
Zorg ervoor dat uw opslagaccount de door de gebruiker toegewezen identiteit heeft met de rolmachtigingen van de eigenaar van opslagblobgegevens, anders mislukt het maken van het cluster.
az deployment group create --name HDInsightADLSGen2Deployment \
--resource-group <RESOURCEGROUPNAME> \
--template-file hdinsight-adls-gen2-template.json \
--parameters parameters.json
Resources opschonen
Nadat u het artikel hebt voltooid, kunt u het cluster verwijderen. Met HDInsight worden uw gegevens opgeslagen in Azure Storage zodat u een cluster veilig kunt verwijderen wanneer deze niet wordt gebruikt. Voor een HDInsight-cluster worden ook kosten in rekening gebracht, zelfs wanneer het niet wordt gebruikt. Aangezien de kosten voor het cluster vaak zoveel hoger zijn dan de kosten voor opslag, is het financieel gezien logischer clusters te verwijderen wanneer ze niet worden gebruikt.
Voer alle of enkele van de volgende opdrachten in om resources te verwijderen:
# Remove cluster
az hdinsight delete \
--name $clusterName \
--resource-group $resourceGroupName
# Remove storage container
az storage container delete \
--account-name $AZURE_STORAGE_ACCOUNT \
--name $AZURE_STORAGE_CONTAINER
# Remove storage account
az storage account delete \
--name $AZURE_STORAGE_ACCOUNT \
--resource-group $resourceGroupName
# Remove resource group
az group delete \
--name $resourceGroupName
Problemen oplossen
Zie Vereisten voor toegangsbeheer als u problemen ondervindt met het maken van HDInsight-clusters.
Volgende stappen
U hebt een HDInsight-cluster gemaakt. Nu leert u hoe u met uw cluster kunt werken.
Apache Spark-clusters
- HDInsight-clusters op basis van Linux aanpassen met behulp van scriptacties
- Een zelfstandige toepassing maken met behulp van Scala
- Apache Livy gebruiken om taken op afstand uit te voeren in een Apache Spark-cluster
- Apache Spark met BI: Interactieve gegevensanalyse uitvoeren met Spark in HDInsight met BI-hulpprogramma's
- Apache Spark met Machine Learning: Spark in HDInsight gebruiken om resultaten van voedselinspectie te voorspellen