Einrichten eines Labs für Big Data-Analysen in Azure Lab Services mithilfe der Docker-Bereitstellung von HortonWorks Data Platform

Hinweis

Dieser Artikel bezieht sich auf Features, die in Labkonten verfügbar sind, welche durch Labpläne ersetzt wurden.

Erfahren Sie, wie Sie für einen Kurs ein Lab zum Lehren von Big Data-Analysen einrichten. Ein Kurs für Big Data-Analysen lehrt Benutzer, wie sie große Datenmengen verarbeiten. Außerdem lernen sie, maschinelle und statistische Lernalgorithmen anzuwenden, um Dateneinblicke abzuleiten. Ein wichtiges Ziel ist es, den Umgang mit Datenanalysetools wie beispielsweise dem Open-Source-Softwarepaket von Apache Hadoop zu erlernen. Das Softwarepaket bietet Tools zum Speichern, Verwalten und Verarbeiten von Big Data.

In diesem Lab arbeiten Lab-Benutzer mit einer beliebten kommerziellen Version von Hadoop mit dem Namen Hortonworks Data Platform (HDP), die von Cloudera bereitgestellt wird. Lab-Benutzer werden insbesondere HDP Sandbox 3.0.1 verwenden, das eine vereinfachte, einfach zu verwendende Version der Plattform ist. HDP Sandbox 3.0.1 ist außerdem kostenlos zu verwenden und ist für das Lernen und Experimentieren gedacht. Dieser Kurs könnte allerdings entweder Windows- oder Linux-VMs (virtuelle Computer) mit bereitgestellter HDP Sandbox verwenden. Dieser Artikel zeigt Ihnen, wie Sie Windows verwenden.

Ein weiterer interessanter Aspekt ist, dass Sie die HDP Sandbox auf den Lab-VMs unter Verwendung von Docker-Containern bereitstellen. Jeder Docker-Container bietet eine eigene isolierte Umgebung, in der Softwareanwendungen ausgeführt werden können. Vom Konzept her sind Docker-Container wie geschachtelte VMs und können zur einfachen Bereitstellung und Ausführung einer Vielzahl von Softwareanwendungen verwendet werden, die auf Containerimages basieren, die auf Docker Hub angeboten werden. Das Bereitstellungsskript von Cloudera für HDP Sandbox ruft automatisch per Pull das Docker-Image von HDP Sandbox 3.0.1 vom Docker Hub ab und führt zwei Docker-Container aus:

  • sandbox-hdp
  • sandbox-proxy

Voraussetzungen

Zum Einrichten dieses Labs müssen Sie auf ein Azure-Abonnement zugreifen können. Besprechen Sie mit dem Administrator Ihrer Organisation, ob Sie Zugang zu einem vorhandenen Azure-Abonnement erhalten können. Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.

Labkonfiguration

Einstellungen für Labpläne

Nachdem Sie über ein Azure-Abonnement verfügen, können Sie einen neuen Lab-Plan in Azure Lab Services erstellen. Weitere Informationen zum Erstellen eines neuen Labplans finden Sie unter Schnellstart: Erstellen von Ressourcen, die Sie für die ersten Schritte mit Azure Lab Services benötigen. Sie können auch einen vorhandenen Labplan verwenden.

Dieses Lab verwendet Windows 10 Pro Azure Marketplace-Images als Basis-VM-Image. Sie müssen dieses Image in Ihrem Lab-Plan zuerst aktivieren. Auf diese Weise können Lab-Ersteller das Image dann als Basisimage für ihr Lab auswählen.

Führen Sie die folgenden Schritte aus, um diese für Lab-Ersteller verfügbaren Azure Marketplace-Images zu aktivieren. Wählen Sie eines der Azure Marketplace-Images für Windows 10 aus.

Labeinstellungen

Erstellen Sie ein Lab für Ihren Lab-Plan. Anweisungen zum Erstellen eines Labs finden Sie unter Tutorial: Einrichten eines Labs. Verwenden Sie beim Erstellen des Labs die folgenden Einstellungen:

Labeinstellungen Wert/Anweisungen
Größe des virtuellen Computers Mittel (geschachtelte Virtualisierung). Diese VM-Größe eignet sich am besten für relationale Datenbanken, Zwischenspeicherung im Arbeitsspeicher und Analysen. Sie unterstützt auch die geschachtelte Virtualisierung.
VM-Image Windows 10 Pro

Hinweis

Verwenden Sie die mittlere (geschachtelte Virtualisierung) VM-Größe, da die Bereitstellung von HDP-Sandbox mithilfe von Docker Windows Hyper-V mit geschachtelter Virtualisierung und mindestens 10 GB RAM erfordert.

Konfiguration des Vorlagencomputers

So richten Sie den Vorlagen-Computer ein:

  1. Installieren von Docker
  2. Bereitstellen von HDP Sandbox
  3. Verwenden von PowerShell und Windows Taskplaner, um die Docker-Container automatisch zu starten

Installieren von Docker

Die Schritte in diesem Abschnitt basieren auf den Anweisungen von Cloudera für die Bereitstellung mit Docker-Containern.

Um Docker-Container verwenden zu können, müssen Sie Docker Desktop zunächst auf der Vorlagen-VM installieren:

  1. Folgen Sie den Schritten im Abschnitt Voraussetzungen, um Docker für Windows zu installieren.

    Wichtig

    Achten Sie darauf, dass die Konfigurationsoption Windows-Container statt Linux-Container verwenden nicht aktiviert ist.

  2. Stellen Sie sicher, dass Windows-Container und Hyper-V-Features aktiviert sind.

    Aktivieren oder Deaktivieren von Windows-Features.

  3. Folgen Sie den Schritten im Abschnitt Arbeitsspeicher für Windows, um die Arbeitsspeicherkonfiguration von Docker zu konfigurieren.

    Warnung

    Wenn Sie bei der Installation von Docker versehentlich die Option Windows-Container statt Linux-Container verwenden aktivieren, werden die Konfigurationseinstellungen für den Arbeitsspeicher nicht angezeigt. Um dies zu beheben, können Sie auf Linux-Container umstellen, indem Sie auf der Windows-Taskleiste auf das Docker-Symbol klicken. Wenn sich das Menü „Docker Desktop“ öffnet, wählen Sie Auf Linux-Container umstellen aus.

Bereitstellen von HDP Sandbox

Stellen Sie als nächstes HDP-Sandbox bereit, und greifen Sie dann über den Browser auf HDP-Sandbox zu.

  1. Vergewissern Sie sich, dass Sie Git Bash wie im Abschnitt Voraussetzungen der Anleitung aufgeführt installiert haben, da dies für die nächsten Schritte empfohlen wird. Es wird empfohlen, die nächsten Schritte abzuschließen.

  2. Führen Sie unter Befolgung der Bereitstellungs- und Installationsanleitung von Cloudera für Docker die Schritte in den folgenden Abschnitten aus:

    • Bereitstellen von HDP Sandbox
    • Überprüfen von HDP Sandbox

    Warnung

    Wenn Sie die neueste ZIP-Datei für HDP herunterladen, stellen Sie sicher, dass Sie nicht die ZIP-Datei in einem Verzeichnispfad mit Leerzeichen speichern.

    Hinweis

    Wenn Sie während der Bereitstellung eine Ausnahme mit der Meldung Laufwerk nicht freigegeben erhalten, müssen Sie Ihr Laufwerk C für Docker freigeben, damit die Linux-Container von HDP auf lokale Windows-Dateien zugreifen können. Um dieses Problem zu beheben, klicken Sie auf der Windows-Taskleiste auf das Docker-Symbol, um das Menü „Docker Desktop“ zu öffnen und Einstellungen auszuwählen. Wählen Sie im geöffneten Dialogfeld Docker-Einstellungen die Option Ressourcen > Dateifreigabe aus, und aktivieren Sie Laufwerk C. Sie können dann die Schritte wiederholen, um HDP Sandbox bereitzustellen.

  3. Wenn die Docker-Container für HDP Sandbox bereitgestellt sind und laufen, können Siedie Umgebung aufrufen, indem Sie Ihren Browser starten. Folgen Sie den Anweisungen von Cloudera zum Öffnen der Sandbox-Willkommensseite und starten Sie das HDP-Dashboard.

    Hinweis

    Diese Anweisungen gehen davon aus, dass Sie zuerst die lokale IP-Adresse der Sandboxumgebung zu sandbox-hdp.hortonworks.com in der Hostdatei auf Ihrer Vorlagen-VM zugeordnet haben. Wenn Sie diese Zuordnung nicht vornehmen, können Sie auf die Sandbox-Begrüßungsseite zugreifen, indem Sie zu http://localhost:8080 navigieren.

Automatisches Starten von Docker-Containern, wenn sich Lab-Benutzer anmelden

Um für Lab-Benutzer eine leicht zu bedienende Erfahrung zur Verfügung zu stellen, erstellen Sie ein PowerShell-Skript, das automatisch Folgendes tut:

  1. Startet die HDP Sandbox-Docker-Container, wenn ein Lab-Benutzer seine Lab-VM startet und eine Verbindung damit herstellt.
  2. Startet den Browser und navigiert zur Sandbox-Willkommensseite.

Verwenden Sie den Windows-Taskplaner, um dieses Skript automatisch auszuführen, wenn sich ein Lab-Benutzer bei seiner VM anmeldet. Um einen Taskplaner einzurichten, führen Sie diese Schritte aus: Schreiben eines Skripts für die Big-Data-Analyse.

Kostenschätzung

Dieser Abschnitt enthält eine Kostenschätzung für die Ausführung dieser Klasse für 25 Labbenutzer. Es ist eine Kursdauer von 20 Stunden geplant. Zudem erhält jeder Benutzer ein Kontingent von 10 Stunden für Hausaufgaben und Aufgaben außerhalb der regulären Kurszeiten. Die VM-Größe, die wir ausgewählt haben, war Mittel (geschachtelte Virtualisierung), was 55 Lab-Einheiten ist.

  • 25 Lab-Benutzer × (20 geplante Stunden + 10 Kontingentstunden) × 55 Lab-Einheiten

Wichtig

Diese Kostenschätzung dient ausschließlich zu Beispielzwecken. Aktuelle Informationen zu Preisen finden Sie unter Azure Lab Services – Preise.

Zusammenfassung

In diesem Artikel wurden Sie durch die nötigen Schritte zum Erstellen eines Labs für einen Kurs für die Analyse von Big Data geführt. Der Big-Data-Analyse-Kurs verwendet die Hortonworks Data Platform, die mit Docker bereitgestellt wird. Die Einrichtung für diesen Kurstyp kann für ähnliche Datenanalysekurse verwendet werden. Diese Einrichtung kann auch für andere Arten von Kursen gelten, die Docker für die Bereitstellung verwenden.

Nächste Schritte

Das Vorlagenimage kann jetzt im Lab veröffentlicht werden. Weitere Informationen finden Sie unter Veröffentlichen der Vorlagen-VM.

Lesen Sie folgende Artikel zum Einrichten des Labs: