Integrieren von OneLake in Azure HDInsight

Azure HDInsight ist ein verwalteter cloudbasierter Dienst für Big Data-Analysen, der Organisationen beim Verarbeiten großer Datenmengen unterstützt. In diesem Tutorial wird gezeigt, wie Sie mit einem Jupyter-Notebook über einen Azure HDInsight-Cluster eine Verbindung mit OneLake herstellen.

Verwenden von Azure HDInsight

So stellen Sie eine Verbindung mit OneLake mit einem Jupyter-Notebook aus einem HDInsight-Cluster her:

  1. Erstellen Sie einen HDI-Spark-Cluster (HDInsight). Befolgen Sie diese Anweisungen: Einrichten von Clustern in HDInsight.

    1. Denken Sie bei der Bereitstellung von Clusterinformationen an den Benutzernamen und das Kennwort ihrer Clusteranmeldung, da Sie sie später benötigen, um auf den Cluster zuzugreifen.

    2. Erstellen Sie eine benutzerseitig zugewiesene verwaltete Identität (UAMI): Erstellen für Azure HDInsight: UAMI, und wählen Sie sie im Bereich Speicher als Identität aus.

      Screenshot: Eingeben der systemseitig zugewiesenen verwalteten Identität im Bereich „Speicher“

  2. Gewähren Sie dieser UAMI Zugriff auf den Fabric-Arbeitsbereich, der Ihre Elemente enthält. Hilfe bei der Entscheidung, welche Rolle am besten ist, finden Sie unter Arbeitsbereichsrollen.

    Screenshot: Auswählen eines Elements im Bereich „Zugriff verwalten“

  3. Navigieren Sie zu Ihrem Lakehouse, und suchen Sie den Namen für Ihren Arbeitsbereich und Ihr Lakehouse. Sie finden sie in der URL Ihres Lakehouses oder im Bereich Eigenschaften für eine Datei.

  4. Suchen Sie im Azure-Portal nach Ihrem Cluster, und wählen Sie das Notebook aus.

    Screenshot: Ihr Cluster und Ihr Notebook im Azure-Portal

  5. Geben Sie die Anmeldeinformationen ein, die Sie beim Erstellen des Clusters angegeben haben.

    Screenshot: Eingabe Ihrer Anmeldeinformationen

  6. Erstellen Sie ein neues Spark-Notebook.

  7. Kopieren Sie die Namen des Arbeitsbereichs und des Lakehouses in Ihr Notizbuch, und erstellen Sie die OneLake-URL für Ihr Lakehouse. Jetzt können Sie jede beliebige Datei aus diesem Dateipfad lesen.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Versuchen Sie, einige Daten in das Lakehouse zu schreiben.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Testen Sie, ob Ihre Daten erfolgreich geschrieben wurden, indem Sie Ihr Lakehouse überprüfen oder Ihre neu geladene Datei lesen.

Sie können jetzt Daten mit Ihrem Jupyter-Notebook in einem HDI Spark-Cluster in OneLake lesen und schreiben.