Integrieren von OneLake in Azure HDInsight
Azure HDInsight ist ein verwalteter cloudbasierter Dienst für Big Data-Analysen, der Organisationen beim Verarbeiten großer Datenmengen unterstützt. In diesem Tutorial wird gezeigt, wie Sie mit einem Jupyter-Notebook über einen Azure HDInsight-Cluster eine Verbindung mit OneLake herstellen.
Verwenden von Azure HDInsight
So stellen Sie eine Verbindung mit OneLake mit einem Jupyter-Notebook aus einem HDInsight-Cluster her:
Erstellen Sie einen Apache Spark-Cluster in HDInsight (HDI). Befolgen Sie diese Anweisungen: Einrichten von Clustern in HDInsight.
Denken Sie bei der Bereitstellung von Clusterinformationen an den Benutzernamen und das Kennwort ihrer Clusteranmeldung, da Sie sie später benötigen, um auf den Cluster zuzugreifen.
Erstellen Sie eine benutzerseitig zugewiesene verwaltete Identität (UAMI): Erstellen für Azure HDInsight: UAMI, und wählen Sie sie im Bereich Speicher als Identität aus.
Gewähren Sie dieser UAMI Zugriff auf den Fabric-Arbeitsbereich, der Ihre Elemente enthält. Hilfe bei der Entscheidung, welche Rolle am besten ist, finden Sie unter Arbeitsbereichsrollen.
Navigieren Sie zu Ihrem Lakehouse, und suchen Sie den Namen für Ihren Arbeitsbereich und Ihr Lakehouse. Sie finden sie in der URL Ihres Lakehouses oder im Bereich Eigenschaften für eine Datei.
Suchen Sie im Azure-Portal nach Ihrem Cluster, und wählen Sie das Notebook aus.
Geben Sie die Anmeldeinformationen ein, die Sie beim Erstellen des Clusters angegeben haben.
Erstellen Sie ein neues Apache Spark-Notebook.
Kopieren Sie die Namen des Arbeitsbereichs und des Lakehouses in Ihr Notizbuch, und erstellen Sie die OneLake-URL für Ihr Lakehouse. Jetzt können Sie jede beliebige Datei aus diesem Dateipfad lesen.
fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") df.show()
Versuchen Sie, einige Daten in das Lakehouse zu schreiben.
writecsvdf = df.write.format("csv").save(fp + "out.csv")
Testen Sie, ob Ihre Daten erfolgreich geschrieben wurden, indem Sie Ihr Lakehouse überprüfen oder Ihre neu geladene Datei lesen.
Sie können jetzt Daten mit Ihrem Jupyter-Notebook in einem HDI Spark-Cluster in OneLake lesen und schreiben.