Интеграция OneLake с Azure HDInsight

Azure HDInsight — это управляемая облачная служба для аналитики больших данных, которая помогает организациям обрабатывать большие объемы данных. В этом руководстве показано, как подключиться к OneLake с помощью записной книжки Jupyter из кластера Azure HDInsight.

Использование Azure HDInsight

Чтобы подключиться к OneLake с записной книжкой Jupyter из кластера HDInsight:

  1. Создание кластера HDInsight (HDI) Spark. Выполните следующие инструкции. Настройка кластеров в HDInsight.

    1. При предоставлении сведений о кластере запомните имя пользователя и пароль для входа в кластер, так как им потребуется получить доступ к кластеру позже.

    2. Создайте назначаемое пользователем управляемое удостоверение (UAMI): создайте для Azure HDInsight — UAMI и выберите его в качестве удостоверения на экране служба хранилища.

      Снимок экрана: где ввести управляемое удостоверение, назначаемое пользователем, на экране служба хранилища.

  2. Предоставьте этому UAMI доступ к рабочей области Fabric, содержащей ваши элементы. Сведения о том, какая роль лучше всего подходит, см. в разделе "Роли рабочей области".

    Снимок экрана, показывающий, где выбрать элемент на панели управления доступом.

  3. Перейдите к озеру и найдите имя рабочей области и lakehouse. Их можно найти в URL-адресе озера или области "Свойства " для файла.

  4. В портал Azure найдите кластер и выберите записную книжку.

    Снимок экрана: расположение кластера и записной книжки в портал Azure.

  5. Введите учетные данные, предоставленные при создании кластера.

    Снимок экрана: место ввода сведений о учетных данных.

  6. Создайте записную книжку Spark.

  7. Скопируйте имена рабочей области и озера в записную книжку и создайте URL-адрес OneLake для lakehouse. Теперь вы можете прочитать любой файл из этого пути.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Попробуйте записать некоторые данные в lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Убедитесь, что данные были успешно записаны, проверка озера или прочитав только что загруженный файл.

Теперь вы можете читать и записывать данные в OneLake с помощью записной книжки Jupyter в кластере HDI Spark.