OneLake'i Azure HDInsight ile tümleştirme

Azure HDInsight , kuruluşların büyük miktarlardaki verileri işlemesine yardımcı olan, büyük veri analizi için yönetilen bulut tabanlı bir hizmettir. Bu öğreticide Bir Azure HDInsight kümesinden Jupyter not defteriyle OneLake'e nasıl bağlandığınız gösterilmektedir.

Azure HDInsight'ı kullanma

HDInsight kümesinden Jupyter not defteriyle OneLake'e bağlanmak için:

  1. HDInsight (HDI) Spark kümesi oluşturun. Şu yönergeleri izleyin: HDInsight'ta kümeleri ayarlama.

    1. Küme bilgilerini sağlarken, kümeye daha sonra erişmeleri gerektiğinden Küme oturum açma Kullanıcı Adı ve Parola bilgilerinizi unutmayın.

    2. Kullanıcı tarafından atanan yönetilen kimlik (UAMI) oluşturma: Azure HDInsight için oluşturma - UAMI ve Depolama ekranında kimlik olarak seçin.

      Depolama ekranında kullanıcı tarafından atanan yönetilen kimliğin girileceği yeri gösteren ekran görüntüsü.

  2. Bu UAMI'ye öğelerinizi içeren Doku çalışma alanına erişim verin. En iyi rolü belirleme konusunda yardım için bkz . Çalışma alanı rolleri.

    Erişimi yönet panelinde bir öğenin seçileceği yeri gösteren ekran görüntüsü.

  3. Lakehouse'unuza gidin ve çalışma alanınızın ve lakehouse'unuzun adını bulun. Bunları lakehouse'unuzun URL'sinde veya bir dosyanın Özellikler bölmesinde bulabilirsiniz.

  4. Azure portalında kümenizi arayın ve not defterini seçin.

    Azure portalında kümenizi ve not defterinizi nerede bulabileceğinizi gösteren ekran görüntüsü.

  5. Kümeyi oluştururken sağladığınız kimlik bilgileri girin.

    Kimlik bilgilerinizin girileceği yeri gösteren ekran görüntüsü.

  6. Yeni bir Spark not defteri oluşturun.

  7. Çalışma alanı ve göl evi adlarını not defterinize kopyalayın ve lakehouse'unuz için OneLake URL'sini oluşturun. Artık bu dosya yolundan herhangi bir dosyayı okuyabilirsiniz.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Göle veri yazmayı deneyin.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Lakehouse'unuzu denetleyerek veya yeni yüklenen dosyanızı okuyarak verilerinizin başarıyla yazıldığını test edin.

Artık HdI Spark kümesindeki Jupyter not defterinizi kullanarak OneLake'te verileri okuyabilir ve yazabilirsiniz.