Jaa


OneLaken integrointi Azure HDInsightiin

Azure HDInsight on hallittu pilvipohjainen massadata-analytiikan palvelu, joka auttaa organisaatioita käsittelemään suuria määriä tietoja. Tässä opetusohjelmassa kerrotaan, miten voit muodostaa yhteyden OneLakeen Azure HDInsight -klusterin Jupyter-muistikirjalla.

Azure HDInsightin käyttäminen

Yhteyden muodostaminen OneLakeen HDInsight-klusterin Jupyter-muistikirjalla:

  1. Luo HDInsight (HDI) Apache Spark -klusteri. Noudata näitä ohjeita: Määritä klusterit HDInsightissa.

    1. Muista klusterin tiedot tarjotessasi klusterin kirjautumisnimi ja salasana, sillä tarvitset niitä käyttämään klusteria myöhemmin.

    2. Luo käyttäjä, jolle on määritetty hallitut käyttäjätiedot (UAMI): Luo Azure HDInsightille - UAMI ja valitse se käyttäjätietona Tallennustila-näytössä.

      Näyttökuva, joka näyttää, mihin kohtaan syötetään määritetyt hallitut käyttäjätiedot Tallennustila-näytössä.

  2. Anna tälle UAMI-käyttöoikeudelle fabric-työtila, joka sisältää kohteesi. Jos haluat lisätietoja siitä, mikä rooli on paras, katso Työtilan roolit.

    Näyttökuva, jossa näkyy kohteen valinta Käyttöoikeuksien hallinta -paneelissa.

  3. Siirry Lakehouse-laitteeseesi ja etsi työtilasi nimi ja Lakehouse. Ne löytyvät Lakehousen URL-osoitteesta tai tiedoston Ominaisuudet-ruudusta .

  4. Etsi Azure-portaalista klusterisi ja valitse muistikirja.

    Näyttökuva, jossa näkyy, mistä klusteri ja muistikirja löytyvät Azure-portaalista.

  5. Anna klusterin luomisen aikana antamasi tunnistetiedot.

    Näyttökuva, jossa näkyy tunnistetietojen syöttämistä.

  6. Luo uusi Apache Spark -muistikirja.

  7. Kopioi työtilan ja Lakehousen nimet muistikirjaasi ja luo OneLake-URL-osoite Lakehouseasi varten. Nyt voit lukea minkä tahansa tiedoston tästä tiedostopolusta.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Yritä kirjoittaa tietoja Lakehouseen.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Testaa, että tietosi on kirjoitettu onnistuneesti tarkistamalla Lakehouse-tallennustilasi tai lukemalla juuri ladattu tiedostosi.

Voit nyt lukea ja kirjoittaa tietoja OneLakessa käyttämällä Jupyter-muistikirjaasi HDI Spark -klusterissa.