Zdieľať cez


Integrácia služby OneLake so službou Azure HDInsight

Azure HDInsight je spravovaná cloudová služba na analýzu veľkého objemu údajov, ktorá pomáha organizáciám spracovávať veľké objemy údajov. Tento kurz ukazuje, ako sa pripojiť k službe OneLake pomocou notebooku Jupyter z klastra Azure HDInsight.

Používanie azure HDInsight

Pripojenie k OneLake pomocou notebooku Jupyter zo klastra HDInsight:

  1. Vytvorte klaster Apache Spark HDInsight (HDI). Postupujte podľa týchto pokynov: Nastavte klastre v HDInsight.

    1. Pri zadávaní informácií o klastri si zapamätajte meno používateľa a heslo pre prihlásenie do klastra, pretože ich budete potrebovať na neskorší prístup do klastra.

    2. Vytvorte používateľa s priradenou spravovanou identitou (UAMI): Vytvorte ju pre službu Azure HDInsight – UAMI a vyberte ju ako identitu na obrazovke úložiska .

      Snímka obrazovky znázorňujúca miesto na zadanie používateľa priradeného spravovanej identity na obrazovke úložiska.

  2. Poskytnite tomuto UAMI prístup k pracovnému priestoru služby Fabric, ktorý obsahuje vaše položky. Pomoc pri rozhodovaní o tom, ktorá rola je najvhodnejšia, nájdete v téme Roly pracovného priestoru.

    Snímka obrazovky znázorňujúca, kde vybrať položku na paneli Spravovať prístup.

  3. Prejdite do svojho jazera a vyhľadajte názov svojho pracovného priestoru a domova jazier. Nájdete ich v URL adrese svojho jazera alebo na table Vlastnosti pre súbor.

  4. Na portáli Azure vyhľadajte svoj klaster a vyberte poznámkový blok.

    Snímka obrazovky znázorňujúca miesto, kde nájsť klaster a poznámkový blok na portáli Azure.

  5. Zadajte informácie o poverení, ktoré ste zadali pri vytváraní klastra.

    Snímka obrazovky znázorňujúca miesto, kde zadajte informácie o poverení.

  6. Vytvorte nový notebook Apache Spark.

  7. Skopírujte názvy pracovných priestorov a domov lakehouse do notebooku a vytvorte URL adresu služby OneLake pre váš domov lakehouse. Teraz si môžete prečítať ľubovoľný súbor z tejto cesty k súboru.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Skúste napísať nejaké údaje do jazera.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Overte si, či sa vaše údaje úspešne zapísali kontrolou vášho jazera alebo po prečítaní novo načítaného súboru.

Teraz môžete čítať a zapisovať údaje vo OneLake pomocou notebooku Jupyter v klastri HDI Spark.