Aracılığıyla paylaş


Öğretici: Not defterinden CSV verilerini içeri aktarma ve görselleştirme

Bu öğreticide, Python, Scala ve R kullanarak health.data.ny.gov'den Unity Kataloğu biriminize bebek adı verileri içeren bir CSV dosyasından verileri içeri aktarmak için Azure Databricks not defteri kullanma konusunda size yol gösterilir. Ayrıca sütun adını değiştirmeyi, verileri görselleştirmeyi ve tabloya kaydetmeyi de öğrenirsiniz.

Gereksinimler

Bu makaledeki görevleri tamamlamak için aşağıdaki gereksinimleri karşılamanız gerekir:

  • Çalışma alanınızda Unity Kataloğu etkinleştirilmiş olmalıdır. Unity Kataloğu'nu kullanmaya başlama hakkında bilgi için bkz. Unity Kataloğu'nu kullanmaya başlama.
  • Bir birimde ayrıcalığınız WRITE VOLUME , USE SCHEMA üst şemadaki ayrıcalığınız ve USE CATALOG üst katalogda ayrıcalığınız olmalıdır.
  • Mevcut bir işlem kaynağını kullanma veya yeni bir işlem kaynağı oluşturma izniniz olmalıdır. Compute'a bakın veya Databricks yöneticinize başvurun.

İpucu

Bu makalenin tamamlanmış not defteri için bkz . Veri not defterlerini içeri aktarma ve görselleştirme.

1. Adım: Yeni not defteri oluşturma

Çalışma alanınızda not defteri oluşturmak için kenar Yeni Simgeçubuğunda Yeni'ye ve ardından Not Defteri'ne tıklayın. Çalışma alanında boş bir not defteri açılır.

Not defterlerini oluşturma ve yönetme hakkında daha fazla bilgi edinmek için bkz . Not defterlerini yönetme.

2. Adım: Değişkenleri tanımlama

Bu adımda, bu makalede oluşturduğunuz örnek not defterinde kullanılacak değişkenleri tanımlarsınız.

  1. Aşağıdaki kodu kopyalayıp yeni boş not defteri hücresine yapıştırın. <catalog-name>, <schema-name>ve <volume-name> yerine Unity Kataloğu biriminin katalog, şema ve birim adlarını yazın. İsteğe bağlı olarak değerini seçtiğiniz bir tablo adıyla değiştirin table_name . Bebek adı verilerini bu makalenin ilerleyen bölümlerinde bu tabloya kaydedeceksiniz.

  2. Hücreyi çalıştırmak ve yeni bir boş hücre oluşturmak için basın Shift+Enter .

    Piton

    catalog = "<catalog_name>"
    schema = "<schema_name>"
    volume = "<volume_name>"
    download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    file_name = "baby_names.csv"
    table_name = "baby_names"
    path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume
    path_table = catalog + "." + schema
    print(path_table) # Show the complete path
    print(path_volume) # Show the complete path
    

    Scala programlama dili

    val catalog = "<catalog_name>"
    val schema = "<schema_name>"
    val volume = "<volume_name>"
    val downloadUrl = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    val fileName = "baby_names.csv"
    val tableName = "baby_names"
    val pathVolume = s"/Volumes/${catalog}/${schema}/${volume}"
    val pathTable = s"${catalog}.${schema}"
    print(pathVolume) // Show the complete path
    print(pathTable) // Show the complete path
    

    R

    catalog <- "<catalog_name>"
    schema <- "<schema_name>"
    volume <- "<volume_name>"
    download_url <- "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
    file_name <- "baby_names.csv"
    table_name <- "baby_names"
    path_volume <- paste("/Volumes/", catalog, "/", schema, "/", volume, sep = "")
    path_table <- paste(catalog, ".", schema, sep = "")
    print(path_volume) # Show the complete path
    print(path_table) # Show the complete path
    

3. Adım: CSV dosyasını içeri aktarma

Bu adımda, health.data.ny.gov'deki bebek adı verilerini içeren bir CSV dosyasını Unity Kataloğu biriminize aktaracaksınız.

  1. Aşağıdaki kodu kopyalayıp yeni boş not defteri hücresine yapıştırın. Bu kod, rows.csv komutunu kullanarak dosyasını health.data.ny.gov Unity Kataloğu biriminize kopyalar.

  2. Hücreyi çalıştırmak için basın Shift+Enter ve ardından sonraki hücreye geçin.

    Piton

    dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")
    

    Scala programlama dili

    dbutils.fs.cp(downloadUrl, s"${pathVolume}/${fileName}")
    

    R

    dbutils.fs.cp(download_url, paste(path_volume, "/", file_name, sep = ""))
    

4. Adım: CSV verilerini DataFrame'e yükleme

Bu adımda, spark.read.csvdfadlı bir DataFrame oluşturursunuz.

  1. Aşağıdaki kodu kopyalayıp yeni boş not defteri hücresine yapıştırın. Bu kod, CSV dosyasından DataFrame'e df bebek adı verilerini yükler.

  2. Hücreyi çalıştırmak için basın Shift+Enter ve ardından sonraki hücreye geçin.

    Piton

    df = spark.read.csv(f"{path_volume}/{file_name}",
      header=True,
      inferSchema=True,
      sep=",")
    

    Scala programlama dili

    val df = spark.read
        .option("header", "true")
        .option("inferSchema", "true")
        .option("delimiter", ",")
        .csv(s"${pathVolume}/${fileName}")
    

    R

    # Load the SparkR package that is already preinstalled on the cluster.
    library(SparkR)
    
    df <- read.df(paste(path_volume, "/", file_name, sep=""),
      source="csv",
      header = TRUE,
      inferSchema = TRUE,
      delimiter = ",")
    

Desteklenen birçok dosya biçiminden veri yükleyebilirsiniz.

5. Adım: Not defterinden verileri görselleştirme

Bu adımda, DataFrame'in içeriğini not defterindeki bir tabloda görüntülemek ve ardından verileri not defterindeki bir sözcük bulut grafiğinde görselleştirmek için yöntemini kullanırsınız display() .

  1. Aşağıdaki kodu kopyalayıp yeni boş not defteri hücresine yapıştırın ve ardından Verileri tabloda görüntülemek için Hücreyi çalıştır'a tıklayın.

    Piton

    display(df)
    

    Scala programlama dili

    display(df)
    

    R

    display(df)
    
  2. Tablodaki sonuçları gözden geçirin.

  3. Tablo sekmesinin yanındaki + alanına tıklayın ve ardından Görselleştirme'ye tıklayın.

  4. Görselleştirme düzenleyicisinde Görselleştirme Türü'ne tıklayın ve Word bulutunun seçili olduğunu doğrulayın.

  5. Sözcükler sütununda, seçili olduğunu First Name doğrulayın.

  6. Sıklık sınırı'nda öğesine tıklayın35.

    word bulut grafiği

  7. Kaydet'e tıklayın.

6. Adım: DataFrame'i tabloya kaydetme

Önemli

DataFrame'inizi Unity Kataloğu'na kaydetmek için katalog ve şemada tablo ayrıcalıklarına sahip CREATE olmanız gerekir. Unity Kataloğu'ndaki izinler hakkında bilgi için bkz. Unity Kataloğu'nda Ayrıcalıklar ve güvenliği sağlanabilir nesneler ve Unity Kataloğu'nda ayrıcalıkları yönetme.

  1. Aşağıdaki kodu kopyalayıp boş bir not defteri hücresine yapıştırın. Bu kod, sütun adındaki bir boşluğun yerini alır. Sütun adlarında boşluk gibi özel karakterlere izin verilmez. Bu kod Apache Spark withColumnRenamed() yöntemini kullanır.

    Piton

    df = df.withColumnRenamed("First Name", "First_Name")
    df.printSchema
    

    Scala programlama dili

    val dfRenamedColumn = df.withColumnRenamed("First Name", "First_Name")
    // when modifying a DataFrame in Scala, you must assign it to a new variable
    dfRenamedColumn.printSchema()
    

    R

    df <- withColumnRenamed(df, "First Name", "First_Name")
    printSchema(df)
    
  2. Aşağıdaki kodu kopyalayıp boş bir not defteri hücresine yapıştırın. Bu kod, bu makalenin başında tanımladığınız tablo adı değişkenini kullanarak DataFrame'in içeriğini Unity Kataloğu'ndaki bir tabloya kaydeder.

    Piton

    df.write.mode("overwrite").saveAsTable(f"{path_table}" + "." + f"{table_name}")
    

    Scala programlama dili

    dfRenamedColumn.write.mode("overwrite").saveAsTable(s"${pathTable}.${tableName}")
    

    R

    saveAsTable(df, paste(path_table, ".", table_name), mode = "overwrite")
    
  3. Tablonun kaydedildiğini doğrulamak için sol kenar çubuğunda Katalog'a tıklayarak Katalog Gezgini kullanıcı arabirimini açın. Tablonun göründüğünü doğrulamak için kataloğunuzu ve ardından şemanızı açın.

  4. Genel Bakış sekmesinde tablo şemasını görüntülemek için tablonuza tıklayın.

  5. Tablodan 100 veri satırı görüntülemek için Örnek Veri'ye tıklayın.

Veri not defterlerini içeri aktarma ve görselleştirme

Bu makaledeki adımları gerçekleştirmek için aşağıdaki not defterlerinden birini kullanın. <catalog-name>, <schema-name>ve <volume-name> yerine Unity Kataloğu biriminin katalog, şema ve birim adlarını yazın. İsteğe bağlı olarak değerini seçtiğiniz bir tablo adıyla değiştirin table_name .

Piton

Python kullanarak CSV'den veri içeri aktarma

Dizüstü bilgisayar al

Scala programlama dili

Scala kullanarak CSV'den verileri içeri aktarma

Dizüstü bilgisayar al

R

R kullanarak CSV'den verileri içeri aktarma

Dizüstü bilgisayar al

Sonraki adımlar

Ek kaynaklar