Hızlı Başlangıç: Apache Spark iş tanımını kullanarak verileri dönüştürme

Bu hızlı başlangıçta, Apache Spark iş tanımını kullanarak işlem hattı oluşturmak için Azure Synapse Analytics'i kullanacaksınız.

Önkoşullar

Azure Synapse çalışma alanınız oluşturulduktan sonra Synapse Studio açmanın iki yolu vardır:

  • Azure portal Synapse çalışma alanınızı açın. Başlarken'in altındaki Aç Synapse Studio kartında Aç'ı seçin.
  • Azure Synapse Analytics'i açın ve çalışma alanınızda oturum açın.

Bu hızlı başlangıçta örnek olarak "sampletest" adlı çalışma alanını kullanacağız. Otomatik olarak Synapse Studio giriş sayfasına gidersiniz.

synapse studio giriş sayfası

Apache Spark iş tanımıyla işlem hattı oluşturma

İşlem hattı, bir etkinlik kümesinin yürütülmesi için mantıksal akışı içerir. Bu bölümde Apache Spark iş tanımı etkinliğini içeren bir işlem hattı oluşturacaksınız.

  1. Tümleştir sekmesine gidin. İşlem hatları üst bilgisinin yanındaki artı simgesini ve ardından İşlem Hattı'nı seçin.

    Yeni işlem hattı oluşturma

  2. İşlem hattının Özellikler ayarları sayfasında Ad için tanıtım girin.

  3. Etkinlikler bölmesindeki Synapse'in altında Spark işi tanımını işlem hattı tuvaline sürükleyin.

    spark iş tanımını sürükleme

Apache Spark iş tanımı tuvalini ayarlama

Apache Spark iş tanımınızı oluşturduktan sonra otomatik olarak Spark iş tanımı tuvaline gönderilirsiniz.

Genel ayarlar

  1. Tuvalde spark iş tanımı modülünü seçin.

  2. Genel sekmesinde Ad için örnek girin.

  3. (Seçenek) Açıklama da girebilirsiniz.

  4. Zaman aşımı: Bir etkinliğin çalışabileceği en uzun süre. Varsayılan değer yedi gündür ve bu da izin verilen en fazla süredir. Biçim D.HH:MM:SS biçimindedir.

  5. Yeniden deneme: En fazla yeniden deneme denemesi sayısı.

  6. Yeniden deneme aralığı: Her yeniden deneme girişimi arasındaki saniye sayısı.

  7. Güvenli çıkış: İşaretlendiğinde, etkinlik çıkışı günlüğe kaydetme sırasında yakalanmaz.

  8. Güvenli giriş: İşaretlendiğinde, etkinlikten gelen giriş günlüğe kaydetme sırasında yakalanmaz.

    spark iş tanımı genel

Ayarlar sekmesi

Bu panelde, çalıştırılacak Spark iş tanımına başvurabilirsiniz.

  • Spark iş tanımı listesini genişletin, mevcut bir Apache Spark iş tanımını seçebilirsiniz. Çalıştırılacak Spark iş tanımına başvurmak için Yeni düğmesini seçerek yeni bir Apache Spark iş tanımı da oluşturabilirsiniz.

  • (İsteğe bağlı) Apache Spark iş tanımı bilgilerini doldurabilirsiniz. Aşağıdaki ayarlar boşsa spark iş tanımının kendisi çalıştırmak için kullanılır; Aşağıdaki ayarlar boş değilse, bu ayarlar Spark iş tanımının ayarlarının yerini alır.

    Özellik Açıklama
    Ana tanım dosyası İş için kullanılan ana dosya. Depolama alanınızdan bir PY/JAR/ZIP dosyası seçin. Dosyayı bir depolama hesabına yüklemek için Dosyayı karşıya yükle'yi seçebilirsiniz.
    Örnek: abfss://…/path/to/wordcount.jar
    Alt klasörlerden başvurular Ana tanım dosyasının kök klasöründen alt klasörler taranıyorsa, bu dosyalar başvuru dosyaları olarak eklenir. "jars", "pyFiles", "files" veya "archives" adlı klasörler taranır ve klasör adı büyük/küçük harfe duyarlıdır.
    Ana sınıf adı Tam tanımlayıcı veya ana tanım dosyasındaki ana sınıf.
    Örnek: WordCount
    Komut satırı bağımsız değişkenleri Yeni düğmesine tıklayarak komut satırı bağımsız değişkenleri ekleyebilirsiniz. Komut satırı bağımsız değişkenlerinin eklenmesinin Spark iş tanımı tarafından tanımlanan komut satırı bağımsız değişkenlerini geçersiz kılacağı belirtilmelidir.
    Örnek: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Apache Spark havuzu Listeden Apache Spark havuzunu seçebilirsiniz.
    Python kod başvurusu Ana tanım dosyasında başvuru için kullanılan ek Python kod dosyaları.
    Dosyaları (.py, .py3, .zip) "pyFiles" özelliğine geçirmeyi destekler. Spark iş tanımında tanımlanan "pyFiles" özelliğini geçersiz kılar.
    Başvuru dosyaları Ana tanım dosyasında başvuru için kullanılan ek dosyalar.
    Yürütücüleri dinamik olarak ayırma Bu ayar, Spark Uygulaması yürütücüleri ayırma için Spark yapılandırmasındaki dinamik ayırma özelliğine eşler.
    En düşük yürütücüler İş için belirtilen Spark havuzunda ayrılacak en az yürütücü sayısı.
    En fazla yürütücü İş için belirtilen Spark havuzunda ayrılacak en fazla yürütücü sayısı.
    Sürücü boyutu İş için belirtilen Apache Spark havuzunda verilen sürücü için kullanılacak çekirdek ve bellek sayısı.
    Spark yapılandırması Şu konuda listelenen Spark yapılandırma özellikleri için değerleri belirtin: Spark Yapılandırması - Uygulama özellikleri. Kullanıcılar varsayılan yapılandırmayı ve özelleştirilmiş yapılandırmayı kullanabilir.

    spark iş tanımı pipline ayarları

  • Dinamik İçerik Ekle düğmesine tıklayarak veya Alt+Shift+D kısayol tuşuna basarak dinamik içerik ekleyebilirsiniz. Dinamik İçerik Ekle sayfasında, dinamik içeriğe eklemek için ifadelerin, işlevlerin ve sistem değişkenlerinin herhangi bir bileşimini kullanabilirsiniz.

    dinamik içerik ekleme

Kullanıcı özellikleri sekmesi

Bu panelde Apache Spark iş tanımı etkinliğinin özelliklerini ekleyebilirsiniz.

kullanıcı özellikleri

Sonraki adımlar

Azure Synapse Analytics desteği hakkında bilgi edinmek için aşağıdaki makalelere ilerleyin: