Aracılığıyla paylaş


Dokuda Apache Spark iş tanımı oluşturma

Bu öğreticide, Microsoft Fabric'te Spark iş tanımı oluşturmayı öğrenin.

Önkoşullar

Başlamadan önce şunlar gereklidir:

İpucu

Spark iş tanımı öğesini çalıştırmak için bir ana tanım dosyanız ve varsayılan lakehouse bağlamı olmalıdır. Göl evi yoksa Göl evi oluşturma bölümünde yer alan adımları izleyerek bir tane oluşturabilirsiniz.

Spark iş tanımı oluşturma

Spark iş tanımı oluşturma işlemi hızlı ve basittir; kullanmaya başlamanın birkaç yolu vardır.

Spark iş tanımı oluşturma seçenekleri

Oluşturma işlemine başlamanın birkaç yolu vardır:

  • Veri mühendisliği giriş sayfası: Giriş sayfasındaki Yeni bölümünün altındaki Spark İş Tanımı kartı aracılığıyla kolayca bir Spark iş tanımı oluşturabilirsiniz.

    Spark iş tanımı kartının seçileceği yeri gösteren ekran görüntüsü.

  • Çalışma alanı görünümü: Yeni açılan menüsünü kullanarak Veri Madenciliği çalışma alanı aracılığıyla bir Spark iş tanımı da oluşturabilirsiniz.

    Yeni menüsünde Spark iş tanımının seçileceği yeri gösteren ekran görüntüsü.

  • Görünüm oluşturma: Spark iş tanımı oluşturmaya ilişkin bir diğer giriş noktası da Veri Madenciliği altındaki Oluştur sayfasıdır.

    Merkez Oluştur'da Spark iş tanımının seçileceği yeri gösteren ekran görüntüsü.

Spark iş tanımınızı oluştururken bir ad vermeniz gerekir. Ad geçerli çalışma alanında benzersiz olmalıdır. Yeni Spark iş tanımı geçerli çalışma alanınızda oluşturulur.

PySpark için Spark iş tanımı oluşturma (Python)

PySpark için spark iş tanımı oluşturmak için:

  1. yellow_tripdata_2022-01.parquet örnek Parquet dosyasını indirin ve lakehouse'un dosyalar bölümüne yükleyin.

  2. Yeni bir Spark iş tanımı oluşturun.

  3. Dil açılan listesinden PySpark (Python) öğesini seçin.

  4. createTablefromParquet.py örneğini indirin ve ana tanım dosyası olarak karşıya yükleyin. Ana tanım dosyası (iş. Main) uygulama mantığını içeren ve Spark işini çalıştırmak için zorunlu olan dosyadır. Her Spark iş tanımı için yalnızca bir ana tanım dosyası yükleyebilirsiniz.

    Ana tanım dosyasını yerel masaüstünüzden karşıya yükleyebilir veya dosyanın tam ABFSS yolunu sağlayarak mevcut bir Azure Data Lake Storage (ADLS) 2. Nesil'den karşıya yükleyebilirsiniz. Örneğin, abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  5. Başvuru dosyalarını .py dosyaları olarak karşıya yükleyin. Başvuru dosyaları, ana tanım dosyası tarafından içeri aktarılan Python modülleridir. Ana tanım dosyasında olduğu gibi, masaüstünüzden veya mevcut bir ADLS 2. Nesil'den karşıya yükleyebilirsiniz. Birden çok başvuru dosyası desteklenir.

    İpucu

    ADLS 2. Nesil yolu kullanıyorsanız, dosyanın erişilebilir olduğundan emin olmak için işi çalıştıran kullanıcı hesabına depolama hesabı için uygun izni vermeniz gerekir. Bunu yapmanın iki farklı yolunu öneririz:

    • Depolama hesabı için kullanıcı hesabına Katkıda Bulunan rolü atayın.
    • ADLS 2. Nesil Erişim Denetim Listesi (ACL) aracılığıyla dosya için kullanıcı hesabına Okuma ve Yürütme izni verin.

    El ile çalıştırma için, işi çalıştırmak için geçerli oturum açma kullanıcısının hesabı kullanılır.

  6. Gerekirse iş için komut satırı bağımsız değişkenleri sağlayın. Bağımsız değişkenleri ayırmak için bölücü olarak boşluk kullanın.

  7. göl evi başvuruyu işe ekleyin. İşe en az bir göl evi başvurusu eklemiş olmanız gerekir. Bu göl evi, işin varsayılan göl evi bağlamıdır.

    Birden çok lakehouse başvurusu desteklenir. Spark Ayarları sayfasında varsayılan olmayan lakehouse adını ve tam OneLake URL'sini bulun.

    Doldurulan bir ana tanım dosyası ekranının örneğini gösteren ekran görüntüsü.

Scala/Java için Spark iş tanımı oluşturma

Scala/Java için Spark iş tanımı oluşturmak için:

  1. Yeni bir Spark iş tanımı oluşturun.

  2. Dil açılan listesinden Spark(Scala/Java) öğesini seçin.

  3. Ana tanım dosyasını .jar dosyası olarak karşıya yükleyin. Ana tanım dosyası, bu işin uygulama mantığını içeren dosyadır ve spark işini çalıştırmak için zorunludur. Her Spark iş tanımı için yalnızca bir ana tanım dosyası yükleyebilirsiniz. Ana sınıf adını belirtin.

  4. Başvuru dosyalarını .jar dosyaları olarak karşıya yükleyin. Başvuru dosyaları, ana tanım dosyası tarafından başvuruda bulunan/içeri aktarılan dosyalardır.

  5. Gerekirse iş için komut satırı bağımsız değişkenleri sağlayın.

  6. göl evi başvuruyu işe ekleyin. İşe en az bir göl evi başvurusu eklemiş olmanız gerekir. Bu göl evi, işin varsayılan göl evi bağlamıdır.

R için Spark iş tanımı oluşturma

SparkR(R) için bir Spark iş tanımı oluşturmak için:

  1. Yeni bir Spark iş tanımı oluşturun.

  2. Dil açılan listesinden SparkR(R) öğesini seçin.

  3. Ana tanım dosyasını olarak karşıya yükleyin. R dosyası. Ana tanım dosyası, bu işin uygulama mantığını içeren dosyadır ve spark işini çalıştırmak için zorunludur. Her Spark iş tanımı için yalnızca bir ana tanım dosyası yükleyebilirsiniz.

  4. Başvuru dosyalarını olarak karşıya yükleyin. R dosyaları. Başvuru dosyaları, ana tanım dosyası tarafından başvuruda bulunan/içeri aktarılan dosyalardır.

  5. Gerekirse iş için komut satırı bağımsız değişkenleri sağlayın.

  6. göl evi başvuruyu işe ekleyin. İşe en az bir göl evi başvurusu eklemiş olmanız gerekir. Bu göl evi, işin varsayılan göl evi bağlamıdır.

Not

Spark iş tanımı geçerli çalışma alanınızda oluşturulur.

Spark iş tanımlarını özelleştirme seçenekleri

Spark iş tanımlarının yürütülmesini özelleştirmek için birkaç seçenek vardır.

  • Spark İşlem: Spark İşlem sekmesinde, işi çalıştırmak için kullanılacak Spark sürümü olan Çalışma Zamanı Sürümünü görebilirsiniz. İşi çalıştırmak için kullanılacak Spark yapılandırma ayarlarını da görebilirsiniz. Ekle düğmesine tıklayarak Spark yapılandırma ayarlarını özelleştirebilirsiniz.
  • İyileştirme: İyileştirme sekmesinde, iş için Yeniden Deneme İlkesi'ni etkinleştirebilir ve ayarlayabilirsiniz. Etkinleştirildiğinde, başarısız olursa iş yeniden denener. Yeniden deneme sayısı üst sınırını ve yeniden denemeler arasındaki aralığı da ayarlayabilirsiniz. Her yeniden deneme girişimi için iş yeniden başlatılır. İşin bir kez etkili olduğundan emin olun.

    Yeniden deneme ilkesinin ayarlanacağı yeri gösteren ekran görüntüsü.