Dokuda Apache Spark iş tanımı oluşturma
Bu öğreticide, Microsoft Fabric'te Spark iş tanımı oluşturmayı öğrenin.
Önkoşullar
Başlamadan önce şunlar gereklidir:
- Etkin aboneliğe sahip bir Doku kiracı hesabı. Ücretsiz hesap oluşturun.
İpucu
Spark iş tanımı öğesini çalıştırmak için bir ana tanım dosyanız ve varsayılan lakehouse bağlamı olmalıdır. Göl evi yoksa Göl evi oluşturma bölümünde yer alan adımları izleyerek bir tane oluşturabilirsiniz.
Spark iş tanımı oluşturma
Spark iş tanımı oluşturma işlemi hızlı ve basittir; kullanmaya başlamanın birkaç yolu vardır.
Spark iş tanımı oluşturma seçenekleri
Oluşturma işlemine başlamanın birkaç yolu vardır:
Veri mühendisliği giriş sayfası: Giriş sayfasındaki Yeni bölümünün altındaki Spark İş Tanımı kartı aracılığıyla kolayca bir Spark iş tanımı oluşturabilirsiniz.
Çalışma alanı görünümü: Yeni açılan menüsünü kullanarak Veri Madenciliği çalışma alanı aracılığıyla bir Spark iş tanımı da oluşturabilirsiniz.
Görünüm oluşturma: Spark iş tanımı oluşturmaya ilişkin bir diğer giriş noktası da Veri Madenciliği altındaki Oluştur sayfasıdır.
Spark iş tanımınızı oluştururken bir ad vermeniz gerekir. Ad geçerli çalışma alanında benzersiz olmalıdır. Yeni Spark iş tanımı geçerli çalışma alanınızda oluşturulur.
PySpark için Spark iş tanımı oluşturma (Python)
PySpark için spark iş tanımı oluşturmak için:
yellow_tripdata_2022-01.parquet örnek Parquet dosyasını indirin ve lakehouse'un dosyalar bölümüne yükleyin.
Yeni bir Spark iş tanımı oluşturun.
Dil açılan listesinden PySpark (Python) öğesini seçin.
createTablefromParquet.py örneğini indirin ve ana tanım dosyası olarak karşıya yükleyin. Ana tanım dosyası (iş. Main) uygulama mantığını içeren ve Spark işini çalıştırmak için zorunlu olan dosyadır. Her Spark iş tanımı için yalnızca bir ana tanım dosyası yükleyebilirsiniz.
Ana tanım dosyasını yerel masaüstünüzden karşıya yükleyebilir veya dosyanın tam ABFSS yolunu sağlayarak mevcut bir Azure Data Lake Storage (ADLS) 2. Nesil'den karşıya yükleyebilirsiniz. Örneğin,
abfss://your-storage-account-name.dfs.core.windows.net/your-file-path
.Başvuru dosyalarını .py dosyaları olarak karşıya yükleyin. Başvuru dosyaları, ana tanım dosyası tarafından içeri aktarılan Python modülleridir. Ana tanım dosyasında olduğu gibi, masaüstünüzden veya mevcut bir ADLS 2. Nesil'den karşıya yükleyebilirsiniz. Birden çok başvuru dosyası desteklenir.
İpucu
ADLS 2. Nesil yolu kullanıyorsanız, dosyanın erişilebilir olduğundan emin olmak için işi çalıştıran kullanıcı hesabına depolama hesabı için uygun izni vermeniz gerekir. Bunu yapmanın iki farklı yolunu öneririz:
- Depolama hesabı için kullanıcı hesabına Katkıda Bulunan rolü atayın.
- ADLS 2. Nesil Erişim Denetim Listesi (ACL) aracılığıyla dosya için kullanıcı hesabına Okuma ve Yürütme izni verin.
El ile çalıştırma için, işi çalıştırmak için geçerli oturum açma kullanıcısının hesabı kullanılır.
Gerekirse iş için komut satırı bağımsız değişkenleri sağlayın. Bağımsız değişkenleri ayırmak için bölücü olarak boşluk kullanın.
göl evi başvuruyu işe ekleyin. İşe en az bir göl evi başvurusu eklemiş olmanız gerekir. Bu göl evi, işin varsayılan göl evi bağlamıdır.
Birden çok lakehouse başvurusu desteklenir. Spark Ayarları sayfasında varsayılan olmayan lakehouse adını ve tam OneLake URL'sini bulun.
Scala/Java için Spark iş tanımı oluşturma
Scala/Java için Spark iş tanımı oluşturmak için:
Yeni bir Spark iş tanımı oluşturun.
Dil açılan listesinden Spark(Scala/Java) öğesini seçin.
Ana tanım dosyasını .jar dosyası olarak karşıya yükleyin. Ana tanım dosyası, bu işin uygulama mantığını içeren dosyadır ve spark işini çalıştırmak için zorunludur. Her Spark iş tanımı için yalnızca bir ana tanım dosyası yükleyebilirsiniz. Ana sınıf adını belirtin.
Başvuru dosyalarını .jar dosyaları olarak karşıya yükleyin. Başvuru dosyaları, ana tanım dosyası tarafından başvuruda bulunan/içeri aktarılan dosyalardır.
Gerekirse iş için komut satırı bağımsız değişkenleri sağlayın.
göl evi başvuruyu işe ekleyin. İşe en az bir göl evi başvurusu eklemiş olmanız gerekir. Bu göl evi, işin varsayılan göl evi bağlamıdır.
R için Spark iş tanımı oluşturma
SparkR(R) için bir Spark iş tanımı oluşturmak için:
Yeni bir Spark iş tanımı oluşturun.
Dil açılan listesinden SparkR(R) öğesini seçin.
Ana tanım dosyasını olarak karşıya yükleyin. R dosyası. Ana tanım dosyası, bu işin uygulama mantığını içeren dosyadır ve spark işini çalıştırmak için zorunludur. Her Spark iş tanımı için yalnızca bir ana tanım dosyası yükleyebilirsiniz.
Başvuru dosyalarını olarak karşıya yükleyin. R dosyaları. Başvuru dosyaları, ana tanım dosyası tarafından başvuruda bulunan/içeri aktarılan dosyalardır.
Gerekirse iş için komut satırı bağımsız değişkenleri sağlayın.
göl evi başvuruyu işe ekleyin. İşe en az bir göl evi başvurusu eklemiş olmanız gerekir. Bu göl evi, işin varsayılan göl evi bağlamıdır.
Not
Spark iş tanımı geçerli çalışma alanınızda oluşturulur.
Spark iş tanımlarını özelleştirme seçenekleri
Spark iş tanımlarının yürütülmesini özelleştirmek için birkaç seçenek vardır.
- Spark İşlem: Spark İşlem sekmesinde, işi çalıştırmak için kullanılacak Spark sürümü olan Çalışma Zamanı Sürümünü görebilirsiniz. İşi çalıştırmak için kullanılacak Spark yapılandırma ayarlarını da görebilirsiniz. Ekle düğmesine tıklayarak Spark yapılandırma ayarlarını özelleştirebilirsiniz.
İyileştirme: İyileştirme sekmesinde, iş için Yeniden Deneme İlkesi'ni etkinleştirebilir ve ayarlayabilirsiniz. Etkinleştirildiğinde, başarısız olursa iş yeniden denener. Yeniden deneme sayısı üst sınırını ve yeniden denemeler arasındaki aralığı da ayarlayabilirsiniz. Her yeniden deneme girişimi için iş yeniden başlatılır. İşin bir kez etkili olduğundan emin olun.