Hızlı Başlangıç: Apache Spark iş tanımını kullanarak verileri dönüştürme
Bu hızlı başlangıçta, Apache Spark iş tanımını kullanarak işlem hattı oluşturmak için Azure Synapse Analytics'i kullanacaksınız.
Önkoşullar
- Azure aboneliği: Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir Azure hesabı oluşturun.
- Azure Synapse çalışma alanı: Hızlı Başlangıç: Synapse çalışma alanı oluşturma başlığı altında yer alan yönergeleri izleyerek Azure portal kullanarak bir Synapse çalışma alanı oluşturun.
- Apache Spark iş tanımı: Öğretici: Synapse Studio'de Apache Spark iş tanımı oluşturma başlığı altında yer alan yönergeleri izleyerek Synapse çalışma alanında bir Apache Spark iş tanımı oluşturun.
Synapse Studio gidin
Azure Synapse çalışma alanınız oluşturulduktan sonra Synapse Studio açmanın iki yolu vardır:
- Azure portal Synapse çalışma alanınızı açın. Başlarken'in altındaki Aç Synapse Studio kartında Aç'ı seçin.
- Azure Synapse Analytics'i açın ve çalışma alanınızda oturum açın.
Bu hızlı başlangıçta örnek olarak "sampletest" adlı çalışma alanını kullanacağız. Otomatik olarak Synapse Studio giriş sayfasına gidersiniz.
Apache Spark iş tanımıyla işlem hattı oluşturma
İşlem hattı, bir etkinlik kümesinin yürütülmesi için mantıksal akışı içerir. Bu bölümde Apache Spark iş tanımı etkinliğini içeren bir işlem hattı oluşturacaksınız.
Tümleştir sekmesine gidin. İşlem hatları üst bilgisinin yanındaki artı simgesini ve ardından İşlem Hattı'nı seçin.
İşlem hattının Özellikler ayarları sayfasında Ad için tanıtım girin.
Etkinlikler bölmesindeki Synapse'in altında Spark işi tanımını işlem hattı tuvaline sürükleyin.
Apache Spark iş tanımı tuvalini ayarlama
Apache Spark iş tanımınızı oluşturduktan sonra otomatik olarak Spark iş tanımı tuvaline gönderilirsiniz.
Genel ayarlar
Tuvalde spark iş tanımı modülünü seçin.
Genel sekmesinde Ad için örnek girin.
(Seçenek) Açıklama da girebilirsiniz.
Zaman aşımı: Bir etkinliğin çalışabileceği en uzun süre. Varsayılan değer yedi gündür ve bu da izin verilen en fazla süredir. Biçim D.HH:MM:SS biçimindedir.
Yeniden deneme: En fazla yeniden deneme denemesi sayısı.
Yeniden deneme aralığı: Her yeniden deneme girişimi arasındaki saniye sayısı.
Güvenli çıkış: İşaretlendiğinde, etkinlik çıkışı günlüğe kaydetme sırasında yakalanmaz.
Güvenli giriş: İşaretlendiğinde, etkinlikten gelen giriş günlüğe kaydetme sırasında yakalanmaz.
Ayarlar sekmesi
Bu panelde, çalıştırılacak Spark iş tanımına başvurabilirsiniz.
Spark iş tanımı listesini genişletin, mevcut bir Apache Spark iş tanımını seçebilirsiniz. Çalıştırılacak Spark iş tanımına başvurmak için Yeni düğmesini seçerek yeni bir Apache Spark iş tanımı da oluşturabilirsiniz.
(İsteğe bağlı) Apache Spark iş tanımı bilgilerini doldurabilirsiniz. Aşağıdaki ayarlar boşsa spark iş tanımının kendisi çalıştırmak için kullanılır; Aşağıdaki ayarlar boş değilse, bu ayarlar Spark iş tanımının ayarlarının yerini alır.
Özellik Açıklama Ana tanım dosyası İş için kullanılan ana dosya. Depolama alanınızdan bir PY/JAR/ZIP dosyası seçin. Dosyayı bir depolama hesabına yüklemek için Dosyayı karşıya yükle'yi seçebilirsiniz.
Örnek:abfss://…/path/to/wordcount.jar
Alt klasörlerden başvurular Ana tanım dosyasının kök klasöründen alt klasörler taranıyorsa, bu dosyalar başvuru dosyaları olarak eklenir. "jars", "pyFiles", "files" veya "archives" adlı klasörler taranır ve klasör adı büyük/küçük harfe duyarlıdır. Ana sınıf adı Tam tanımlayıcı veya ana tanım dosyasındaki ana sınıf.
Örnek:WordCount
Komut satırı bağımsız değişkenleri Yeni düğmesine tıklayarak komut satırı bağımsız değişkenleri ekleyebilirsiniz. Komut satırı bağımsız değişkenlerinin eklenmesinin Spark iş tanımı tarafından tanımlanan komut satırı bağımsız değişkenlerini geçersiz kılacağı belirtilmelidir.
Örnek:abfss://…/path/to/shakespeare.txt
abfss://…/path/to/result
Apache Spark havuzu Listeden Apache Spark havuzunu seçebilirsiniz. Python kod başvurusu Ana tanım dosyasında başvuru için kullanılan ek Python kod dosyaları.
Dosyaları (.py, .py3, .zip) "pyFiles" özelliğine geçirmeyi destekler. Spark iş tanımında tanımlanan "pyFiles" özelliğini geçersiz kılar.Başvuru dosyaları Ana tanım dosyasında başvuru için kullanılan ek dosyalar. Yürütücüleri dinamik olarak ayırma Bu ayar, Spark Uygulaması yürütücüleri ayırma için Spark yapılandırmasındaki dinamik ayırma özelliğine eşler. En düşük yürütücüler İş için belirtilen Spark havuzunda ayrılacak en az yürütücü sayısı. En fazla yürütücü İş için belirtilen Spark havuzunda ayrılacak en fazla yürütücü sayısı. Sürücü boyutu İş için belirtilen Apache Spark havuzunda verilen sürücü için kullanılacak çekirdek ve bellek sayısı. Spark yapılandırması Şu konuda listelenen Spark yapılandırma özellikleri için değerleri belirtin: Spark Yapılandırması - Uygulama özellikleri. Kullanıcılar varsayılan yapılandırmayı ve özelleştirilmiş yapılandırmayı kullanabilir. Dinamik İçerik Ekle düğmesine tıklayarak veya Alt+Shift+D kısayol tuşuna basarak dinamik içerik ekleyebilirsiniz. Dinamik İçerik Ekle sayfasında, dinamik içeriğe eklemek için ifadelerin, işlevlerin ve sistem değişkenlerinin herhangi bir bileşimini kullanabilirsiniz.
Kullanıcı özellikleri sekmesi
Bu panelde Apache Spark iş tanımı etkinliğinin özelliklerini ekleyebilirsiniz.
Sonraki adımlar
Azure Synapse Analytics desteği hakkında bilgi edinmek için aşağıdaki makalelere ilerleyin:
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin