Azure Databricks işiyle ilk iş akışınızı oluşturma
Bu makalede, örnek veri kümesini okuma ve işleme görevlerini düzenleyen bir Azure Databricks işi gösterilmektedir. Bu hızlı başlangıçta:
- Yıla göre popüler bebek adlarını içeren örnek bir veri kümesini almak için yeni bir not defteri oluşturun ve kod ekleyin.
- Örnek veri kümesini Unity Kataloğu'na kaydedin.
- Unity Kataloğu'ndan veri kümesini okumak, yıla göre filtrelemek ve sonuçları görüntülemek için yeni bir not defteri oluşturun ve kod ekleyin.
- Yeni bir iş oluşturun ve not defterlerini kullanarak iki görev yapılandırın.
- İşi çalıştırın ve sonuçları görüntüleyin.
Gereksinimler
Çalışma alanınız Unity Kataloğu etkinse ve Sunucusuz İşler etkinse, iş varsayılan olarak Sunucusuz işlemde çalışır. İşinizi Sunucusuz işlemle çalıştırmak için küme oluşturma iznine ihtiyacınız yoktur.
Aksi takdirde, iş işlemi oluşturmak için küme oluşturma iznine veya tüm amaçlı işlem kaynaklarına yönelik izinlere sahip olmanız gerekir.
Unity Kataloğu'nda bir biriminiz olmalıdır. Bu makalede, adlı bir katalog içinde adlı my-volume
şemada adlı default
main
bir birim kullanılır. Ayrıca Unity Kataloğu'nda aşağıdaki izinlere sahip olmanız gerekir:
READ VOLUME
veWRITE VOLUME
, veyaALL PRIVILEGES
birim içinmy-volume
.USE SCHEMA
veyaALL PRIVILEGES
şema içindefault
.USE CATALOG
veyaALL PRIVILEGES
katalog içinmain
.
Bu izinleri ayarlamak için Databricks yöneticinize veya Unity Kataloğu ayrıcalıklarına ve güvenli hale getirilebilir nesnelere bakın.
Not defterlerini oluşturma
Verileri alma ve kaydetme
Örnek veri kümesini almak ve Unity Kataloğu'na kaydetmek için bir not defteri oluşturmak için:
Azure Databricks giriş sayfanıza gidin ve kenar çubuğunda Yeni'ye tıklayın ve Not Defteri'ni seçin. Databricks, varsayılan klasörünüzde yeni ve boş bir not defteri oluşturur ve açar. Varsayılan dil, en son kullandığınız dildir ve not defteri en son kullandığınız işlem kaynağına otomatik olarak eklenir.
Gerekirse varsayılan dili Python olarak değiştirin.
Aşağıdaki Python kodunu kopyalayın ve not defterinin ilk hücresine yapıştırın.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Filtrelenmiş verileri okuma ve görüntüleme
Filtreleme için verileri okumak ve sunmak üzere bir not defteri oluşturmak için:
Azure Databricks giriş sayfanıza gidin ve kenar çubuğunda Yeni'ye tıklayın ve Not Defteri'ni seçin. Databricks, varsayılan klasörünüzde yeni ve boş bir not defteri oluşturur ve açar. Varsayılan dil, en son kullandığınız dildir ve not defteri en son kullandığınız işlem kaynağına otomatik olarak eklenir.
Gerekirse varsayılan dili Python olarak değiştirin.
Aşağıdaki Python kodunu kopyalayın ve not defterinin ilk hücresine yapıştırın.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
İş oluşturma
Kenar çubuğunda İş Akışları'na tıklayın.
’a tıklayın.
Görevler sekmesi, görev oluştur iletişim kutusuyla birlikte görüntülenir.
İşiniz için ad ekle... yerine iş adınızı yazın.
Görev adı alanına görev için bir ad girin; örneğin, retrieve-baby-names.
Tür açılan menüsünde Not Defteri'ni seçin.
Oluşturduğunuz ilk not defterini bulmak için dosya tarayıcısını kullanın, not defteri adına tıklayın ve Onayla'ya tıklayın.
Görev oluştur'a tıklayın.
Yeni oluşturduğunuz görevin altına tıklayarak başka bir görev ekleyin.
Görev adı alanına görev için bir ad girin; örneğin, filter-baby-names.
Tür açılan menüsünde Not Defteri'ni seçin.
Oluşturduğunuz ikinci not defterini bulmak için dosya tarayıcısını kullanın, not defteri adına tıklayın ve Onayla'ya tıklayın.
Parametreler'in altında Ekle'ye tıklayın. Anahtar alanına girin
year
. Değer alanına girin2014
.Görev oluştur'a tıklayın.
İşi çalıştırma
İşi hemen çalıştırmak için sağ üst köşeye tıklayın . Ayrıca, Çalıştırmalar sekmesine ve Etkin Çalıştırmalar tablosunda Şimdi çalıştır'a tıklayarak da işi çalıştırabilirsiniz.
Çalıştırma ayrıntılarını görüntüleme
Çalıştırmalar sekmesine tıklayın ve Etkin Çalıştırmalar tablosunda veya Tamamlanan Çalıştırmalar (son 60 gün) tablosunda çalıştırmanın bağlantısına tıklayın.
Çıktıyı ve ayrıntıları görmek için iki görevden birini tıklatın. Örneğin, çıktıyı görüntülemek ve filtre görevinin ayrıntılarını çalıştırmak için filter-baby-names görevine tıklayın:
Farklı parametrelerle çalıştırma
İşi yeniden çalıştırmak ve farklı bir yıl için bebek adlarını filtrelemek için:
- Şimdi çalıştır'ın yanındaki öğesine tıklayın ve Farklı parametrelerle şimdi çalıştır'ı seçin veya Etkin Çalıştırmalar tablosunda farklı parametrelerle şimdi çalıştır'a tıklayın.
- Değer alanına girin
2015
. - Çalıştır'a tıklayın.