Azure Databricks ile dönüştürme
UYGULANANLAR: Azure Data Factory
Azure Synapse Analytics
İpucu
Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!
Bu öğreticide, Azure Data Factory'de Doğrulama, Veri Kopyalama ve Not Defteri etkinliklerini içeren uçtan uca bir işlem hattı oluşturacaksınız.
Doğrulama , kopyalama ve analiz işini tetiklemeden önce kaynak veri kümenizin aşağı akış tüketimine hazır olmasını sağlar.
Verileri kopyalama, kaynak veri kümesini Azure Databricks not defterine DBFS olarak bağlanan havuz depolama alanına çoğaltır. Bu şekilde veri kümesi spark tarafından doğrudan kullanılabilir.
Not defteri , veri kümesini dönüştüren Databricks not defterini tetikler. Ayrıca veri kümesini işlenmiş bir klasöre veya Azure Synapse Analytics'e ekler.
Kolaylık olması için, bu öğreticideki şablon zamanlanmış tetikleyici oluşturmaz. Gerekirse ekleyebilirsiniz.
Önkoşullar
Havuz olarak kullanılmak üzere çağrılan
sinkdata
bir kapsayıcıya sahip bir Azure Blob depolama hesabı.Depolama hesabı adını, kapsayıcı adını ve erişim anahtarını not edin. Bu değerlere şablonda daha sonra ihtiyacınız olacaktır.
Azure Databricks çalışma alanı.
Dönüştürme için not defterini içeri aktarma
Bir Dönüşüm not defterini Databricks çalışma alanınıza aktarmak için:
Azure Databricks çalışma alanınızda oturum açın ve İçeri Aktar'ı seçin.
Çalışma alanı yolunuz gösterilenden farklı olabilir, ancak daha sonra anımsayın.
İçeri aktar: URL'yi seçin. Metin kutusuna yazın
https://adflabstaging1.blob.core.windows.net/share/Transformations.html
.Şimdi Dönüştürme not defterini depolama bağlantı bilgilerinizle güncelleştirelim.
İçeri aktarılan not defterinde, aşağıdaki kod parçacığında gösterildiği gibi komut 5'e gidin.
- ve
<access key>
öğesini kendi depolama bağlantı bilgilerinizle değiştirin<storage name>
. - Kapsayıcı ile
sinkdata
depolama hesabını kullanın.
# Supply storageName and accessKey values storageName = "<storage name>" accessKey = "<access key>" try: dbutils.fs.mount( source = "wasbs://sinkdata\@"+storageName+".blob.core.windows.net/", mount_point = "/mnt/Data Factorydata", extra_configs = {"fs.azure.account.key."+storageName+".blob.core.windows.net": accessKey}) except Exception as e: # The error message has a long stack track. This code tries to print just the relevant line indicating what failed. import re result = re.findall(r"\^\s\*Caused by:\s*\S+:\s\*(.*)\$", e.message, flags=re.MULTILINE) if result: print result[-1] \# Print only the relevant error message else: print e \# Otherwise print the whole stack trace.
- ve
Data Factory'nin Databricks'e erişmesi için bir Databricks erişim belirteci oluşturun.
- Databricks çalışma alanınızda sağ üstteki kullanıcı profili simgenizi seçin.
- Kullanıcı Ayarları'nı seçin.
- Erişim Belirteçleri sekmesinin altında Yeni Belirteç Oluştur'a tıklayın.
- Oluştur seçeneğini belirleyin.
Databricks bağlı hizmeti oluştururken daha sonra kullanmak üzere erişim belirtecini kaydedin. Erişim belirteci gibi
dapi32db32cbb4w6eee18b7d87e45exxxxxx
görünür.
Bu şablonu kullanma
Azure Databricks ile Dönüştürme şablonuna gidin ve aşağıdaki bağlantılar için yeni bağlı hizmetler oluşturun.
Kaynak Blob Bağlantısı - kaynak verilere erişmek için.
Bu alıştırmada, kaynak dosyaları içeren genel blob depolama alanını kullanabilirsiniz. Yapılandırma için aşağıdaki ekran görüntüsüne başvurun. Kaynak depolamaya bağlanmak için aşağıdaki SAS URL'sini kullanın (salt okunur erişim):
https://storagewithdata.blob.core.windows.net/data?sv=2018-03-28&si=read%20and%20list&sr=c&sig=PuyyS6%2FKdB2JxcZN0kPlmHSBlD8uIKyzhBWmWzznkBw%3D
Hedef Blob Bağlantısı - kopyalanan verileri depolamak için.
Yeni bağlı hizmet penceresinde havuz depolama blobunuzu seçin.
Azure Databricks - Databricks kümesine bağlanmak için.
Daha önce oluşturduğunuz erişim anahtarını kullanarak Databricks bağlantılı bir hizmet oluşturun. Varsa etkileşimli bir küme seçebilirsiniz. Bu örnekte Yeni iş kümesi seçeneği kullanılmaktadır.
Bu şablonu kullan'ı seçin. Oluşturulan bir işlem hattı görürsünüz.
İşlem hattına giriş ve yapılandırma
Yeni işlem hattında çoğu ayar varsayılan değerlerle otomatik olarak yapılandırılır. İşlem hattınızın yapılandırmalarını gözden geçirin ve gerekli değişiklikleri yapın.
Doğrulama etkinliği Kullanılabilirlik bayrağında, kaynak Veri Kümesi değerinin daha önce oluşturduğunuz değere
SourceAvailabilityDataset
ayarlandığını doğrulayın.Veri kopyalama etkinliği dosyasından bloba bölümünde Kaynak ve Havuz sekmelerini denetleyin. Gerekirse ayarları değiştirin.
Kaynak sekmesi
Havuz sekmesi
Not Defteri etkinliği Dönüştürme bölümünde yolları ve ayarları gerektiği gibi gözden geçirin ve güncelleştirin.
Databricks bağlı hizmeti , gösterildiği gibi önceki bir adımdaki değerle önceden doldurulmalıdır:
Not Defteri ayarlarını denetlemek için:
Ayarlar sekmesini seçin. Not defteri yolu için varsayılan yolun doğru olduğunu doğrulayın. Göz atıp doğru not defteri yolunu seçmeniz gerekebilir.
Temel Parametreler seçicisini genişletin ve parametrelerin aşağıdaki ekran görüntüsünde gösterilenle eşleşip eşleşmediğini doğrulayın. Bu parametreler Data Factory'den Databricks not defterine geçirilir.
İşlem Hattı Parametrelerinin aşağıdaki ekran görüntüsünde gösterilenle eşleştiklerini doğrulayın:
Veri kümelerinize bağlanın.
Not
Aşağıdaki veri kümelerinde, dosya yolu şablonda otomatik olarak belirtilmiştir. Herhangi bir değişiklik gerekiyorsa, bağlantı hatası durumunda hem kapsayıcı hem de dizin için yolu belirttiğinizden emin olun.
SourceAvailabilityDataset - kaynak verilerin kullanılabilir olup olmadığını denetlemek için.
SourceFilesDataset - kaynak verilere erişmek için.
DestinationFilesDataset - verileri havuz hedef konumuna kopyalamak için. Aşağıdaki değerleri kullanın:
Önceki adımda oluşturulan bağlı hizmet -
sinkBlob_LS
.Dosya yolu -
sinkdata/staged_sink
.
İşlem hattını çalıştırmak için Hata Ayıkla'ya tıklayın. Daha ayrıntılı Spark günlükleri için Databricks günlüklerinin bağlantısını bulabilirsiniz.
Veri dosyasını Azure Depolama Gezgini kullanarak da doğrulayabilirsiniz.
Not
Data Factory işlem hattı çalıştırmalarıyla bağıntı için bu örnek, veri fabrikasındaki işlem hattı çalıştırma kimliğini çıkış klasörüne ekler. Bu, her çalıştırma tarafından oluşturulan dosyaların izlenmesine yardımcı olur.
İlgili içerik
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin