Azure Data Lake Storage 2. Nesil verileri ekleme
Bu makalede, Azure Data Lake Storage 2. Nesil yeni bir Azure Databricks çalışma alanına veri ekleme işlemi açıklanmaktadır. Bir Unity Kataloğu birimine (önerilir) veya Unity Kataloğu dış konumuna karşılık gelen bir bulut nesne depolama konumundaki kaynak verilere güvenli bir şekilde erişmeyi öğreneceksiniz. Ardından Delta Live Tablolu Otomatik Yükleyici'yi kullanarak verileri artımlı olarak Unity Kataloğu yönetilen tablosuna almayı öğreneceksiniz.
Not
Verileri not defteri yerine Databricks SQL'e eklemek için bkz . Databricks SQL'de akış tablolarını kullanarak veri yükleme.
Başlamadan önce
Yönetici değilseniz, bu makalede bir yöneticinin size aşağıdakileri sağladığı varsayılır:
Unity Kataloğu etkinleştirilmiş bir Azure Databricks çalışma alanına erişim. Daha fazla bilgi için bkz . Unity Kataloğu'nu ayarlama ve yönetme.
READ FILES
Unity Kataloğu dış birimi veya kaynak verilerinizi içeren bulut depolama konumuna karşılık gelen Unity Kataloğu dış konumu üzerindeki izin. Daha fazla bilgi için bkz . Bulut depolama alanını Azure Databricks'e bağlamak için dış konum oluşturma.Kaynak verilerinizin yolu.
Birim yolu örneği:
/Volumes/<catalog>/<schema>/<volume>/<path>/<folder>
Dış konum yolu örneği:
abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>
Verileri
USE SCHEMA
yüklemek istediğiniz şemadaki veCREATE TABLE
ayrıcalıkları.Delta Live Tables işlem hattı kümesini tanımlayan bir küme ilkesine küme oluşturma izni veya erişimi (
cluster_type
olarak ayarlanmışdlt
alan).Kaynak verilerinizin yolu bir birim yoluysa, kümenizin Databricks Runtime 13.3 LTS veya üzerini çalıştırması gerekir.
Önemli
Bu önkoşullar hakkında sorularınız varsa hesap yöneticinize başvurun.
1. Adım: Küme oluşturma
Küme oluşturmak için aşağıdakileri yapın:
- Azure Databricks çalışma alanınızda oturum açın.
- Kenar çubuğunda Yeni Küme'ye> tıklayın.
- Kümeler kullanıcı arabiriminde kümeniz için benzersiz bir ad belirtin.
- Kaynak verilerinizin yolu bir birim yoluysa Databricks Runtime çalışma zamanı sürümü için 13.2 veya üzerini seçin.
- Küme oluştur’a tıklayın.
2. Adım: Veri araştırma not defteri oluşturma
Bu bölümde, veri işlem hattınızı oluşturmadan önce verilerinizi anlayabilmek için veri araştırma not defterinin nasıl oluşturulacağı açıklanır.
Kenar çubuğunda +Yeni Not Defteri'ne> tıklayın.
Not defteri, kullandığınız son kümeye (bu örnekte 1. Adım: Küme oluşturma) oluşturduğunuz kümeye otomatik olarak eklenir.
Not defteri için bir ad girin.
Dil düğmesine tıklayın ve açılan menüden veya
SQL
öğesini seçinPython
.Python
varsayılan olarak seçilidir.ADLS 2. Nesil'de kaynak verilerinize veri erişimini onaylamak için, aşağıdaki kodu bir not defteri hücresine yapıştırın, öğesine tıklayın
ve ardından Hücreyi Çalıştır'a tıklayın.
SQL
LIST '<path-to-source-data>'
Python
%fs ls '<path-to-source-data>'
değerini, verilerinizi içeren dizinin yoluyla değiştirin
<path-to-source-data>
.Bu, veri kümesini içeren dizinin içeriğini görüntüler.
Kayıtların bir örneğini görüntüleyip her kaydın içeriğini ve biçimini daha iyi anlamak için, aşağıdakileri bir not defteri hücresine yapıştırın, öğesine tıklayın
ve ardından Hücreyi Çalıştır'a tıklayın.
SQL
SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
Python
spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
Aşağıdaki değerleri değiştirin:
<file-format>
: Desteklenen bir dosya biçimi. Bkz. Dosya biçimi seçenekleri.<path to source data>
: Verilerinizi içeren dizindeki bir dosyanın yolu.
Bu, belirtilen dosyadaki ilk on kaydı görüntüler.
3. Adım: Ham verileri alma
Ham verileri almak için aşağıdakileri yapın:
Kenar çubuğunda Yeni Not Defteri'ne> tıklayın.
Not defteri, kullandığınız son kümeye (bu örnekte, bu makalenin önceki bölümlerinde oluşturduğunuz küme) otomatik olarak eklenir.
Not defteri için bir ad girin.
Dil düğmesine tıklayın ve açılan menüden veya
SQL
öğesini seçinPython
.Python
varsayılan olarak seçilidir.Not defteri hücresine aşağıdaki kodu yapıştırın:
SQL
CREATE OR REFRESH STREAMING TABLE <table-name> AS SELECT * FROM STREAM read_files( '<path-to-source-data>', format => '<file-format>' )
Python
@dlt.table(table_properties={'quality': 'bronze'}) def <table-name>(): return ( spark.readStream.format('cloudFiles') .option('cloudFiles.format', '<file-format>') .load(f'{<path-to-source-data>}') )
Aşağıdaki değerleri değiştirin:
<table-name>
: Alınan kayıtları içeren tablonun adı.<path-to-source-data>
: Kaynak verilerinizin yolu.<file-format>
: Desteklenen bir dosya biçimi. Bkz. Dosya biçimi seçenekleri.
Not
Delta Live Tabloları, not defteri hücrelerinde etkileşimli olarak çalışacak şekilde tasarlanmamıştır. Not defterinde Delta Live Tables söz dizimi içeren bir hücrenin çalıştırılması, sorgunun söz dizimsel olarak geçerli olup olmadığını ancak sorgu mantığını çalıştırmadığını belirten bir ileti döndürür. Aşağıdaki adımda, yeni oluşturduğunuz alım not defterinden işlem hattı oluşturma işlemi açıklanmaktadır.
4. Adım: İşlem hattı oluşturma ve yayımlama
İşlem hattı oluşturmak ve Unity Kataloğu'na yayımlamak için aşağıdakileri yapın:
- Kenar çubuğunda İş Akışları'na, Delta Live Tablolar sekmesine ve ardından İşlem hattı oluştur'a tıklayın.
- İşlem hattınız için bir ad girin.
- İşlem hattı modu için Tetiklenmiş'i seçin.
- Kaynak kodu için işlem hattı kaynak kodunuzu içeren not defterini seçin.
- Hedef için Unity Kataloğu'nu seçin.
- Tablonuzun Unity Kataloğu tarafından yönetildiğinden ve üst şemaya erişimi olan herhangi bir kullanıcının bunu sorgulaya çalıştığından emin olmak için, açılan listelerden bir Katalog ve Hedef şema seçin.
- Küme oluşturma izniniz yoksa, açılan listeden Delta Live Tables'ı destekleyen bir Küme ilkesi seçin.
- Gelişmiş için Kanalı Önizleme olarak ayarlayın.
- Diğer tüm varsayılan değerleri kabul edin ve Oluştur'a tıklayın.
5. Adım: İşlem hattını zamanlama
İşlem hattını zamanlamak için aşağıdakileri yapın:
- Kenar çubuğunda Delta Live Tables'a tıklayın.
- Zamanlamak istediğiniz işlem hattının adına tıklayın.
- Zamanlama Zamanlama>Zamanlama'ya tıklayın.
- İş adı için iş için bir ad girin.
- Zamanlamayı Zamanlandı olarak ayarlayın.
- Dönemi, başlangıç saatini ve saat dilimini belirtin.
- İşlem hattı başlatma, başarı veya hata uyarılarını almak için bir veya daha fazla e-posta adresi yapılandırın.
- Oluştur’a tıklayın.
Sonraki adımlar
- Kullanıcılara yeni tabloya erişim izni verin. Daha fazla bilgi için bkz . Unity Kataloğu ayrıcalıkları ve güvenliği sağlanabilir nesneler.
- Yeni tabloya erişimi olan kullanıcılar artık bir not defterindeki tabloyu sorgulayabilir veya Databricks SQL düzenleyicisini kullanabilir.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin