Aracılığıyla paylaş


Azure Data Lake Storage 2. Nesil verileri ekleme

Bu makalede, Azure Data Lake Storage 2. Nesil yeni bir Azure Databricks çalışma alanına veri ekleme işlemi açıklanmaktadır. Bir Unity Kataloğu birimine (önerilir) veya Unity Kataloğu dış konumuna karşılık gelen bir bulut nesne depolama konumundaki kaynak verilere güvenli bir şekilde erişmeyi öğreneceksiniz. Ardından Delta Live Tablolu Otomatik Yükleyici'yi kullanarak verileri artımlı olarak Unity Kataloğu yönetilen tablosuna almayı öğreneceksiniz.

Not

Verileri not defteri yerine Databricks SQL'e eklemek için bkz . Databricks SQL'de akış tablolarını kullanarak veri yükleme.

Başlamadan önce

Yönetici değilseniz, bu makalede bir yöneticinin size aşağıdakileri sağladığı varsayılır:

  • Unity Kataloğu etkinleştirilmiş bir Azure Databricks çalışma alanına erişim. Daha fazla bilgi için bkz . Unity Kataloğu'nu ayarlama ve yönetme.

  • READ FILES Unity Kataloğu dış birimi veya kaynak verilerinizi içeren bulut depolama konumuna karşılık gelen Unity Kataloğu dış konumu üzerindeki izin. Daha fazla bilgi için bkz . Bulut depolama alanını Azure Databricks'e bağlamak için dış konum oluşturma.

  • Kaynak verilerinizin yolu.

    Birim yolu örneği: /Volumes/<catalog>/<schema>/<volume>/<path>/<folder>

    Dış konum yolu örneği: abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>

  • Verileri USE SCHEMA yüklemek istediğiniz şemadaki ve CREATE TABLE ayrıcalıkları.

  • Delta Live Tables işlem hattı kümesini tanımlayan bir küme ilkesine küme oluşturma izni veya erişimi (cluster_type olarak ayarlanmış dltalan).

    Kaynak verilerinizin yolu bir birim yoluysa, kümenizin Databricks Runtime 13.3 LTS veya üzerini çalıştırması gerekir.

Önemli

Bu önkoşullar hakkında sorularınız varsa hesap yöneticinize başvurun.

1. Adım: Küme oluşturma

Küme oluşturmak için aşağıdakileri yapın:

  1. Azure Databricks çalışma alanınızda oturum açın.
  2. Kenar çubuğunda Yeni Küme'ye> tıklayın.
  3. Kümeler kullanıcı arabiriminde kümeniz için benzersiz bir ad belirtin.
  4. Kaynak verilerinizin yolu bir birim yoluysa Databricks Runtime çalışma zamanı sürümü için 13.2 veya üzerini seçin.
  5. Küme oluştur’a tıklayın.

2. Adım: Veri araştırma not defteri oluşturma

Bu bölümde, veri işlem hattınızı oluşturmadan önce verilerinizi anlayabilmek için veri araştırma not defterinin nasıl oluşturulacağı açıklanır.

  1. Kenar çubuğunda +Yeni Not Defteri'ne> tıklayın.

    Not defteri, kullandığınız son kümeye (bu örnekte 1. Adım: Küme oluşturma) oluşturduğunuz kümeye otomatik olarak eklenir.

  2. Not defteri için bir ad girin.

  3. Dil düğmesine tıklayın ve açılan menüden veya SQL öğesini seçinPython. Python varsayılan olarak seçilidir.

  4. ADLS 2. Nesil'de kaynak verilerinize veri erişimini onaylamak için, aşağıdaki kodu bir not defteri hücresine yapıştırın, öğesine tıklayın Çalıştır Menüsüve ardından Hücreyi Çalıştır'a tıklayın.

    SQL

    LIST '<path-to-source-data>'
    

    Python

    %fs ls '<path-to-source-data>'
    

    değerini, verilerinizi içeren dizinin yoluyla değiştirin <path-to-source-data> .

    Bu, veri kümesini içeren dizinin içeriğini görüntüler.

  5. Kayıtların bir örneğini görüntüleyip her kaydın içeriğini ve biçimini daha iyi anlamak için, aşağıdakileri bir not defteri hücresine yapıştırın, öğesine tıklayın Çalıştır Menüsüve ardından Hücreyi Çalıştır'a tıklayın.

    SQL

    SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
    

    Python

    spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
    

    Aşağıdaki değerleri değiştirin:

    • <file-format>: Desteklenen bir dosya biçimi. Bkz. Dosya biçimi seçenekleri.
    • <path to source data>: Verilerinizi içeren dizindeki bir dosyanın yolu.

    Bu, belirtilen dosyadaki ilk on kaydı görüntüler.

3. Adım: Ham verileri alma

Ham verileri almak için aşağıdakileri yapın:

  1. Kenar çubuğunda Yeni Not Defteri'ne> tıklayın.

    Not defteri, kullandığınız son kümeye (bu örnekte, bu makalenin önceki bölümlerinde oluşturduğunuz küme) otomatik olarak eklenir.

  2. Not defteri için bir ad girin.

  3. Dil düğmesine tıklayın ve açılan menüden veya SQL öğesini seçinPython. Python varsayılan olarak seçilidir.

  4. Not defteri hücresine aşağıdaki kodu yapıştırın:

    SQL

    CREATE OR REFRESH STREAMING TABLE
      <table-name>
    AS SELECT
      *
    FROM
      STREAM read_files(
        '<path-to-source-data>',
        format => '<file-format>'
      )
    

    Python

    @dlt.table(table_properties={'quality': 'bronze'})
    def <table-name>():
      return (
         spark.readStream.format('cloudFiles')
         .option('cloudFiles.format', '<file-format>')
         .load(f'{<path-to-source-data>}')
     )
    

    Aşağıdaki değerleri değiştirin:

    • <table-name>: Alınan kayıtları içeren tablonun adı.
    • <path-to-source-data>: Kaynak verilerinizin yolu.
    • <file-format>: Desteklenen bir dosya biçimi. Bkz. Dosya biçimi seçenekleri.

Not

Delta Live Tabloları, not defteri hücrelerinde etkileşimli olarak çalışacak şekilde tasarlanmamıştır. Not defterinde Delta Live Tables söz dizimi içeren bir hücrenin çalıştırılması, sorgunun söz dizimsel olarak geçerli olup olmadığını ancak sorgu mantığını çalıştırmadığını belirten bir ileti döndürür. Aşağıdaki adımda, yeni oluşturduğunuz alım not defterinden işlem hattı oluşturma işlemi açıklanmaktadır.

4. Adım: İşlem hattı oluşturma ve yayımlama

İşlem hattı oluşturmak ve Unity Kataloğu'na yayımlamak için aşağıdakileri yapın:

  1. Kenar çubuğunda İş Akışları'na, Delta Live Tablolar sekmesine ve ardından İşlem hattı oluştur'a tıklayın.
  2. İşlem hattınız için bir ad girin.
  3. İşlem hattı modu için Tetiklenmiş'i seçin.
  4. Kaynak kodu için işlem hattı kaynak kodunuzu içeren not defterini seçin.
  5. Hedef için Unity Kataloğu'nu seçin.
  6. Tablonuzun Unity Kataloğu tarafından yönetildiğinden ve üst şemaya erişimi olan herhangi bir kullanıcının bunu sorgulaya çalıştığından emin olmak için, açılan listelerden bir Katalog ve Hedef şema seçin.
  7. Küme oluşturma izniniz yoksa, açılan listeden Delta Live Tables'ı destekleyen bir Küme ilkesi seçin.
  8. Gelişmiş için Kanalı Önizleme olarak ayarlayın.
  9. Diğer tüm varsayılan değerleri kabul edin ve Oluştur'a tıklayın.

5. Adım: İşlem hattını zamanlama

İşlem hattını zamanlamak için aşağıdakileri yapın:

  1. Kenar çubuğunda Delta Live Tables'a tıklayın.
  2. Zamanlamak istediğiniz işlem hattının adına tıklayın.
  3. Zamanlama Zamanlama>Zamanlama'ya tıklayın.
  4. İş adı için iş için bir ad girin.
  5. Zamanlamayı Zamanlandı olarak ayarlayın.
  6. Dönemi, başlangıç saatini ve saat dilimini belirtin.
  7. İşlem hattı başlatma, başarı veya hata uyarılarını almak için bir veya daha fazla e-posta adresi yapılandırın.
  8. Oluştur’a tıklayın.

Sonraki adımlar