Otomatik Yükleyici nedir?

Otomatik Yükleyici, ek kurulum olmadan bulut depolama alanına ulaşan yeni veri dosyalarını artımlı ve verimli bir şekilde işler.

Otomatik Yükleyici nasıl çalışır?

Otomatik Yükleyici, bulut depolama alanına ulaştıklarında yeni veri dosyalarını artımlı ve verimli bir şekilde işler. cloudFiles adlı bir Yapılandırılmış Akış kaynağı sağlar. Bulut dosya depolaması üzerindeki bir giriş dizini yolu göz önüne alındığında, cloudFiles kaynak yeni dosyaları geldikçe otomatik olarak işler ve bu dizindeki mevcut dosyaları da işleme seçeneği vardır. Otomatik Yükleyici, Lakeflow Spark Bildirimli İşlem Hatlarında hem Python hem de SQL desteğine sahiptir.

Milyarlarca dosyayı işleme amacıyla Auto Loader'ı tabloları geçirmek veya geri doldurmak amacıyla kullanabilirsiniz. Otomatik Yükleyici, saatte milyonlarca dosyanın neredeyse gerçek zamanlı alımını destekleyecek şekilde ölçeklendirilir.

Desteklenen Otomatik Yükleyici kaynakları

Otomatik Yükleyici aşağıdaki kaynaklardan veri dosyalarını yükleyebilir:

  • Amazon S3 (s3://)

  • Azure Data Lake Storage (ADLS, abfss://)

  • Google Cloud Storage (GCS, gs://)

  • Unity Catalog bölümleri (/Volumes/)

  • Azure Blob Depolama (wasbs://)

    Note

    Eski Windows Azure Depolama Blob sürücüsü (WASB) kullanım dışı bırakıldı. ABFS'nin WASB'ye göre çok sayıda avantajı vardır. ABFS ile ilgili Azure belgelerine bakın. Eski WASB sürücüsüyle çalışma belgeleri için bkz. WASB ile Azure Blob Depolama bağlanma (eski).

Otomatik Yükleyici JSON, CSV, XML, PARQUET, AVRO, ORC, TEXT ve BINARYFILE dosya biçimlerini alabilir.

Otomatik Yükleyici alımın ilerleme durumunu nasıl izler?

Dosyalar bulundukçe, meta verileri Otomatik Yükleyici işlem hattınızın denetim noktası konumunda ölçeklenebilir bir anahtar-değer deposunda (RocksDB) kalıcı hale gelir. Bu anahtar-değer deposu, verilerin tam olarak bir kez işlenmesini sağlar.

Hata durumunda, Otomatik Yükleyici, denetim noktası konumunda depolanan bilgilerle kaldığı yerden devam edebilir ve Delta Lake'e veri yazarken tam olarak bir kereye mahsus garanti vermeye devam edebilir. Hata toleransı veya tam zamanında semantik elde etmek için herhangi bir durumu kendiniz korumanız veya yönetmeniz gerekmez.

Lakeflow Spark Deklaratif İşlem Hatları ile Auto Loader kullanılarak artımlı alma

Databricks, artımlı veri alımı için Lakeflow Spark Bildirimli İşlem Hatlarında Otomatik Yükleyici'yi önerir. Lakeflow Spark Bildirimli İşlem Hatları işlem hatlarınız için bu ayarları otomatik olarak yönettiğinden, şema veya denetim noktası konumu sağlamanız gerekmez. Önerilen yapılandırma için bkz. Otomatik Yükleyiciyi üretim iş yükleri için yapılandırma .

Databricks, bulut nesne depolama alanından veri almak için Apache Spark Yapılandırılmış Akış'ı her kullandığınızda Otomatik Yükleyici'yi de önerir. API'ler Python ve Scala'da kullanılabilir.

Databricks Otomatik Yükleyici'yi kullanmaya başlama

Lakeflow Spark Bildirimli İşlem Hatları ile Otomatik Yükleyici kullanarak artımlı veri alımını yapılandırmaya başlamak için aşağıdaki makalelere bakın:

Örnekler: Yaygın Otomatik Yükleyici desenleri

Yaygın Otomatik Yükleyici desenleri örnekleri için bkz . Yaygın veri yükleme desenleri.

Otomatik Yükleyici seçeneklerini yapılandırma

Otomatik Yükleyici'yi veri hacmine, çeşitliliğe ve hıza göre ayarlayabilirsiniz.

Otomatik Yükleyici seçeneklerinin tam listesi için bkz. Otomatik Yükleyici seçenekleri. Beklenmeyen performansla karşılaşırsanız SSS bölümüne bakın.

Otomatik Yükleyici dosya algılama modlarını yapılandırma

Otomatik Yükleyici iki dosya algılama modunu destekler. See:

Düzen dışı verileri işleme

Otomatik Yükleyici, dizin listeleme veya dosya bildirim modunu kullanmanızdan bağımsız olarak dosyaların bulunma veya işlenme sırasını garanti etmez. İşlem hatlarınızı sıra dışı dosya girişlerini işleyecek şekilde tasarlamak için aşağıdaki stratejileri kullanın.

Lakeflow Spark ile Bildirimli İşlem Hatları AUTO CDC

Lakeflow Spark Bildirimli İşlem Hatlarını Otomatik Yükleyici ve AUTO CDC ile kullanıyorsanız, silinmiş kayıtların dosyaların sıra dışı varışlarını işlemek için yeterince uzun süre kalacak şekilde tombstone retention'ı yapılandırın. pipelines.cdc.tombstoneGCThresholdInSeconds Hedef akış tablosundaki tablo özelliğini, olay gelmesi ve işlem hattı yürütmesi arasında beklenen en yüksek gecikmeyi aşan bir değere ayarlayın. Varsayılan saklama iki gündür. Ayrıntılar için bkz. create_auto_cdc_flow.

Lakeflow Spark Bildirimci Boruhatları Olmadan Yapılandırılmış Akış

Apache Spark Yapılandırılmış Akış'ı doğrudan Otomatik Yükleyici ile (Lakeflow Spark Bildirimli İşlem Hatları olmadan) kullanıyorsanız, sıra dışı verileri işlemek için aşağıdaki desenleri göz önünde bulundurun:

  • Sabit silmeler yerine geçici silmeleri tercih edin: Satırları kaldırmak yerine bayrak deleted ve zaman damgasını izleyin; böylece geç gelen bir silme işlemi önceki kayıtlarla çakışmaz.
  • Güncelleştirmeleri uygulamadan önce zaman damgalarını karşılaştırın: Yukarı doğrularken eski verilerle üzerine yazmaktan kaçınmak için gelen kaydın güncelleştirme zaman damgasını hedef satırın geçerli zaman damgasıyla karşılaştırın.

Otomatik Yükleyici'nin, doğrudan dosyalarda Yapılandırılmış Akış'ın kullanılmasına göre avantajları

Apache Spark'ta dosyaları artımlı olarak spark.readStream.format(fileFormat).load(directory) kullanarak okuyabilirsiniz. Otomatik Yükleyici, dosya kaynağı üzerinde aşağıdaki avantajları sağlar:

  • Ölçeklenebilirlik: Otomatik Yükleyici milyarlarca dosyayı verimli bir şekilde bulabilir. Herhangi bir işlem kaynağının boşa harcanmasını önlemek için yedekler zaman uyumsuz olarak gerçekleştirilebilir.
  • Performans: Otomatik Yükleyici ile dosyaları bulmanın maliyeti, dosyaların yerleştirilebileceği dizin sayısından ziyade alınan dosya sayısıyla orantılı olarak ölçeklendirilir. Bkz. Dizin listeleme modunda Otomatik Yükleyici akışlarını yapılandırma.
  • Şema çıkarımı ve evrim desteği: Otomatik Yükleyici şema kaymalarını algılayabilir, şema değişiklikleri gerçekleştiğinde sizi bilgilendirebilir ve aksi takdirde yoksayılmış veya kaybolacak verileri kurtarabilir. Bkz. Otomatik Yükleyici şema çıkarımı nasıl çalışır?.
  • Maliyet: Otomatik Yükleyici, depolama alanında bulunan dosyaların listesini almak için yerel bulut API'lerini kullanır. Ayrıca, Otomatik Yükleyici'nin dosya bildirim modu, dizin listelemesini tamamen önleyerek bulut maliyetlerinizi daha da azaltmanıza yardımcı olabilir. Otomatik Yükleyici, dosya bulmayı çok daha ucuza getirmek için depolama alanında dosya bildirim hizmetlerini otomatik olarak ayarlayabilir.