Aracılığıyla paylaş


Bulut nesne depolama alanından veri alma

Bu makalede, bulut nesne depolama alanından artımlı alımı yapılandırma yolları listelenir.

Veri kullanıcı arabirimi ekleme

Bulut nesne depolamadaki verilerden yönetilen tablo oluşturmak için veri ekleme kullanıcı arabirimini kullanmayı öğrenmek için bkz. Unity Kataloğu dış konumunu kullanarak veri yükleme.

Not defteri veya SQL düzenleyicisi

Bu bölümde, bir not defteri veya Databricks SQL düzenleyicisi kullanarak bulut nesne depolamasından artımlı alımı yapılandırma seçenekleri açıklanmaktadır.

Otomatik Yükleyici

Otomatik Yükleyici , ek kurulum olmadan bulut depolama alanına ulaşan yeni veri dosyalarını artımlı ve verimli bir şekilde işler. Otomatik Yükleyici adlı cloudFilesbir Yapılandırılmış Akış kaynağı sağlar. Bulut dosya depolaması üzerindeki bir giriş dizini yolu göz önüne alındığında, cloudFiles kaynak yeni dosyaları geldikçe otomatik olarak işler ve bu dizindeki mevcut dosyaları da işleme seçeneği vardır.

COPY INTO

COPY INTOile SQL kullanıcıları, bulut nesne depolamasından Delta tablolarına sürekli ve artımlı olarak veri alabilir. Databricks SQL, not defterleri ve Lakeflow İşlerinde kullanabilirsiniz COPY INTO .

COPY INTO ne zaman kullanılır ve Otomatik Yükleyici ne zaman kullanılır?

Otomatik Yükleyici ile COPY INTOarasında seçim yaparken göz önünde bulundurmanız gereken birkaç şey şunlardır:

  • Zamanla binlerce dosyayı alacaksanız, COPY INTO kullanabilirsiniz. Zaman içinde milyonlarca veya daha fazla sırada dosya bekliyorsanız Otomatik Yükleyici'yi kullanın. Otomatik Yükleyici, dosyaları bulmak için ile karşılaştırıldığında COPY INTO daha az toplam işlem gerektirir ve işlemeyi birden çok toplu işlemeye bölebilir; bu da Otomatik Yükleyici'nin uygun ölçekte daha düşük maliyetli ve daha verimli olduğu anlamına gelir.
  • Veri şemanız sık sık gelişecekse, Otomatik Yükleyici şema çıkarımı ve evrimi etrafında daha iyi temel veri türleri sağlar. Daha fazla ayrıntı için bkz. Otomatik Yükleyici'de şema çıkarımı ve evrimi yapılandırma .
  • Yeniden yüklenen dosyaların bir alt kümesini yüklemek, COPY INTO ile yönetimi biraz daha kolay olabilir. Otomatik Yükleyici ile belirli bir dosya alt kümesini yeniden işlemek daha zordur. Ancak, otomatik yükleyici akışı aynı anda çalışırken dosyaların alt kümesini yeniden yüklemek için kullanabilirsiniz COPY INTO .

Otomatik Yükleyici ve COPY INTO'a kısa bir genel bakış ve tanıtım için aşağıdaki YouTube videosunu izleyin (2 dakika).

Lakeflow Spark Bildirimli İşlem Hatları ve Otomatik Yükleyici ile ETL'yi otomatikleştirme

Otomatik Yükleyici ve Lakeflow Spark Bildirimli İşlem Hatları ile ölçeklenebilir, artımlı alım altyapısının dağıtımını basitleştirebilirsiniz. Lakeflow Spark Bildirimli İşlem Hatları not defterlerinde bulunan standart etkileşimli yürütmeyi kullanmaz, bunun yerine üretime hazır altyapı dağıtımını vurgular.

Üçüncü taraf veri işleme araçları

Databricks, bulut nesne depolama gibi çeşitli kaynaklardan veri almanızı sağlayan teknoloji iş ortağı tümleştirmelerini doğrular. Bu tümleştirmeler çeşitli kaynaklardan Azure Databricks'e düşük kodlu, ölçeklenebilir veri alımı sağlar. Bkz. Teknoloji iş ortakları. Bazı teknoloji iş ortakları, üçüncü taraf araçlarını göl evi verilerinize bağlamayı basitleştiren bir kullanıcı arabirimi sağlayan Databricks İş Ortağı Bağlantısı nedir? bölümünde yer alır.