Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede, Lakeflow Spark Bildirimli İşlem Hatlarındaki boru hattı JSON ayarı ve tablo özellikleri için bir başvuru sunulmaktadır. Bu çeşitli özellikleri ve yapılandırmaları kullanma hakkında daha fazla ayrıntı için aşağıdaki makalelere bakın:
İşlem hattı yapılandırmaları
idTür:
stringBu boru hattı için küresel olarak benzersiz bir tanımlayıcı. Tanımlayıcı sistem tarafından atanır ve değiştirilemez.
nameTür:
stringBu işlem hattı için kullanıcı dostu bir ad. Ad, kullanıcı arabirimindeki işlem hattı işlerini tanımlamak için kullanılabilir.
configurationTür:
objectİşlem hattını çalıştıracak kümenin Spark yapılandırmasına eklenecek isteğe bağlı ayarlar listesi. Bu ayarlar Lakeflow Spark Bildirimli İşlem Hatları çalışma zamanı tarafından okunur ve Spark yapılandırması aracılığıyla işlem hattı sorguları tarafından kullanılabilir.
Öğeler
key:valueçiftleri olarak biçimlendirilmelidir.librariesTür:
array of objectsKodu ve gerekli artefaktları içeren işlem hattı kod dosyaları dizisi.
clustersTür:
array of objectsKümelerin işlem hattını çalıştırması için bir özellikler dizisi.
Bu belirtilmezse, işlem hatları işlem hattı için otomatik olarak bir varsayılan küme yapılandırması seçer.
developmentTür:
booleanİşlem hattının
developmentveyaproductionmodunda çalıştırılıp çalıştırılmayacağını gösteren bir bayrak.Varsayılan değer
truenotificationsTür:
array of objectsBir işlem hattı güncellemesi tamamlandığında, yeniden denenebilir bir hatayla başarısız olduğunda, yeniden denenemeyen bir hatayla başarısız olduğunda veya bir akış başarısız olduğunda gönderilecek e-posta bildirimleri için isteğe bağlı bir özellikler dizisi.
continuousTür:
booleanİşlem hattının sürekli çalıştırılıp çalıştırılmayacağını gösteren bir bayrak.
Varsayılan değer şudur:
false.catalogTür:
stringİşlem hattı için tüm veri kümelerinin ve meta verilerin yayımlandığı işlem hattı için varsayılan kataloğun adı. Bu değerin ayarlanması işlem hattı için Unity Kataloğu'nu etkinleştirir.
Ayarlanmamışsa, işlem hattı
storage'da belirtilen konumu kullanarak eski Hive meta veri deposuna yayımlar.Eski yayımlama modunda, geçerli işlem hattındaki tüm veri kümelerinin yayımlandığı hedef şemayı içeren kataloğu belirtir. LIVE şeması (eski) sayfasına bakın.
schemaTür:
stringİşlem hattı için tüm veri kümelerinin ve meta verilerin varsayılan olarak yayımlandığı işlem hattı için varsayılan şemanın adı. Bkz. Hedef kataloğu ve şemayı ayarlama.
target(eski)Tür:
stringGeçerli işlem hattında tanımlanan tüm veri kümelerinin yayımlandığı hedef şemanın adı.
targetyerineschemaayarlandığında işlem hattı eski yayımlama modunu kullanacak şekilde yapılandırılır. LIVE şeması (eski) sayfasına bakın.storage(eski)Tür:
stringDBFS veya bulut depolamada işlem hattı yürütmesi için gereken çıktı verilerinin ve meta verilerin depolandığı bir konum. Tablolar ve meta veriler bu konumun alt dizinlerinde depolanır.
storageayarı belirtilmediğinde, sistem varsayılan olarakdbfs:/pipelines/konumunda bir konuma ayarlanır.Bir işlem hattı oluşturulduktan sonra
storageayarı değiştirilemez.channelTür:
stringKullanılacak Lakeflow Spark Bildirimli İşlem Hatları çalışma zamanının sürümü. Desteklenen değerler şunlardır:
- çalışma zamanı sürümünde yapılacak değişikliklerle işlem hattınızı test etmek için
preview. -
current, geçerli çalışma zamanı sürümünü kullanmak için.
channelalanı isteğe bağlıdır. Varsayılan değer şudur:current. Databricks, üretim iş yükleri için geçerli çalışma zamanı sürümünün kullanılmasını önerir.- çalışma zamanı sürümünde yapılacak değişikliklerle işlem hattınızı test etmek için
editionYaz
stringİşlem hattını çalıştırmak için Lakeflow Spark Bildirimli İşlem Hatları ürün sürümü. Bu ayar, işlem hattınızın gereksinimlerine göre en iyi ürün sürümünü seçmenize olanak tanır:
-
COREakış alma iş yüklerini çalıştırmak için. -
PRO, akış veri alımı ve değişiklik veri yakalama (CDC) iş yüklerini çalıştırmak için kullanılır. -
ADVANCEDakış alma iş yüklerini, CDC iş yüklerini ve veri kalitesi kısıtlamalarının uygulanmasını gerektiren iş yüklerini çalıştırmak için.
editionalanı isteğe bağlıdır. Varsayılan değer şudur:ADVANCED.-
photonTür:
booleanİşlem hattını çalıştırmak için Photon nedir? seçeneğinin kullanılıp kullanılmayacağını belirten bir bayrak. Photon, Azure Databricks yüksek performanslı Spark altyapısıdır. Foton özellikli işlem hatları, Photon olmayan işlem hatlarından farklı bir ücretle faturalandırılır.
photonalanı isteğe bağlıdır. Varsayılan değer şudur:false.pipelines.maxFlowRetryAttemptsTür:
intİşlem hattı güncelleştirmesi sırasında yeniden denenebilir bir hata oluşursa, işlem hattı güncelleştirmesi başarısız olmadan önce bir akışı yeniden denemenin en fazla sayısıdır
Varsayılan: İki yeniden deneme denemesi. Yeniden denenebilir bir hata oluştuğunda, Lakeflow Spark Bildirimli İşlem Hatları çalışma zamanı akışı özgün deneme dahil olmak üzere üç kez çalıştırmayı dener.
pipelines.numUpdateRetryAttemptsTür:
intGüncelleştirme sırasında yeniden denenebilir bir hata oluşursa, bu, güncelleştirmeyi kalıcı olarak başarısız olmadan önce yeniden deneme sayısı üst sınırıdır. Yeniden deneme tam güncelleştirme olarak çalıştırılır.
Bu parametre yalnızca üretim modunda çalışan işlem hatları için geçerlidir. İşlem hattınız geliştirme modunda çalışırken veya bir
Validategüncelleştirmesi çalıştırdığınızda yeniden deneme yapılmaz.Varsayılan:
- Tetiklenen işlem hatları için beş tanesi.
- Sürekli boru hatları için sınırsız.
İşlem hattı tablosu özellikleri
Delta Lake tarafından desteklenen tablo özelliklerine ek olarak, aşağıdaki tablo özelliklerini ayarlayabilirsiniz.
pipelines.autoOptimize.zOrderColsVarsayılan: Yok
Bu tabloyu sıralamak için virgülle ayrılmış sütun adlarının listesini içeren isteğe bağlı bir dize. Örneğin,
pipelines.autoOptimize.zOrderCols = "year,month"pipelines.reset.allowedVarsayılan:
trueBu tablo için tam yenilemeye izin verilip verilmeyeceğini denetler.
pipelines.autoOptimize.managedVarsayılan:
trueBu tablonun otomatik olarak zamanlanmış iyileştirmesini etkinleştirir veya devre dışı bırakır.
Tahmine dayalı iyileştirme tarafından yönetilen işlem hatları için bu özellik kullanılmaz.
Boru hatlarını tetikleme aralığı
İşlem hattının tamamı için veya veri kümesi bildiriminin bir parçası olarak işlem hattı tetikleyici aralığı belirtebilirsiniz. Bkz. Sürekli işlem hatları için tetikleyici aralığını ayarlama.
pipelines.trigger.intervalVarsayılan değer akış türünü temel alır:
- Akış sorguları için beş saniye.
- Tüm giriş verileri Delta kaynaklarından geldiğinde tam sorgular için bir dakika.
- Delta olmayan bazı veri kaynaklarıyla ilgili sorguların tamamlanması on dakika sürebilir.
Değer, bir sayı ve zaman birimidir. Geçerli zaman birimleri şunlardır:
-
second,seconds -
minute,minutes -
hour,hours -
day,days
Değeri tanımlarken tekil veya çoğul birimi kullanabilirsiniz, örneğin:
{"pipelines.trigger.interval" : "1 hour"}{"pipelines.trigger.interval" : "10 seconds"}{"pipelines.trigger.interval" : "30 second"}{"pipelines.trigger.interval" : "1 minute"}{"pipelines.trigger.interval" : "10 minutes"}{"pipelines.trigger.interval" : "10 minute"}
Kullanıcı ayarlanamaz Küme öznitelikleri
Lakeflow Spark Bildirimli İşlem Hatları (SDP) küme yaşam döngülerini yönettiğinden, birçok küme ayarı sistem tarafından ayarlanır ve kullanıcılar tarafından işlem hattı yapılandırmasında veya işlem hattı tarafından kullanılan küme ilkesinde el ile yapılandırılamaz. Aşağıdaki tabloda bu ayarlar ve bunların neden el ile ayarlanamadığı listelenir.
cluster_nameSDP, işlem hattı güncelleştirmelerini çalıştırmak için kullanılan kümelerin adlarını ayarlar. Bu adlar geçersiz kılınamaz.
data_security_modeaccess_modeBu değerler sistem tarafından otomatik olarak ayarlanır.
spark_versionSDP kümeleri, Databricks Runtime'ın en son özellikleri içerecek şekilde sürekli güncelleştirilen özel bir sürümünde çalışır. Spark sürümü Databricks Runtime sürümüyle birlikte gelir ve geçersiz kılınamaz.
autotermination_minutesSDP küme otomatik sonlandırma ve yeniden kullanma mantığını yönettiğinden, küme otomatik sonlandırma süresi geçersiz kılınamaz.
runtime_engineİşlem hattınız için Photon'ı etkinleştirerek bu alanı denetleyebilirsiniz ancak bu değeri doğrudan ayarlayamazsınız.
effective_spark_versionBu değer sistem tarafından otomatik olarak ayarlanır.
cluster_sourceBu alan sistem tarafından ayarlanır ve salt okunurdur.
docker_imageKüme yaşam döngüsünü SDP yönettiğinden, işlem hattı kümeleriyle özel bir kapsayıcı kullanamazsınız.
workload_typeBu değer sistem tarafından ayarlanır ve geçersiz kılınamaz.