Aracılığıyla paylaş


İşlem hattı özellikleri referansı

Bu makalede, Lakeflow Spark Bildirimli İşlem Hatlarındaki boru hattı JSON ayarı ve tablo özellikleri için bir başvuru sunulmaktadır. Bu çeşitli özellikleri ve yapılandırmaları kullanma hakkında daha fazla ayrıntı için aşağıdaki makalelere bakın:

İşlem hattı yapılandırmaları

  • id

    Tür: string

    Bu boru hattı için küresel olarak benzersiz bir tanımlayıcı. Tanımlayıcı sistem tarafından atanır ve değiştirilemez.

  • name

    Tür: string

    Bu işlem hattı için kullanıcı dostu bir ad. Ad, kullanıcı arabirimindeki işlem hattı işlerini tanımlamak için kullanılabilir.

  • configuration

    Tür: object

    İşlem hattını çalıştıracak kümenin Spark yapılandırmasına eklenecek isteğe bağlı ayarlar listesi. Bu ayarlar Lakeflow Spark Bildirimli İşlem Hatları çalışma zamanı tarafından okunur ve Spark yapılandırması aracılığıyla işlem hattı sorguları tarafından kullanılabilir.

    Öğeler key:value çiftleri olarak biçimlendirilmelidir.

  • libraries

    Tür: array of objects

    Kodu ve gerekli artefaktları içeren işlem hattı kod dosyaları dizisi.

  • clusters

    Tür: array of objects

    Kümelerin işlem hattını çalıştırması için bir özellikler dizisi.

    Bu belirtilmezse, işlem hatları işlem hattı için otomatik olarak bir varsayılan küme yapılandırması seçer.

  • development

    Tür: boolean

    İşlem hattının development veya production modunda çalıştırılıp çalıştırılmayacağını gösteren bir bayrak.

    Varsayılan değer true

  • notifications

    Tür: array of objects

    Bir işlem hattı güncellemesi tamamlandığında, yeniden denenebilir bir hatayla başarısız olduğunda, yeniden denenemeyen bir hatayla başarısız olduğunda veya bir akış başarısız olduğunda gönderilecek e-posta bildirimleri için isteğe bağlı bir özellikler dizisi.

  • continuous

    Tür: boolean

    İşlem hattının sürekli çalıştırılıp çalıştırılmayacağını gösteren bir bayrak.

    Varsayılan değer şudur: false.

  • catalog

    Tür: string

    İşlem hattı için tüm veri kümelerinin ve meta verilerin yayımlandığı işlem hattı için varsayılan kataloğun adı. Bu değerin ayarlanması işlem hattı için Unity Kataloğu'nu etkinleştirir.

    Ayarlanmamışsa, işlem hattı storage'da belirtilen konumu kullanarak eski Hive meta veri deposuna yayımlar.

    Eski yayımlama modunda, geçerli işlem hattındaki tüm veri kümelerinin yayımlandığı hedef şemayı içeren kataloğu belirtir. LIVE şeması (eski) sayfasına bakın.

  • schema

    Tür: string

    İşlem hattı için tüm veri kümelerinin ve meta verilerin varsayılan olarak yayımlandığı işlem hattı için varsayılan şemanın adı. Bkz. Hedef kataloğu ve şemayı ayarlama.

  • target (eski)

    Tür: string

    Geçerli işlem hattında tanımlanan tüm veri kümelerinin yayımlandığı hedef şemanın adı.

    target yerine schema ayarlandığında işlem hattı eski yayımlama modunu kullanacak şekilde yapılandırılır. LIVE şeması (eski) sayfasına bakın.

  • storage (eski)

    Tür: string

    DBFS veya bulut depolamada işlem hattı yürütmesi için gereken çıktı verilerinin ve meta verilerin depolandığı bir konum. Tablolar ve meta veriler bu konumun alt dizinlerinde depolanır.

    storage ayarı belirtilmediğinde, sistem varsayılan olarak dbfs:/pipelines/konumunda bir konuma ayarlanır.

    Bir işlem hattı oluşturulduktan sonra storage ayarı değiştirilemez.

  • channel

    Tür: string

    Kullanılacak Lakeflow Spark Bildirimli İşlem Hatları çalışma zamanının sürümü. Desteklenen değerler şunlardır:

    • çalışma zamanı sürümünde yapılacak değişikliklerle işlem hattınızı test etmek için preview.
    • current, geçerli çalışma zamanı sürümünü kullanmak için.

    channel alanı isteğe bağlıdır. Varsayılan değer şudur: current. Databricks, üretim iş yükleri için geçerli çalışma zamanı sürümünün kullanılmasını önerir.

  • edition

    Yaz string

    İşlem hattını çalıştırmak için Lakeflow Spark Bildirimli İşlem Hatları ürün sürümü. Bu ayar, işlem hattınızın gereksinimlerine göre en iyi ürün sürümünü seçmenize olanak tanır:

    • CORE akış alma iş yüklerini çalıştırmak için.
    • PRO, akış veri alımı ve değişiklik veri yakalama (CDC) iş yüklerini çalıştırmak için kullanılır.
    • ADVANCED akış alma iş yüklerini, CDC iş yüklerini ve veri kalitesi kısıtlamalarının uygulanmasını gerektiren iş yüklerini çalıştırmak için.

    edition alanı isteğe bağlıdır. Varsayılan değer şudur: ADVANCED.

  • photon

    Tür: boolean

    İşlem hattını çalıştırmak için Photon nedir? seçeneğinin kullanılıp kullanılmayacağını belirten bir bayrak. Photon, Azure Databricks yüksek performanslı Spark altyapısıdır. Foton özellikli işlem hatları, Photon olmayan işlem hatlarından farklı bir ücretle faturalandırılır.

    photon alanı isteğe bağlıdır. Varsayılan değer şudur: false.

  • pipelines.maxFlowRetryAttempts

    Tür: int

    İşlem hattı güncelleştirmesi sırasında yeniden denenebilir bir hata oluşursa, işlem hattı güncelleştirmesi başarısız olmadan önce bir akışı yeniden denemenin en fazla sayısıdır

    Varsayılan: İki yeniden deneme denemesi. Yeniden denenebilir bir hata oluştuğunda, Lakeflow Spark Bildirimli İşlem Hatları çalışma zamanı akışı özgün deneme dahil olmak üzere üç kez çalıştırmayı dener.

  • pipelines.numUpdateRetryAttempts

    Tür: int

    Güncelleştirme sırasında yeniden denenebilir bir hata oluşursa, bu, güncelleştirmeyi kalıcı olarak başarısız olmadan önce yeniden deneme sayısı üst sınırıdır. Yeniden deneme tam güncelleştirme olarak çalıştırılır.

    Bu parametre yalnızca üretim modunda çalışan işlem hatları için geçerlidir. İşlem hattınız geliştirme modunda çalışırken veya bir Validate güncelleştirmesi çalıştırdığınızda yeniden deneme yapılmaz.

    Varsayılan:

    • Tetiklenen işlem hatları için beş tanesi.
    • Sürekli boru hatları için sınırsız.

İşlem hattı tablosu özellikleri

Delta Lake tarafından desteklenen tablo özelliklerine ek olarak, aşağıdaki tablo özelliklerini ayarlayabilirsiniz.

  • pipelines.autoOptimize.zOrderCols

    Varsayılan: Yok

    Bu tabloyu sıralamak için virgülle ayrılmış sütun adlarının listesini içeren isteğe bağlı bir dize. Örneğin, pipelines.autoOptimize.zOrderCols = "year,month"

  • pipelines.reset.allowed

    Varsayılan: true

    Bu tablo için tam yenilemeye izin verilip verilmeyeceğini denetler.

  • pipelines.autoOptimize.managed

    Varsayılan: true

    Bu tablonun otomatik olarak zamanlanmış iyileştirmesini etkinleştirir veya devre dışı bırakır.

    Tahmine dayalı iyileştirme tarafından yönetilen işlem hatları için bu özellik kullanılmaz.

Boru hatlarını tetikleme aralığı

İşlem hattının tamamı için veya veri kümesi bildiriminin bir parçası olarak işlem hattı tetikleyici aralığı belirtebilirsiniz. Bkz. Sürekli işlem hatları için tetikleyici aralığını ayarlama.

  • pipelines.trigger.interval

    Varsayılan değer akış türünü temel alır:

    • Akış sorguları için beş saniye.
    • Tüm giriş verileri Delta kaynaklarından geldiğinde tam sorgular için bir dakika.
    • Delta olmayan bazı veri kaynaklarıyla ilgili sorguların tamamlanması on dakika sürebilir.

    Değer, bir sayı ve zaman birimidir. Geçerli zaman birimleri şunlardır:

    • second, seconds
    • minute, minutes
    • hour, hours
    • day, days

    Değeri tanımlarken tekil veya çoğul birimi kullanabilirsiniz, örneğin:

    • {"pipelines.trigger.interval" : "1 hour"}
    • {"pipelines.trigger.interval" : "10 seconds"}
    • {"pipelines.trigger.interval" : "30 second"}
    • {"pipelines.trigger.interval" : "1 minute"}
    • {"pipelines.trigger.interval" : "10 minutes"}
    • {"pipelines.trigger.interval" : "10 minute"}

Kullanıcı ayarlanamaz Küme öznitelikleri

Lakeflow Spark Bildirimli İşlem Hatları (SDP) küme yaşam döngülerini yönettiğinden, birçok küme ayarı sistem tarafından ayarlanır ve kullanıcılar tarafından işlem hattı yapılandırmasında veya işlem hattı tarafından kullanılan küme ilkesinde el ile yapılandırılamaz. Aşağıdaki tabloda bu ayarlar ve bunların neden el ile ayarlanamadığı listelenir.

  • cluster_name

    SDP, işlem hattı güncelleştirmelerini çalıştırmak için kullanılan kümelerin adlarını ayarlar. Bu adlar geçersiz kılınamaz.

  • data_security_mode

    access_mode

    Bu değerler sistem tarafından otomatik olarak ayarlanır.

  • spark_version

    SDP kümeleri, Databricks Runtime'ın en son özellikleri içerecek şekilde sürekli güncelleştirilen özel bir sürümünde çalışır. Spark sürümü Databricks Runtime sürümüyle birlikte gelir ve geçersiz kılınamaz.

  • autotermination_minutes

    SDP küme otomatik sonlandırma ve yeniden kullanma mantığını yönettiğinden, küme otomatik sonlandırma süresi geçersiz kılınamaz.

  • runtime_engine

    İşlem hattınız için Photon'ı etkinleştirerek bu alanı denetleyebilirsiniz ancak bu değeri doğrudan ayarlayamazsınız.

  • effective_spark_version

    Bu değer sistem tarafından otomatik olarak ayarlanır.

  • cluster_source

    Bu alan sistem tarafından ayarlanır ve salt okunurdur.

  • docker_image

    Küme yaşam döngüsünü SDP yönettiğinden, işlem hattı kümeleriyle özel bir kapsayıcı kullanamazsınız.

  • workload_type

    Bu değer sistem tarafından ayarlanır ve geçersiz kılınamaz.