Aracılığıyla paylaş


İşlem hatları için klasik işlem yapılandırma

Bu sayfa, Lakeflow Spark Bildirimli İşlem Hatları için klasik işlem yapılandırma yönergelerini içerir. JSON şeması başvurusu için clusters başvurusundaki tanıma bakın.

Klasik işlem üzerinde çalışan bir işlem hattı oluşturmak için, kullanıcıların önce kısıtlamasız oluşturma izni veya işlem ilkesine erişim olmak üzere klasik işlem dağıtma iznine sahip olması gerekir. Sunucusuz işlem hatları işlem oluşturma izinleri gerektirmez. Varsayılan olarak, tüm çalışma alanı kullanıcıları sunucusuz işlem hatlarını kullanabilir.

Uyarı

Lakeflow Spark Deklaratif İşlem Hatları çalışma zamanı, işlem hattı hesapla ilgili ayarların yaşam döngüsünü yönettiği ve Databricks Runtime'ın özel bir sürümünü çalıştırdığı için, Spark sürümü veya küme adları gibi işlem hattı yapılandırmasında bazı hesap ayarlarını manuel olarak ayarlayamazsınız. Bkz. Kullanıcı ayarlanamaz küme öznitelikleri.

Boru hattınız için hesaplama seçin

Lakeflow Pipelines Düzenleyicisi'nden işlem hattınız için klasik işlem yapılandırmak için:

  1. Ayarlar'a tıklayın.
  2. İşlem hattı ayarlarının İşlem bölümünde Kalem simgesine tıklayın. Düzenleyin.
  3. Eğer işaretliyse Sunucusuz seçeneğinin işaretini kaldırın.
  4. İşlem ayarlarında başka değişiklikler yapın ve Kaydet'e tıklayın.

Bu işlem hattınızı klasik işlem kullanacak şekilde yapılandırarak işlem ayarlarını aşağıda açıklandığı gibi düzenlemenizi sağlar.

Lakeflow Pipelines Düzenleyicisi hakkında daha fazla bilgi için bkz. Lakeflow Pipelines Düzenleyicisi ile ETL işlem hatlarını geliştirme ve hatalarını ayıklama.

İşlem ilkesi seçme

Çalışma alanı yöneticileri, kullanıcılara işlem hatları için klasik işlem kaynaklarına erişim sağlamak üzere işlem ilkelerini yapılandırabilir. İşlem ilkeleri isteğe bağlıdır. Gerekli işlem ayrıcalıklarınızın eksik olup olmadığını çalışma alanı yöneticinize danışın. Bkz. Lakeflow Spark Bildirimli İşlem Hatları işlemlerinde sınırları tanımlama.

İşlem Hatları API'sini kullanırken, işlem ilkesi varsayılan değerlerinin doğru şekilde uygulanmasını sağlamak amacıyla, "apply_policy_default_values": true tanımında clusters ayarlayın.

{
  "clusters": [
    {
      "label": "default",
      "policy_id": "<policy-id>",
      "apply_policy_default_values": true
    }
  ]
}

İşlem etiketlerini yapılandırma

İşlem hattınızın klasik işlem kaynaklarına özel etiketler ekleyebilirsiniz. Etiketler, kuruluşunuzdaki çeşitli gruplar tarafından kullanılan işlem kaynaklarının maliyetini izlemenize olanak sağlar. Databricks bu etiketleri bulut kaynaklarına ve kullanım sistemi tablolarında kaydedilen kullanım günlüklerine uygular. Küme etiketleri kullanıcı arabirimi ayarını kullanarak veya işlem hattınızın JSON yapılandırmasını düzenleyerek etiketler ekleyebilirsiniz.

İşlem hattını çalıştırmak için örnek türlerini seçme

Varsayılan olarak, Lakeflow Spark Bildirimli İşlem Hatları işlem hattınızın sürücüsü ve çalışan düğümleri için örnek türlerini seçer. İsteğe bağlı olarak örnek türlerini yapılandırabilirsiniz. Örneğin, işlem hattı performansını geliştirmek veya işlem hattınızı çalıştırırken bellek sorunlarını gidermek için örnek türlerini seçin.

Lakeflow Pipelines Düzenleyicisi'nde işlem hattı oluştururken veya düzenlerken örnek türlerini yapılandırmak için:

  1. Ayarlar düğmesine tıklayın.
  2. İşlem hattı ayarlarının İşlem bölümünde Kalem simgesine tıklayın..
  3. Gelişmiş ayarlar bölümünde, işlem hattı için Çalışan türü ve Sürücü türü örnek türlerini seçin.

Güncelleştirme ve bakım kümeleri için ayrı ayarlar yapılandırma

Her bildirim temelli işlem hattının iki ilişkili işlem kaynağı vardır: işlem hattı güncelleştirmelerini işleyen bir güncelleştirme kümesi ve günlük bakım görevlerini ( tahmine dayalı iyileştirme dahil) çalıştıran bir bakım kümesi. varsayılan olarak, işlem yapılandırmalarınız bu kümelerin her ikisine de uygulanır. Her iki küme için de aynı ayarların kullanılması, bir depolama konumu için veri erişim kimlik bilgileri gibi gerekli yapılandırmaların bakım kümesine uygulanmasını sağlayarak bakım çalıştırmalarının güvenilirliğini artırır.

Ayarları iki kümeden yalnızca birine uygulamak için alanı ayar JSON nesnesine ekleyin label . Alan için label üç olası değer vardır:

  • maintenance: Ayarı yalnızca bakım kümesine uygular.
  • updates: Ayarı yalnızca güncelleştirme kümesine uygular.
  • default: Ayarı hem güncelleştirme hem de bakım kümelerine uygular. Bu label alan atlanırsa, varsayılan değerdir.

Çakışan bir ayar varsa veya updates etiketini içeren ayar maintenance etiketle default tanımlanan ayarı geçersiz kılar.

Uyarı

Günlük bakım kümesi yalnızca belirli durumlarda kullanılır:

  • Hive meta veri deposunda depolanan işlem hatları.
  • Çalışma alanlarında sunucusuz işlem koşullarını kabul etmeyen işlem hatları. Koşulları kabul etme konusunda yardıma ihtiyacınız varsa Databricks temsilcinize başvurun.

Örnek: Güncelleştirme kümesi için bir ayar tanımlama

Aşağıdaki örnek, yalnızca küme yapılandırmasına eklenen bir Spark yapılandırma parametresini updates tanımlar:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

Örnek: Güncelleştirme kümesi için örnek türlerini yapılandırma

Kümeye maintenance gereksiz kaynaklar atanmasını önlemek için, bu örnek etiketi kullanarak updates yalnızca updates küme için örnek türlerini ayarlar.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}

İşlem kapatmayı geciktirme

Küme kapatma davranışını denetlemek için geliştirme veya üretim modunu veya işlem hattı yapılandırmasındaki ayarı kullanabilirsiniz pipelines.clusterShutdown.delay . Aşağıdaki örnekte pipelines.clusterShutdown.delay değeri 60 saniye olarak ayarlanır:

{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

production modu etkinleştirildiğinde pipelines.clusterShutdown.delay için varsayılan değer 0 seconds olur. development modu etkinleştirildiğinde varsayılan değer 2 hours olur.

Uyarı

Lakeflow Spark Deklaratif İşlem Hatları hesaplama kaynağı kullanılmadığında otomatik olarak kapatıldığından, autotermination_minutes ayarlayan bir işlem ilkesi kullanamazsınız. Bu bir hatayla sonuçlanır.

Tek düğüm hesaplama oluşturma

Tek düğüm işlem, hem ana hem de çalışan işlevi gören bir sürücü düğümüne sahiptir. Bu, az miktarda veri kullanan veya dağıtılmayan iş yüklerine yöneliktir.

Tek düğümlü bir işlem yapmak için num_workers değerini 0 olarak ayarlayın. Örneğin:

{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}