Azure Databricks'te Yapılandırılmış Akış toplu işlem boyutunu yapılandırma

Bu makalede, akış sorguları için tutarlı bir yığın boyutunu sürdürmek amacıyla kabul kontrollerinin nasıl kullanılacağı açıklanmaktadır.

Giriş denetimleri, tutarlı bir toplu iş boyutunun korunmasına ve büyük toplu işlemlerin taşma ve geçişli mikro toplu işlem gecikmelerine neden olmasını önlemeye yardımcı olabilecek Yapılandırılmış Akış sorguları için giriş hızını sınırlar.

Azure Databricks hem Delta Lake hem de Otomatik Yükleyici için Yapılandırılmış Akış toplu iş boyutlarını denetlemek için aynı seçenekleri sağlar.

Uyarı

Bir akış sorgusunun denetim noktasını sıfırlamadan erişim denetimi ayarlarını değiştirebilirsiniz. Bkz Yapılandırılmış Akış sorgusunda değişikliklerden sonra kurtarma.

Toplu iş boyutunu artırmak veya azaltmak için erişim denetimi ayarlarının değiştirilmesi performansı etkiler. İş yükünüzü iyileştirmek için işlem yapılandırmalarınızı ayarlamanız gerekebilir.

maxFilesPerTrigger ile giriş hızını sınırlama

maxFilesPerTrigger (veya Otomatik Yükleyici için cloudFiles.maxFilesPerTrigger) ayarı, her mikro toplu işlemde işlenen dosya sayısı için bir üst sınır belirtir. Hem Delta Lake hem de Otomatik Yükleyici için varsayılan değer 1000'dir. (Bu seçeneğin diğer dosya kaynakları için Apache Spark'ta da mevcut olduğunu ve varsayılan olarak maksimum değer olmadığını unutmayın.)

maxBytesPerTrigger ile giriş hızını sınırlama

maxBytesPerTrigger (veya Otomatik Yükleyici için cloudFiles.maxBytesPerTrigger) ayarı, her mikro toplu işlemde işlenen veri miktarı için bir "geçici maksimum" ayarlar. Bu, bir toplu işlemin yaklaşık olarak bu miktarda veriyi işlediği ve en küçük giriş biriminin bu sınırdan büyük olduğu durumlarda akış sorgusunun ileriye doğru ilerlemesini sağlamak için sınırdan fazlasını işleyebileceği anlamına gelir. Bu ayar için varsayılan değer yoktur.

Örneğin, her mikrobaç değerini 10 GB veriyle sınırlamak için 10g gibi bir bayt dizesi belirtirseniz ve her biri 3 GB olan dosyalarınız varsa, Azure Databricks bir mikrobatch içinde 12 GB işler.

Birden çok giriş oranlarını birlikte ayarlama

maxBytesPerTriggerile birlikte maxFilesPerTrigger kullanırsanız, mikro toplu işlem maxFilesPerTrigger veya maxBytesPerTriggeralt sınırına ulaşana kadar verileri işler.

Diğer Yapılandırılmış Akış kaynakları için giriş oranlarını sınırlama

Apache Kafka gibi akış kaynaklarının her birinin maxOffsetsPerTriggergibi özel giriş sınırları vardır. Daha fazla ayrıntı için bkz. Lakeflow Connect'te standart bağlayıcılar.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2025-05-09