Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede, işlem sistemi tabloları için bir başvuru kılavuzu sağlanır. Bu tabloları, hesabınızda sunucusuz olmayan çok amaçlı işlem, iş hesaplaması ve Lakeflow Spark Bildirimli İşlem Hatları işleminin etkinliğini ve ölçümlerini izlemek için kullanabilirsiniz. İşlem tabloları şunlardır:
-
clusters: Hesabınızdaki işlem yapılandırmalarını kaydeder. -
node_types: Donanım bilgileri de dahil olmak üzere şu anda kullanılabilir olan düğüm türlerinin her biri için tek bir kayıt içerir. -
node_timeline: İşleminizin kullanım ölçümlerinin dakika dakika kayıtlarını içerir.
Küme tablosu şeması
Küme tablosu, çok amaçlı işlem, iş işlemleri, Lakeflow Spark Bildirimli İşlem Hatları işlemi ve işlem hattı bakım işlemi için zaman içindeki işlem yapılandırmalarının tam geçmişini içeren yavaş değişen bir boyut tablosudur.
Tablo yolu: Bu sistem tablosu system.compute.clusters'de yer almaktadır.
| Sütun adı | Veri türü | Açıklama | Örnek |
|---|---|---|---|
account_id |
Dize | Bu kümenin oluşturulduğu hesabın kimliği. | 23e22ba4-87b9-4cc2-9770-d10b894b7118 |
workspace_id |
Dize | Bu kümenin oluşturulduğu çalışma alanının kimliği. | 1234567890123456 |
cluster_id |
Dize | Bu kaydın ilişkilendirildiği kümenin kimliği. | 0000-123456-crmpt124 |
cluster_name |
Dize | Küme için kullanıcı tanımlı ad. | My cluster |
owned_by |
Dize | Küme sahibinin kullanıcı adı. Varsayılan olarak küme oluşturucusu kullanılır, ancak Kümeler API'sini kullanarak değiştirilebilir. | sample_user@email.com |
create_time |
Tarih damgası | Bu işlem tanımında yapılan değişikliğin zaman damgası. | 2023-01-09 11:00:00.000 |
delete_time |
Tarih damgası | Silinmiş kümenin zaman damgası. Küme silinmezse değer null olur. |
2023-01-09 11:00:00.000 |
driver_node_type |
Dize | Sürücü düğümü türü adı. Bu, bulut sağlayıcısındaki örnek türü adıyla eşleşir. | Standard_D16s_v3 |
worker_node_type |
Dize | Çalışan düğüm tipi adı. Bu, bulut sağlayıcısındaki örnek türü adıyla eşleşir. | Standard_D16s_v3 |
worker_count |
bigint | çalışan sayısı. Yalnızca sabit boyutlu kümeler için tanımlanır. | 4 |
min_autoscale_workers |
bigint | Ayarlanan en az çalışan sayısı. Bu alan yalnızca otomatik ölçeklendirme kümeleri için geçerlidir. | 1 |
max_autoscale_workers |
bigint | Ayarlanan en fazla çalışan sayısı. Bu alan yalnızca otomatik ölçeklendirme kümeleri için geçerlidir. | 1 |
auto_termination_minutes |
bigint | Yapılandırılan otomatik sonlandırma süresi. | 120 |
enable_elastic_disk |
Boolean | Disk otomatik ölçeklendirme etkinleştirme durumu. | true |
tags |
harita | Küme için kullanıcı tanımlı etiketler (varsayılan etiketleri içermez). | {"ResourceClass":"SingleNode"} |
cluster_source |
Dize | Kümenin kaynağı.
UI veya API değerleri yalnızca tüm amaçlı işlemler için geçerlidir. Tüm iş hesabı JOB olarak günlüğe kaydedilir. İşlem hatları PIPELINE veya PIPELINE_MAINTENANCE. |
UI |
init_scripts |
dizi | Başlatma komut dosyaları için init yolları kümesi. | "/Users/example@email.com/files/scripts/install-python-pacakges.sh" |
aws_attributes |
yapı | AWS'ye özgü ayarlar. | null |
azure_attributes |
yapı | Azure'a özgü ayarlar. | {"first_on_demand": "0","availability": "ON_DEMAND_AZURE","spot_bid_max_price": "—1"} |
gcp_attributes |
yapı | GCP'ye özgü ayarlar. Bu alan boş olacaktır. | null |
driver_instance_pool_id |
Dize | Sürücü bir örnek havuzunun üzerinde yapılandırılmışsa örnek havuzu kimliği. | 1107-555555-crhod16-pool-DIdnjazB |
worker_instance_pool_id |
Dize | Eğer çalışan bir örnek havuzunun üzerinde yapılandırılmışsa, Örnek Havuzu Kimliği. | 1107-555555-crhod16-pool-DIdnjazB |
dbr_version |
Dize | Kümenin Databricks Çalışma Süresi. | 14.x-snapshot-scala2.12 |
change_time |
Tarih damgası | İşlem tanımında yapılan değişikliğin zaman damgası. | 2023-01-09 11:00:00.000 |
change_date |
tarih | Tarihi değiştirin. Saklama için kullanılır. | 2023-01-09 |
data_security_mode |
Dize | İşlem kaynağının erişim modu. Bkz. Erişim modu referansı. | USER_ISOLATION |
policy_id |
Dize | Varsa, kümenin işlem ilkesinin kimliği. | 1234F35636110A5B |
Erişim modu referansı
Aşağıdaki tablo, sütunda data_security_mode yer alan olası değerleri çevirir. Sütun, belirli işlem hatları ve sistem tarafından oluşturulan kümeler için de olabilir null .
| Değer | Erişim modu |
|---|---|
USER_ISOLATION |
Standart |
SINGLE_USER |
Adanmış |
Eski erişim modları aşağıdaki değerlerle kaydedilir:
| Değer | Erişim modu |
|---|---|
LEGACY_PASSTHROUGH |
Kimlik bilgisi geçişi (paylaşılan) |
LEGACY_SINGLE_USER |
Kimlik bilgisi geçişi (tek kullanıcı) |
LEGACY_TABLE_ACL |
Özelleştirilmiş |
NONE |
Paylaşılan yalıtım yok |
Düğüm türleri tablo şeması
Düğüm türü tablosu, şu anda kullanılabilir olan düğüm türlerini temel donanım bilgileriyle yakalar.
Tablo yolu: Bu sistem tablosu system.compute.node_typeskonumunda bulunur.
| Sütun adı | Veri türü | Açıklama | Örnek |
|---|---|---|---|
account_id |
Dize | Bu kümenin oluşturulduğu hesabın kimliği. | 23e22ba4-87b9-4cc2-9770-d10b894b7118 |
node_type |
Dize | Düğüm türünün benzersiz tanımlayıcısı. | Standard_D16s_v3 |
core_count |
iki katı | Örnek için vCPU sayısı. | 48.0 |
memory_mb |
uzun | Örnek için toplam bellek. | 393216 |
gpu_count |
uzun | Örnek için GPU sayısı. | 0 |
Düğüm zaman çizelgesi tablosu şeması
Düğüm zaman çizelgesi tablosu, düğüm düzeyinde kaynak kullanım verilerini dakika ayrıntı düzeyinde yakalar. Her kayıt, örnek başına belirli bir dakika boyunca veri içerir. Bu tablo, hesabınızdaki tüm amaçlı hesaplama, iş yükü hesaplama, Lakeflow Spark Bildirimli İşlem Hatları hesaplama ve işlem hattı bakım hesaplama kaynakları için düğüm zamanlamalarını yakalar.
Tablo yolu: Bu sistem tablosu system.compute.node_timelinekonumunda bulunur.
| Sütun adı | Veri türü | Açıklama | Örnek |
|---|---|---|---|
account_id |
Dize | Bu işlem kaynağının çalıştığı hesabın kimliği. | 23e22ba4-87b9-4cc2-9770-d10b894b7118 |
workspace_id |
Dize | Bu işlem kaynağının çalıştığı çalışma alanının kimliği. | 1234567890123456 |
cluster_id |
Dize | İşlem kaynağının kimliği. | 0000-123456-crmpt124 |
instance_id |
Dize | Belirli bir örneğin tanımlayıcısı. | i-1234a6c12a2681234 |
start_time |
Tarih damgası | Kayıt için başlangıç saati UTC'ye göre. | 2024-07-16T12:00:00Z |
end_time |
Tarih damgası | Utc'de kaydın bitiş saati. | 2024-07-16T13:00:00Z |
driver |
Boolean | İster örnek bir sürücü düğümü ister işçi düğümü olsun. | true |
cpu_user_percent |
iki katı | CPU'nun userland'da harcadığı sürenin yüzdesi. | 34.76163817234407 |
cpu_system_percent |
iki katı | CPU'nun çekirdekte harcadığı sürenin yüzdesi. | 1.0895310279488264 |
cpu_wait_percent |
iki katı | CPU'nun G/Ç beklerken harcadığı sürenin yüzdesi. | 0.03445157400629276 |
mem_used_percent |
iki katı | İşlemde çalışan arka plan işlemleri tarafından kullanılan bellek de dahil olmak üzere, zaman aralığında kullanılan işlem belleğinin yüzdesi. | 45.34858216779041 |
mem_swap_percent |
iki katı | Bellek değiştirme ile ilişkilendirilen bellek kullanımı yüzdesi. | 0.014648443087939 |
network_sent_bytes |
bigint | Ağ trafiğinde gönderilen bayt sayısı. | 517376 |
network_received_bytes |
bigint | Ağ trafiğinden alınan bayt sayısı. | 179234 |
disk_free_bytes_per_mount_point |
harita | Bağlama noktasına göre gruplandırılmış disk kullanımı. Bu, yalnızca işlem çalışırken sağlanan kısa süreli depolamadır. | {"/var/lib/lxc":123455551234,"/":123456789123,"/local_disk0":123412341234} |
node_type |
Dize | Düğüm türünün adı. Bu, bulut sağlayıcısının örnek türü adıyla eşleşecektir. | Standard_D16s_v3 |
Bilinen sınırlamalar
- 23 Ekim 2023'e kadar silinmiş olarak işaretlenen işlem kaynakları kümeler tablosunda görünmez. Bu,
system.billing.usagetablosundan birleştirmelerin kümeler tablosundaki kayıtlarla eşleşmemesiyle sonuçlanabilir. Tüm etkin işlem kaynakları yedeklendi. - Bu tablolar yalnızca genel amaçlı ve iş hesaplama için kayıtları içerir. Sunucusuz işlem veya SQL ambarları için kayıtlar içermezler.
- 10 dakikadan kısa bir süre boyunca çalıştırılmayan düğümler
node_timelinetablosunda görünmeyebilir.
Örnek sorgular
Sık sorulan soruları yanıtlamak için aşağıdaki örnek sorguları kullanabilirsiniz:
- Küme kayıtlarını en son faturalama kayıtlarıyla birleştirme
- En yüksek ortalama kullanım ve en yüksek kullanım ile işlem kaynaklarını belirleme
Not
Bu örneklerden bazıları küme tablosunu system.billing.usage tablosuyla birleştirir. Bu nedenle, faturalama kayıtları bölgeye özgü olduğundan ve küme kayıtları bölge-spesifik olduğundan, faturalama kayıtları yalnızca sorguladığınız bölge için küme kayıtlarıyla eşleşir. Başka bir bölgedeki kayıtları görmek için lütfen sorguyu bu bölgede yürütür.
En son faturalama kayıtlarıyla küme kayıtlarını birleştirme
Bu sorgu, zaman içindeki harcamaları anlamanıza yardımcı olabilir.
usage_start_time en güncel faturalama dönemine güncelleştirdiğinizde, küme verilerine katılmak için faturalama kayıtlarında yapılan en son güncelleştirmeleri alır.
Her kayıt, o belirli çalıştırma sırasında küme sahibiyle ilişkilendirilir. Bu nedenle, küme sahibi değişirse maliyetler, kümenin ne zaman kullanıldığına bağlı olarak doğru sahipe yuvarlanır.
SELECT
u.record_id,
c.cluster_id,
c.owned_by,
c.change_time,
u.usage_start_time,
u.usage_quantity
FROM
system.billing.usage u
JOIN system.compute.clusters c
JOIN (SELECT u.record_id, c.cluster_id, max(c.change_time) change_time
FROM system.billing.usage u
JOIN system.compute.clusters c
WHERE
u.usage_metadata.cluster_id is not null
and u.usage_start_time >= '2023-01-01'
and u.usage_metadata.cluster_id = c.cluster_id
and date_trunc('HOUR', c.change_time) <= date_trunc('HOUR', u.usage_start_time)
GROUP BY all) config
WHERE
u.usage_metadata.cluster_id is not null
and u.usage_start_time >= '2023-01-01'
and u.usage_metadata.cluster_id = c.cluster_id
and u.record_id = config.record_id
and c.cluster_id = config.cluster_id
and c.change_time = config.change_time
ORDER BY cluster_id, usage_start_time desc;
En yüksek ortalama kullanıma ve maksimum kullanıma sahip hesaplama kaynaklarını belirleyin.
En yüksek ortalama CPU kullanımı ve en yüksek zirve CPU kullanımı olan çok amaçlı ve görev amaçlı hesaplamayı belirleyin.
SELECT
distinct cluster_id,
driver,
avg(cpu_user_percent + cpu_system_percent) as `Avg CPU Utilization`,
max(cpu_user_percent + cpu_system_percent) as `Peak CPU Utilization`,
avg(cpu_wait_percent) as `Avg CPU Wait`,
max(cpu_wait_percent) as `Max CPU Wait`,
avg(mem_used_percent) as `Avg Memory Utilization`,
max(mem_used_percent) as `Max Memory Utilization`,
avg(network_received_bytes)/(1024^2) as `Avg Network MB Received per Minute`,
avg(network_sent_bytes)/(1024^2) as `Avg Network MB Sent per Minute`
FROM
node_timeline
WHERE
start_time >= date_add(now(), -1)
GROUP BY
cluster_id,
driver
ORDER BY
3 desc;