Aracılığıyla paylaş


Databricks Lakehouse İzlemeye Giriş

Bu makalede Databricks Lakehouse İzleme açıklanmaktadır. Verilerinizi izlemenin avantajlarını kapsar ve Databricks Lakehouse İzleme bileşenlerine ve kullanımına genel bir bakış sağlar.

Databricks Lakehouse İzleme, hesabınızdaki tüm tablolardaki verilerin istatistiksel özelliklerini ve kalitesini izlemenize olanak tanır. Model girişleri ve tahminleri içeren çıkarım tablolarını izleyerek makine öğrenmesi modellerinin ve model sunma uç noktalarının performansını izlemek için de kullanabilirsiniz. Diyagramda Databricks'teki veriler ve ML işlem hatları üzerinden veri akışı ve veri kalitesini ve model performansını sürekli izlemek için izlemeyi nasıl kullanabileceğiniz gösterilir.

Databricks Lakehouse İzlemeye genel bakış

Databricks Lakehouse İzleme neden kullanılır?

Verilerinizden yararlı içgörüler elde etmek için verilerinizin kalitesine güvenmelisiniz. Verilerinizi izlemek, zaman içinde verilerinizin kalitesini ve tutarlılığını izlemenize ve onaylamanıza yardımcı olan nicel ölçüler sağlar. Tablonuzun veri dağıtımında veya ilgili modelin performansında değişiklikler algıladığınızda Databricks Lakehouse İzleme tarafından oluşturulan tablolar, değişikliği yakalayıp sizi uyarabilir ve nedeni belirlemenize yardımcı olabilir.

Databricks Lakehouse İzleme aşağıdaki gibi soruları yanıtlamanıza yardımcı olur:

  • Veri bütünlüğü nasıl görünür ve zaman içinde nasıl değişir? Örneğin, geçerli verilerdeki null veya sıfır değerlerinin kesri nedir ve artmıştır?
  • Verilerin istatistiksel dağılımı nasıl görünür ve zaman içinde nasıl değişir? Örneğin, sayısal sütunun 90. yüzdebirliği nedir? Ya da kategorik bir sütundaki değerlerin dağılımı nedir ve dünden farkı nedir?
  • Geçerli veriler ile bilinen temel arasında mı yoksa verilerin ardışık zaman pencereleri arasında mı kayma var?
  • Verilerin bir alt kümesinin veya diliminin istatistiksel dağılımı veya kayması nasıl görünür?
  • ML modeli girişleri ve tahminleri zaman içinde nasıl değişiyor?
  • Model performansı zaman içinde nasıl eğilimli? A modeli B sürümünden daha iyi performans sergiler mi?

Ayrıca Databricks Lakehouse İzleme, gözlemlerin zaman ayrıntı düzeyini denetlemenize ve özel ölçümler ayarlamanıza olanak tanır.

Gereksinimler

Databricks Lakehouse İzleme'yi kullanmak için aşağıdakiler gereklidir:

  • Unity Kataloğu için çalışma alanınızın etkinleştirilmesi ve Databricks SQL erişiminizin olması gerekir.
  • İzleme için yalnızca Delta tabloları desteklenir ve tablo şu tablo türlerinden biri olmalıdır: yönetilen tablolar, dış tablolar, görünümler, gerçekleştirilmiş görünümler veya akış tabloları.
  • Gerçekleştirilmiş görünümler ve akış tabloları üzerinden oluşturulan izleyiciler artımlı işlemeyi desteklemez.
  • Tüm bölgeler desteklenmez. Bölgesel destek için sınırlı bölgesel kullanılabilirliğe sahip özellikler tablosundaki Not defterleri ve iş akışları için Sunucusuz işlem sütununa bakın.

Not

Databricks Lakehouse İzleme, iş akışları için sunucusuz işlem kullanır. Lakehouse İzleme giderlerini izleme hakkında daha fazla bilgi için bkz . View Lakehouse Monitoring expenses.

Lakehouse İzleme Databricks'te nasıl çalışır?

Databricks'te bir tabloyu izlemek için tabloya bağlı bir izleyici oluşturursunuz. Makine öğrenmesi modelinin performansını izlemek için, izleyiciyi modelin girişlerini ve ilgili tahminlerini barındıran bir çıkarım tablosuna eklersiniz.

Databricks Lakehouse İzleme şu analiz türlerini sağlar: zaman serisi, anlık görüntü ve çıkarım.

Profil türü Açıklama
Zaman serisi Zaman damgası sütununa dayalı bir zaman serisi veri kümesi içeren tablolar için kullanın. İzleme, zaman serisinin zaman tabanlı pencerelerinde veri kalitesi ölçümlerini hesaplar.
Çıkarım Modelin istek günlüğünü içeren tablolar için kullanın. Her satır, zaman damgası, model girişleri, karşılık gelen tahmin ve (isteğe bağlı) ground-truth etiketi için sütunlar içeren bir istektir. İzleme, istek günlüğünün zamana bağlı pencerelerinde model performansını ve veri kalitesi ölçümlerini karşılaştırır.
Anlık Görüntü Diğer tüm tablo türleri için kullanın. İzleme, tablodaki tüm veriler üzerinde veri kalitesi ölçümlerini hesaplar. Tüm tablo her yenilemeyle işlenir.

Bu bölümde Databricks Lakehouse monitoring tarafından kullanılan giriş tabloları ve ürettiği ölçüm tabloları kısaca açıklanmaktadır. Diyagramda giriş tabloları, ölçüm tabloları, monitör ve pano arasındaki ilişki gösterilir.

Databricks Lakehouse İzleme diyagramı

Birincil tablo ve temel tablo

İzlenecek tabloya ek olarak , "birincil tablo" olarak adlandırılır, isteğe bağlı olarak kaymayı veya zaman içindeki değerlerdeki değişikliği ölçmek için başvuru olarak kullanılacak bir temel tablo belirtebilirsiniz. Temel tablo, verilerinizin nasıl görünmesini beklediğiniz bir örneğe sahip olduğunuzda kullanışlıdır. Amaç, kaymanın beklenen veri değerlerine ve dağıtımlarına göre hesaplanmış olmasıdır.

Temel tablo istatistiksel dağılımlar, tek tek sütun dağılımları, eksik değerler ve diğer özellikler açısından giriş verilerinin beklenen kalitesini yansıtan bir veri kümesi içermelidir. İzlenen tablonun şemasıyla eşleşmelidir. Özel durum, zaman serisi veya çıkarım profilleriyle kullanılan tablolar için zaman damgası sütunudur. Birincil tabloda veya temel tabloda sütunlar eksikse, izleme, çıkış ölçümlerini hesaplamak için en iyi çaba buluşsal yöntemlerini kullanır.

Anlık görüntü profili kullanan izleyiciler için temel tablo, dağıtımın kabul edilebilir bir kalite standardını temsil ettiği verilerin anlık görüntüsünü içermelidir. Örneğin, not dağılımı verilerinde taban çizgisi, notların eşit olarak dağıtıldığı bir önceki sınıfa ayarlanabilir.

Zaman serisi profili kullanan izleyiciler için temel tablo, veri dağıtımlarının kabul edilebilir bir kalite standardını temsil ettiği zaman pencerelerini temsil eden veriler içermelidir. Örneğin, hava durumu verilerinde, temeli sıcaklığın beklenen normal sıcaklıklara yakın olduğu bir hafta, ay veya yıl olarak ayarlayabilirsiniz.

Çıkarım profili kullanan izleyiciler için taban çizgisi için iyi bir seçim, izlenen modeli eğitmek veya doğrulamak için kullanılan verilerdir. Bu şekilde, veriler modelin eğitildiği ve doğrulandığı şeye göre kaydığında kullanıcılar uyarılabilir. Bu tablo birincil tabloyla aynı özellik sütunlarını içermeli ve ayrıca verilerin tutarlı bir şekilde toplanması için birincil tablonun InferenceLog değeri için belirtilen sütuna sahip model_id_col olmalıdır. İdeal olarak, modeli değerlendirmek için kullanılan test veya doğrulama kümesi, karşılaştırılabilir model kalitesi ölçümlerini sağlamak için kullanılmalıdır.

Ölçüm tabloları ve panoları

Tablo izleyicisi iki ölçüm tablosu ve bir pano oluşturur. Ölçüm değerleri tablonun tamamı için ve izleyiciyi oluştururken belirttiğiniz zaman pencereleri ve veri alt kümeleri (veya "dilimler") için hesaplanır. Ayrıca çıkarım analizi için ölçümler her model kimliği için hesaplanır. Ölçüm tabloları hakkında daha fazla ayrıntı için bkz . Ölçüm tablolarını izleme.

  • Profil ölçüm tablosu özet istatistikleri içerir. Profil ölçümleri tablosu şemasına bakın.
  • Kayma ölçümleri tablosu, verilerin zaman içindeki kayışıyla ilgili istatistikleri içerir. Temel tablo sağlanırsa, temel değerlere göre kayma da izlenir. Kayma ölçümleri tablosu şemasına bakın.

Ölçüm tabloları Delta tablolarıdır ve belirttiğiniz Unity Kataloğu şemasında depolanır. Bu tabloları Databricks kullanıcı arabirimini kullanarak görüntüleyebilir, Databricks SQL kullanarak sorgulayabilir ve bunları temel alan panolar ve uyarılar oluşturabilirsiniz.

Databricks, monitör sonuçlarını görselleştirmenize ve sunmanıza yardımcı olmak için her monitör için otomatik olarak bir pano oluşturur. Pano, diğer eski panolar gibi tamamen özelleştirilebilir.

Databricks'te Lakehouse İzleme'yi kullanmaya başlama

Başlamak için aşağıdaki makalelere bakın: