Unity Kataloğu'nu kullanarak veri kökenini görüntüleme

Bu sayfada, Katalog Gezgini ve veri kökeni sistem tablolarını kullanarak veri kökeninin nasıl görselleştirildiği açıklanır.

Veri kökenine genel bakış

Unity Kataloğu, Azure Databricks üzerinde çalıştırılan sorgular arasındaki çalışma zamanı veri izlerini takip eder. Köken tüm diller için desteklenir ve sütun düzeyine kadar takibi yapılabilir. Köken verileri, sorguyla ilgili not defterlerini, işleri ve panoları içerir. Köken, Katalog Gezgini'nde neredeyse gerçek zamanlı olarak görselleştirilebilir ve köken sistemi tabloları kullanılarak program aracılığıyla alınabilir.

Soy takip sistemi, Azure Databricks dışında çalıştırılan dış varlıkları ve iş akışlarını da içerebilir. Bu dış köken meta verisi özelliği Genel Önizleme aşamasındadır. Bkz Kendi veri kökeninizi getirme.

Soyağacı, Unity Catalog veri deposuna bağlı tüm çalışma alanlarında bir araya getirilir. Başka bir deyişle, bir çalışma alanında yakalanan köken, bu meta veri depolarını paylaşan başka bir çalışma alanında görünür. Özellikle, meta veri deposuna kaydedilen tablolar ve diğer veri nesneleri, meta veri deposuna bağlı tüm çalışma alanlarında bu nesneler üzerinde en az BROWSE izinlere sahip kullanıcılar tarafından görülebilir. Ancak, diğer çalışma alanlarındaki not defterleri ve panolar gibi çalışma alanı düzeyindeki nesneler hakkında ayrıntılı bilgiler maskelenmiştir (bkz. Köken sınırlamaları ve Köken izinleri).

Köken verileri süresiz olarak tutulur. 1 Eylül 2024'ün ardından yakalanan tüm köken verileri kullanılabilir. Bu tarihten sonra oluşturulan meta veri depoları için Katalog Gezgini, soyağacı zaman aralığı açılır listesinde Tüm zaman seçeneğine sahiptir. Daha eski meta veri depoları için açılan listede, 1 Eylül 2024'ten itibaren başlayan bir Tümü kullanılabilir seçeneği bulunur. Varsayılan seçim 1 yıldır.

Aşağıdaki görüntü örnek bir köken grafıdır.

Soyağacı'na genel bakış.

Veri kökenini görüntüleme tanıtımı için bkz. Unity Kataloğu - Veri Kökeni.

Makine öğrenmesi modelinin kökenini izleme hakkında bilgi için bkz. Unity Catalog'da modelin veri kökenini izleme .

Gereksinimler

Unity Kataloğu'nu kullanarak veri kökenini yakalamak için:

  • Tabloların Unity Kataloğu meta veri deposuna kaydedilmesi gerekir.
  • Dış varlıklar (Unity Kataloğu meta veri deposunda kayıtlı olmayanlar), Unity Kataloğu meta veri deponuzda kayıtlı diğer güvenli hale getirilebilir nesnelerle ilişkileri olacak şekilde yapılandırılmış, Unity Kataloğu'nda dış meta veri nesneleri olarak eklenmelidir. Bkz Kendi veri kökeninizi getirme.
  • Sorgular Spark DataFrame 'i (örneğin, DataFrame döndüren Spark SQL işlevleri) veya not defterleri veya SQL sorgu düzenleyicisi gibi Databricks SQL arabirimlerini kullanmalıdır.

Veri kökenini görüntülemek için:

İşlem gereksinimleri:

  • Delta tabloları arasındaki akışın soy takibi için Databricks Runtime 11.3 LTS veya üzeri gerekir.
  • Lakeflow Spark Bildirimli İşlem Hatları iş yükleri için sütun kökeni izleme için Databricks Runtime 13.3 LTS veya üzeri gerekir.

Ağ gereksinimleri:

Katalog Gezgini'nde veri kökenini görüntüleme

Tablo kökenini görüntülemek için Katalog Gezgini'ni kullanmak için:

  1. Azure Databricks çalışma alanınızda Data icon.Catalog öğesine tıklayın.

  2. Tablonuzu arayın veya ona göz atın.

  3. Köken sekmesini seçin. Köken paneli görüntülenir ve ilgili tabloları görüntüler.

  4. Veri kökeninin etkileşimli bir grafiğini görüntülemek için Bkz. Köken Grafiği.

    Varsayılan olarak, grafikte bir düzey görüntülenir. Varsa daha fazla bağlantı göstermek için düğümdeki Artı İşaret Simgesi simgesine tıklayın.

  5. Köken bağlantı panelini açmak için, köken grafiğindeki düğümleri bağlayan oka tıklayın.

    Bağlantı kökeni panelinde kaynak ve hedef tablolar, not defterleri ve görevler de dahil olmak üzere bağlantıyla ilgili ayrıntılar gösterilir.

    Köken grafiği.

  6. Tabloyla ilişkilendirilmiş bir not defterini göstermek için, Köken bağlantı panelinde not defterini seçin veya köken grafiğini kapatın ve Not Defterleri'ne tıklayın.

    Not defterini yeni bir sekmede açmak için not defteri adına tıklayın.

  7. Sütun düzeyinde kökeni görüntülemek için, ilgili sütunların bağlantılarını göstermek için grafikte bir sütuna tıklayın. Örneğin, bu örnek grafikteki sütuna full_menu tıklanması, sütunun türetildiği yukarı akış sütunlarını gösterir:

    Tam menü sütun kökeni.

İş kökenini görüntüleme

İş kökenini görüntülemek için tablonun Köken sekmesine gidin, İşler'i seçin ve Aşağı Akış'ı seçin. İş adı, İş Adı altında tablonun tüketicisi olarak görünür.

Pano geçmişini görüntüle

Pano kökenini görüntülemek için tablonun Köken sekmesine gidin ve Panolar'a tıklayın. Gösterge paneli, Pano Adı altında tablonun tüketicisi olarak görünür.

Genie Code kullanarak tablo kökeni alma

Genie Code, tablo kökenleri ve içgörüleri hakkında ayrıntılı bilgi sağlar.

Genie Code kullanarak köken bilgilerini almak için:

  1. Çalışma alanı kenar çubuğunda Veri simgesine tıklayın.Katalog'a gidin.
  2. Kataloğa göz atın veya kataloğu arayın, katalog adına tıklayın ve ardından Yardımcı renk simgesine tıklayın. Sağ üst köşedeki Genie Code simgesi.
  3. Genie Code isteminde şunu yazın:
    • Yukarı ve aşağı akış bağımlılıklarını görüntülemek için /getTableLineages .
    • #getTableInsights kullanıcı etkinliği ve sorgu desenleri gibi meta veri temelli içgörülere erişim sağlamak için.

Bu sorgular Genie Code'un "bana aşağı akış kökenlerini göster" veya "bu tabloyu en sık sorgulayan kişiler" gibi soruları yanıtlamasını sağlar.

Genie Code, tablo kökeni ve içgörüler sağlar.

Sistem tablolarını kullanarak köken verilerini sorgulama

Köken verilerini program aracılığıyla sorgulamak için köken sistemi tablolarını kullanabilirsiniz. Ayrıntılı yönergeler için bkz. Sistem tabloları referansı ve Soy sistem tabloları referansı.

Köken izinleri

Soy kütüğü grafikleri, Unity Kataloğu ile aynı izin modelini paylaşır. Unity Kataloğu meta veri deposunda kayıtlı tablolar ve diğer veri nesneleri yalnızca bu nesneler üzerinde en az BROWSE izni olan kullanıcılar tarafından görülebilir. Bir kullanıcının tabloda BROWSE veya SELECT ayrıcalığı yoksa, kökenini keşfedemez. Köken grafikleri, kullanıcının yeterli nesne izinlerine sahip olduğu sürece meta veri deposuna eklenen tüm çalışma alanlarında Unity Kataloğu nesnelerini görüntüler.

Örneğin, userAiçin aşağıdaki komutları çalıştırın:

GRANT USE SCHEMA on lineage_data.lineagedemo to `userA@company.com`;
GRANT SELECT on lineage_data.lineagedemo.menu to `userA@company.com`;

userA lineage_data.lineagedemo.menu tablosunun köken grafiğini görüntülediğinde, menu tablosunu görürler. Aşağı akış lineage_data.lineagedemo.dinner tablosu gibi ilişkili tablolar hakkındaki bilgileri göremezler. dinner tablosu, maskediçin görüntüde bir userA düğümü olarak görüntülenir ve userA, erişim izni olmayan tablolardan aşağı akış tablolarını ortaya çıkarmak için grafiği genişletemez.

için izin BROWSEvermek için userB aşağıdaki komutu çalıştırırsanız, bu kullanıcı şemadaki herhangi bir tablonun köken grafiğini lineage_data görüntüleyebilir:

GRANT BROWSE on lineage_data to `userB@company.com`;

Benzer şekilde, köken kullanıcılarının not defterleri, işler ve panolar gibi çalışma alanı nesnelerini görüntülemek için belirli izinleri olmalıdır. Ayrıca, yalnızca bu nesnelerin oluşturulduğu çalışma alanında oturum açtıklarında çalışma alanı nesneleri hakkındaki ayrıntılı bilgileri görebilirler. Diğer çalışma alanlarındaki çalışma alanı düzeyindeki nesneler hakkında ayrıntılı bilgiler köken grafiğinde maskelenmiştir.

Unity Kataloğu'nda güvenliği sağlanabilir nesnelere erişimi yönetme hakkında daha fazla bilgi için bkz. Unity Kataloğu'nda ayrıcalıkları yönetme. Not defterleri, işler ve panolar gibi çalışma alanı nesnelerine erişimi yönetme hakkında daha fazla bilgi için bkz . Erişim denetim listeleri.

Köken sınırlamaları

Veri kökeni aşağıdaki sınırlamalara sahiptir. Bu sınırlamalar, köken sistemi tabloları için de geçerlidir:

  • Aynı Unity Catalog meta veri deposuna bağlı tüm çalışma alanlarının kökenleri toplansa da, not defterleri ve panolar gibi çalışma alanı nesnelerinin ayrıntıları yalnızca oluşturuldukları çalışma alanında görülebilir.
  • 1 Eylül 2024'ten önce yakalanmış köken verileri kullanılamaz.
  • Jobs API'sini runs submit talebini veya spark submit görev türünü kullanan işler köken görünümlerinde görünmez. Tablo ve sütun düzeyi soy bu iş akışları için yine de kaydedilir, ancak iş çalıştırmasıyla olan ilişkisi kaydedilmez.
  • Yeniden adlandırılan nesneler için köken korunmaz; bu durum kataloglar, şemalar, tablolar, görünümler ve sütunlar için geçerlidir.
  • Spark SQL veri kümesi denetim noktası oluşturma kullanıyorsanız köken yakalanmaz.
  • Unity Kataloğu, çoğunlukla Lakeflow Spark Bildirimli İşlem Hatlarındaki soy ağacını izler. Ancak bazı durumlarda, işlem hatlarının PRIVATE tablolarını kullanması gibi eksiksiz köken kapsamı garanti edilemez.
  • Dayanıklı Dağıtılmış Veri Kümeleri (RDD'ler) soy ağacında yer almaz.
  • Genel geçici görünümler veri soyağacında yakalanmaz.
  • İşlemler her okuma ve yazma işlemi gerçekleşirken veri silsilesi oluşturur. İşlem geri alınsa bile köken olayları kalıcı olur.
  • system.information_schema altındaki tablolar veri soyağacında izlenemez.
  • Unity Kataloğu, kökeni mümkün olduğunca sütun seviyesinde yakalar. Ancak, sütun düzeyinde kökenin yakalanamadığı bazı durumlar vardır. Bunlar şunlardır:
    • Kaynak veya hedefe yol olarak başvurulduysa sütun kökeni yakalanamaz (Örnek: select * from delta."s3://<bucket>/<path>"). Sütun kökeni yalnızca hem kaynak hem de hedefe tablo adıyla başvurulduğunda desteklenir (Örnek: select * from <catalog>.<schema>.<table>).

    • Kaynak ve hedef sütunlar arasındaki eşlemeyi gizleyebilen kullanıcı tanımlı işlevlerin (UDF) kullanımı.