Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfada, Katalog Gezgini ve veri kökeni sistem tablolarını kullanarak veri kökeninin nasıl görselleştirildiği açıklanır.
Veri kökenine genel bakış
Unity Kataloğu, Azure Databricks üzerinde çalıştırılan sorgular arasındaki çalışma zamanı veri izlerini takip eder. Köken tüm diller için desteklenir ve sütun düzeyine kadar takibi yapılabilir. Köken verileri, sorguyla ilgili not defterlerini, işleri ve panoları içerir. Köken, Katalog Gezgini'nde neredeyse gerçek zamanlı olarak görselleştirilebilir ve köken sistemi tabloları kullanılarak program aracılığıyla alınabilir.
Soy takip sistemi, Azure Databricks dışında çalıştırılan dış varlıkları ve iş akışlarını da içerebilir. Bu dış köken meta verisi özelliği Genel Önizleme aşamasındadır. Bkz Kendi veri kökeninizi getirme.
Soyağacı, Unity Catalog veri deposuna bağlı tüm çalışma alanlarında bir araya getirilir. Başka bir deyişle, bir çalışma alanında yakalanan köken, bu meta veri depolarını paylaşan başka bir çalışma alanında görünür. Özellikle, meta veri deposuna kaydedilen tablolar ve diğer veri nesneleri, meta veri deposuna bağlı tüm çalışma alanlarında bu nesneler üzerinde en az BROWSE izinlere sahip kullanıcılar tarafından görülebilir. Ancak, diğer çalışma alanlarındaki not defterleri ve panolar gibi çalışma alanı düzeyindeki nesneler hakkında ayrıntılı bilgiler maskelenmiştir (bkz. Köken sınırlamaları ve Köken izinleri).
Köken verileri süresiz olarak tutulur. 1 Eylül 2024'ün ardından yakalanan tüm köken verileri kullanılabilir. Bu tarihten sonra oluşturulan meta veri depoları için Katalog Gezgini, soyağacı zaman aralığı açılır listesinde Tüm zaman seçeneğine sahiptir. Daha eski meta veri depoları için açılan listede, 1 Eylül 2024'ten itibaren başlayan bir Tümü kullanılabilir seçeneği bulunur. Varsayılan seçim 1 yıldır.
Aşağıdaki görüntü örnek bir köken grafıdır.
Veri kökenini görüntüleme tanıtımı için bkz. Unity Kataloğu - Veri Kökeni.
Makine öğrenmesi modelinin kökenini izleme hakkında bilgi için bkz. Unity Catalog'da modelin veri kökenini izleme
Gereksinimler
Unity Kataloğu'nu kullanarak veri kökenini yakalamak için:
- Tabloların Unity Kataloğu meta veri deposuna kaydedilmesi gerekir.
- Dış varlıklar (Unity Kataloğu meta veri deposunda kayıtlı olmayanlar), Unity Kataloğu meta veri deponuzda kayıtlı diğer güvenli hale getirilebilir nesnelerle ilişkileri olacak şekilde yapılandırılmış, Unity Kataloğu'nda dış meta veri nesneleri olarak eklenmelidir. Bkz Kendi veri kökeninizi getirme.
- Sorgular Spark DataFrame 'i (örneğin, DataFrame döndüren Spark SQL işlevleri) veya not defterleri veya SQL sorgu düzenleyicisi gibi Databricks SQL arabirimlerini kullanmalıdır.
Veri kökenini görüntülemek için:
- En azından tablonun veya görünümün ebeveyn kataloğunda
BROWSEayrıcalığınız olmalıdır. Üst kataloğun çalışma alanından erişilebilir olması gerekir. Bkz . Çalışma alanı-katalog bağlaması. - Not defterleri, işler veya panolar için, çalışma alanında erişim denetimi ayarları tarafından tanımlanan bu nesneler üzerinde izinleriniz olmalıdır. Ayrıntılar için bkz. Köken izinleri.
- Unity Kataloğu etkinleştirilmiş bir işlem hattı için işlem hattında GÖRÜNTÜLEYEBILIR iznine sahip olmalısınız.
İşlem gereksinimleri:
- Delta tabloları arasındaki akışın soy takibi için Databricks Runtime 11.3 LTS veya üzeri gerekir.
- Lakeflow Spark Bildirimli İşlem Hatları iş yükleri için sütun kökeni izleme için Databricks Runtime 13.3 LTS veya üzeri gerekir.
Ağ gereksinimleri:
- Azure Databricks denetim düzlemindeki Event Hubs uç noktasına bağlantı sağlamak için giden güvenlik duvarı kurallarınızı güncelleştirmeniz gerekebilir. Bu durum özellikle Azure Databricks çalışma alanınız kendi sanal ağınıza (VNet injection olarak da bilinir) dağıtılırsa geçerlidir. Çalışma alanı bölgenizin Event Hubs uç noktasını almak için Metastore, artifakt Blob depolama, sistem tabloları depolama, günlük Blob depolama ve Event Hubs uç noktası IP adreslerine bakın. Azure Databricks için kullanıcı tanımlı yolları (UDR) ayarlama hakkında bilgi için bkz. Azure Databricks için kullanıcı tanımlı yol ayarları.
Katalog Gezgini'nde veri kökenini görüntüleme
Tablo kökenini görüntülemek için Katalog Gezgini'ni kullanmak için:
Azure Databricks çalışma alanınızda
Catalog öğesine tıklayın.
Tablonuzu arayın veya ona göz atın.
Köken sekmesini seçin. Köken paneli görüntülenir ve ilgili tabloları görüntüler.
Veri kökeninin etkileşimli bir grafiğini görüntülemek için Bkz. Köken Grafiği.
Varsayılan olarak, grafikte bir düzey görüntülenir. Varsa daha fazla bağlantı göstermek için düğümdeki
simgesine tıklayın.Köken bağlantı panelini açmak için, köken grafiğindeki düğümleri bağlayan oka tıklayın.
Bağlantı kökeni panelinde kaynak ve hedef tablolar, not defterleri ve görevler de dahil olmak üzere bağlantıyla ilgili ayrıntılar gösterilir.
Tabloyla ilişkilendirilmiş bir not defterini göstermek için, Köken bağlantı panelinde not defterini seçin veya köken grafiğini kapatın ve Not Defterleri'ne tıklayın.
Not defterini yeni bir sekmede açmak için not defteri adına tıklayın.
Sütun düzeyinde kökeni görüntülemek için, ilgili sütunların bağlantılarını göstermek için grafikte bir sütuna tıklayın. Örneğin, bu örnek grafikteki sütuna
full_menutıklanması, sütunun türetildiği yukarı akış sütunlarını gösterir:
İş kökenini görüntüleme
İş kökenini görüntülemek için tablonun Köken sekmesine gidin, İşler'i seçin ve Aşağı Akış'ı seçin. İş adı, İş Adı altında tablonun tüketicisi olarak görünür.
Pano geçmişini görüntüle
Pano kökenini görüntülemek için tablonun Köken sekmesine gidin ve Panolar'a tıklayın. Gösterge paneli, Pano Adı altında tablonun tüketicisi olarak görünür.
Genie Code kullanarak tablo kökeni alma
Genie Code, tablo kökenleri ve içgörüleri hakkında ayrıntılı bilgi sağlar.
Genie Code kullanarak köken bilgilerini almak için:
- Çalışma alanı kenar çubuğunda
Katalog'a gidin.
- Kataloğa göz atın veya kataloğu arayın, katalog adına tıklayın ve ardından
Sağ üst köşedeki Genie Code simgesi.
- Genie Code isteminde şunu yazın:
- Yukarı ve aşağı akış bağımlılıklarını görüntülemek için /getTableLineages .
- #getTableInsights kullanıcı etkinliği ve sorgu desenleri gibi meta veri temelli içgörülere erişim sağlamak için.
Bu sorgular Genie Code'un "bana aşağı akış kökenlerini göster" veya "bu tabloyu en sık sorgulayan kişiler" gibi soruları yanıtlamasını sağlar.
Sistem tablolarını kullanarak köken verilerini sorgulama
Köken verilerini program aracılığıyla sorgulamak için köken sistemi tablolarını kullanabilirsiniz. Ayrıntılı yönergeler için bkz. Sistem tabloları referansı ve Soy sistem tabloları referansı.
Köken izinleri
Soy kütüğü grafikleri, Unity Kataloğu ile aynı izin modelini paylaşır. Unity Kataloğu meta veri deposunda kayıtlı tablolar ve diğer veri nesneleri yalnızca bu nesneler üzerinde en az BROWSE izni olan kullanıcılar tarafından görülebilir. Bir kullanıcının tabloda BROWSE veya SELECT ayrıcalığı yoksa, kökenini keşfedemez. Köken grafikleri, kullanıcının yeterli nesne izinlerine sahip olduğu sürece meta veri deposuna eklenen tüm çalışma alanlarında Unity Kataloğu nesnelerini görüntüler.
Örneğin, userAiçin aşağıdaki komutları çalıştırın:
GRANT USE SCHEMA on lineage_data.lineagedemo to `userA@company.com`;
GRANT SELECT on lineage_data.lineagedemo.menu to `userA@company.com`;
userA
lineage_data.lineagedemo.menu tablosunun köken grafiğini görüntülediğinde, menu tablosunu görürler. Aşağı akış lineage_data.lineagedemo.dinner tablosu gibi ilişkili tablolar hakkındaki bilgileri göremezler.
dinner tablosu, maskediçin görüntüde bir userA düğümü olarak görüntülenir ve userA, erişim izni olmayan tablolardan aşağı akış tablolarını ortaya çıkarmak için grafiği genişletemez.
için izin BROWSEvermek için userB aşağıdaki komutu çalıştırırsanız, bu kullanıcı şemadaki herhangi bir tablonun köken grafiğini lineage_data görüntüleyebilir:
GRANT BROWSE on lineage_data to `userB@company.com`;
Benzer şekilde, köken kullanıcılarının not defterleri, işler ve panolar gibi çalışma alanı nesnelerini görüntülemek için belirli izinleri olmalıdır. Ayrıca, yalnızca bu nesnelerin oluşturulduğu çalışma alanında oturum açtıklarında çalışma alanı nesneleri hakkındaki ayrıntılı bilgileri görebilirler. Diğer çalışma alanlarındaki çalışma alanı düzeyindeki nesneler hakkında ayrıntılı bilgiler köken grafiğinde maskelenmiştir.
Unity Kataloğu'nda güvenliği sağlanabilir nesnelere erişimi yönetme hakkında daha fazla bilgi için bkz. Unity Kataloğu'nda ayrıcalıkları yönetme
Köken sınırlamaları
Veri kökeni aşağıdaki sınırlamalara sahiptir. Bu sınırlamalar, köken sistemi tabloları için de geçerlidir:
- Aynı Unity Catalog meta veri deposuna bağlı tüm çalışma alanlarının kökenleri toplansa da, not defterleri ve panolar gibi çalışma alanı nesnelerinin ayrıntıları yalnızca oluşturuldukları çalışma alanında görülebilir.
- 1 Eylül 2024'ten önce yakalanmış köken verileri kullanılamaz.
- Jobs API'sini
runs submittalebini veyaspark submitgörev türünü kullanan işler köken görünümlerinde görünmez. Tablo ve sütun düzeyi soy bu iş akışları için yine de kaydedilir, ancak iş çalıştırmasıyla olan ilişkisi kaydedilmez. - Yeniden adlandırılan nesneler için köken korunmaz; bu durum kataloglar, şemalar, tablolar, görünümler ve sütunlar için geçerlidir.
- Spark SQL veri kümesi denetim noktası oluşturma kullanıyorsanız köken yakalanmaz.
- Unity Kataloğu, çoğunlukla Lakeflow Spark Bildirimli İşlem Hatlarındaki soy ağacını izler. Ancak bazı durumlarda, işlem hatlarının PRIVATE tablolarını kullanması gibi eksiksiz köken kapsamı garanti edilemez.
- Dayanıklı Dağıtılmış Veri Kümeleri (RDD'ler) soy ağacında yer almaz.
- Genel geçici görünümler veri soyağacında yakalanmaz.
- İşlemler her okuma ve yazma işlemi gerçekleşirken veri silsilesi oluşturur. İşlem geri alınsa bile köken olayları kalıcı olur.
-
system.information_schemaaltındaki tablolar veri soyağacında izlenemez. - Unity Kataloğu, kökeni mümkün olduğunca sütun seviyesinde yakalar. Ancak, sütun düzeyinde kökenin yakalanamadığı bazı durumlar vardır. Bunlar şunlardır:
Kaynak veya hedefe yol olarak başvurulduysa sütun kökeni yakalanamaz (Örnek:
select * from delta."s3://<bucket>/<path>"). Sütun kökeni yalnızca hem kaynak hem de hedefe tablo adıyla başvurulduğunda desteklenir (Örnek:select * from <catalog>.<schema>.<table>).Kaynak ve hedef sütunlar arasındaki eşlemeyi gizleyebilen kullanıcı tanımlı işlevlerin (UDF) kullanımı.