DataDriftDetector Sınıf

Azure Machine Learning'de veri kayma işlerini çalıştırmak için kullanılabilecek bir veri kayılması izleyicisi tanımlar.

DataDriftDetector sınıfı, belirli bir temel ile hedef veri kümesi arasındaki kaymayı belirlemenizi sağlar. DataDriftDetector nesnesi, bir çalışma alanında temel ve hedef veri kümeleri doğrudan belirtilerek oluşturulur. Daha fazla bilgi için bkz. https://aka.ms/datadrift.

Datadriftdetector oluşturucu.

DataDriftDetector oluşturucu, sağlanan çalışma alanıyla ilişkilendirilmiş bir DataDriftDetector nesnesinin bulut gösterimini almak için kullanılır.

Oluşturucu

DataDriftDetector(workspace, name=None, baseline_dataset=None, target_dataset=None, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)

Parametreler

Name Description
workspace
Gerekli

DataDriftDetector nesnesinin oluşturulacağı çalışma alanı.

name
str

DataDriftDetector nesnesi için benzersiz bir ad.

Default value: None
baseline_dataset

Hedef veri kümesini karşılaştıracak veri kümesi.

Default value: None
target_dataset

geçici veya zamanlanmış DataDrift işlerinin çalıştırıldığı veri kümesi. Zaman serisi olmalı.

Default value: None
compute_target

İsteğe bağlı Azure Machine Learning ComputeTarget veya ComputeTarget adı. DataDriftDetector belirtilmezse bir işlem hedefi oluşturur.

Default value: None
frequency
str

İşlem hattının ne sıklıkta çalıştırıldığını gösteren isteğe bağlı sıklık. "Gün", "Hafta" veya "Ay" desteği sunar.

Default value: None
feature_list

Datadrift algılamasını çalıştırmak için isteğe bağlı beyaz listeye alınmış özellikler. DataDriftDetector işleri, feature_list belirtilmezse tüm özelliklerde çalışır. Özellik listesi karakterler, sayılar, kısa çizgiler ve boşluklar içerebilir. Listenin uzunluğu 200'den az olmalıdır.

Default value: None
alert_config

DataDriftDetector uyarıları için isteğe bağlı yapılandırma nesnesi.

Default value: None
drift_threshold

DataDriftDetector uyarılarını etkinleştirmek için isteğe bağlı eşik. Değer 0 ile 1 arasında olmalıdır. Yok belirtildiğinde (varsayılan) 0,2 değeri kullanılır.

Default value: None
latency
int

Verilerin veri kümesinde görünmesi için saat cinsinden gecikme.

Default value: None
workspace
Gerekli

DataDriftDetector nesnesinin oluşturulacağı çalışma alanı.

name
Gerekli
str

DataDriftDetector nesnesi için benzersiz bir ad.

baseline_dataset
Gerekli

Hedef veri kümesini karşılaştıracak veri kümesi.

target_dataset
Gerekli

geçici veya zamanlanmış DataDrift işlerinin çalıştırıldığı veri kümesi. Zaman serisi olmalı.

compute_target
Gerekli

İsteğe bağlı Azure Machine Learning ComputeTarget veya ComputeTarget adı. DataDriftDetector belirtilmezse bir işlem hedefi oluşturur.

frequency
Gerekli
str

İşlem hattının ne sıklıkta çalıştırıldığını gösteren isteğe bağlı sıklık. "Gün", "Hafta" veya "Ay" desteği sunar.

feature_list
Gerekli

Datadrift algılamasını çalıştırmak için isteğe bağlı beyaz listeye alınmış özellikler. DataDriftDetector işleri, feature_list belirtilmezse tüm özelliklerde çalışır. Özellik listesi karakterler, sayılar, kısa çizgiler ve boşluklar içerebilir. Listenin uzunluğu 200'den az olmalıdır.

alert_config
Gerekli

DataDriftDetector uyarıları için isteğe bağlı yapılandırma nesnesi.

drift_threshold
Gerekli

DataDriftDetector uyarılarını etkinleştirmek için isteğe bağlı eşik. Değer 0 ile 1 arasında olmalıdır. Yok belirtildiğinde (varsayılan) 0,2 değeri kullanılır.

latency
Gerekli
int

Verilerin veri kümesinde görünmesi için saat cinsinden gecikme.

Açıklamalar

DataDriftDetector nesnesi, üç iş çalıştırma türünü çalıştırmak için kullanılabilecek bir veri kayması iş tanımını temsil eder:

  • belirli bir günün verilerini analiz etmek için çalışan geçici; run yöntemine bakın.

  • bir işlem hattında zamanlanmış çalıştırma; enable_schedule yöntemine bakın.

  • verilerin zaman içinde nasıl değiştiğini görmek için bir geri doldurma çalıştırması; backfill yöntemine bakın.

DataDriftDetector oluşturmak için tipik desen:

DataDriftDetector oluşturucu, çalışma alanıyla ilişkili mevcut bir veri kayması nesnesini alır.

Yöntemler

backfill

Belirli bir başlangıç ve bitiş tarihinde bir geri doldurma işi çalıştırın.

Veri kaydırma yedekleme çalıştırmalarıyla ilgili ayrıntılar için bkz. https://aka.ms/datadrift.

NOT: Backfill yalnızca veri kümesi tabanlı DataDriftDetector nesnelerinde desteklenir.

create_from_datasets

Temel tablosal veri kümesinden ve hedef zaman serisi veri kümesinden yeni bir DataDriftDetector nesnesi oluşturun.

delete

DataDriftDetector nesnesinin zamanlamasını silin.

disable_schedule

DataDriftDetector nesnesi için zamanlamayı devre dışı bırakın.

enable_schedule

Veri kümesi tabanlı DataDriftDetector işini çalıştırmak için bir zamanlama oluşturun.

get_by_name

Belirli bir çalışma alanı ve ad için benzersiz bir DataDriftDetector nesnesi alın.

get_output

Belirli bir zaman penceresinde belirli bir DataDriftDetector için kayma sonuçlarının ve ölçümlerinin bir demetini alın.

list

Belirtilen çalışma alanı ve isteğe bağlı veri kümesi için DataDriftDetector nesnelerinin listesini alın.

NOT: Yalnızca workspace parametresi geçirilmesi, çalışma alanında tanımlanan tüm DataDriftDetector nesnelerini döndürür.

run

Tek bir zaman noktası veri kayma analizi çalıştırın.

show

Belirli bir zaman aralığında veri kayma eğilimini gösterin.

Varsayılan olarak, bu yöntem en son 10 döngüyü gösterir. Örneğin, sıklık gün ise en son 10 gün olacaktır. Sıklık hafta ise en son 10 hafta olacaktır.

update

DataDriftDetector nesnesiyle ilişkili zamanlamayı güncelleştirin.

İsteğe bağlı parametre değerleri Noneolarak ayarlanabilir, aksi takdirde varsayılan olarak mevcut değerlerine ayarlanır.

backfill

Belirli bir başlangıç ve bitiş tarihinde bir geri doldurma işi çalıştırın.

Veri kaydırma yedekleme çalıştırmalarıyla ilgili ayrıntılar için bkz. https://aka.ms/datadrift.

NOT: Backfill yalnızca veri kümesi tabanlı DataDriftDetector nesnelerinde desteklenir.

backfill(start_date, end_date, compute_target=None, create_compute_target=False)

Parametreler

Name Description
start_date
Gerekli

Geri doldurma işinin başlangıç tarihi.

end_date
Gerekli

Geri doldurma işinin bitiş tarihi (dahil).

compute_target

İsteğe bağlı Azure Machine Learning ComputeTarget veya ComputeTarget adı. DataDriftDetector belirtilmezse bir işlem hedefi oluşturur.

Default value: None
create_compute_target

Azure Machine Learning işlem hedefinin otomatik olarak oluşturulup oluşturulmadığını gösterir.

Default value: False

Döndürülenler

Tür Description
Run

DataDriftDetector çalıştırması.

create_from_datasets

Temel tablosal veri kümesinden ve hedef zaman serisi veri kümesinden yeni bir DataDriftDetector nesnesi oluşturun.

static create_from_datasets(workspace, name, baseline_dataset, target_dataset, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)

Parametreler

Name Description
workspace
Gerekli

DataDriftDetector'ın oluşturulacağı çalışma alanı.

name
Gerekli
str

DataDriftDetector nesnesi için benzersiz bir ad.

baseline_dataset
Gerekli

Hedef veri kümesini karşılaştıracak veri kümesi.

target_dataset
Gerekli

geçici veya zamanlanmış DataDrift işlerinin çalıştırıldığı veri kümesi. Zaman serisi olmalı.

compute_target

İsteğe bağlı Azure Machine Learning ComputeTarget veya ComputeTarget adı. DataDriftDetector belirtilmezse bir işlem hedefi oluşturur.

Default value: None
frequency
str

İşlem hattının ne sıklıkta çalıştırıldığını gösteren isteğe bağlı sıklık. "Gün", "Hafta" veya "Ay" desteği sunar.

Default value: None
feature_list

Datadrift algılamasını çalıştırmak için isteğe bağlı beyaz listeye alınmış özellikler. DataDriftDetector işleri, feature_list belirtilmezse tüm özelliklerde çalışır. Özellik listesi karakterler, sayılar, kısa çizgiler ve boşluklar içerebilir. Listenin uzunluğu 200'den az olmalıdır.

Default value: None
alert_config

DataDriftDetector uyarıları için isteğe bağlı yapılandırma nesnesi.

Default value: None
drift_threshold

DataDriftDetector uyarılarını etkinleştirmek için isteğe bağlı eşik. Değer 0 ile 1 arasında olmalıdır. Yok belirtildiğinde (varsayılan) 0,2 değeri kullanılır.

Default value: None
latency
int

Verilerin veri kümesinde görünmesi için saat cinsinden gecikme.

Default value: None

Döndürülenler

Tür Description

DataDriftDetector nesnesi.

Özel durumlar

Tür Description
<xref:KeyError>, <xref:TypeError>, <xref:ValueError>

Açıklamalar

Veri kümesi tabanlı DataDriftDetectors, TabularDatasetolması gereken temel veri kümesi ile zaman serisi veri kümesi olması gereken hedef veri kümesi arasındaki veri kaymasını hesaplamanızı sağlar. Zaman serisi veri kümesi, fine_grain_timestamp özelliğine sahip bir TabularDataset. DataDriftDetector daha sonra hedef veri kümesinin temel veri kümesinden kayıp kaymadığını belirlemek için geçici veya zamanlanmış işleri çalıştırabilir.


   from azureml.core import Workspace, Dataset
   from azureml.datadrift import DataDriftDetector

   ws = Workspace.from_config()
   baseline = Dataset.get_by_name(ws, 'my_baseline_dataset')
   target = Dataset.get_by_name(ws, 'my_target_dataset')

   detector = DataDriftDetector.create_from_datasets(workspace=ws,
                                                     name="my_unique_detector_name",
                                                     baseline_dataset=baseline,
                                                     target_dataset=target,
                                                     compute_target_name='my_compute_target',
                                                     frequency="Day",
                                                     feature_list=['my_feature_1', 'my_feature_2'],
                                                     alert_config=AlertConfiguration(email_addresses=['user@contoso.com']),
                                                     drift_threshold=0.3,
                                                     latency=1)

delete

DataDriftDetector nesnesinin zamanlamasını silin.

delete(wait_for_completion=True)

Parametreler

Name Description
wait_for_completion

Silme işleminin tamamlanmasının beklenip beklenmeyeceği.

Default value: True

disable_schedule

DataDriftDetector nesnesi için zamanlamayı devre dışı bırakın.

disable_schedule(wait_for_completion=True)

Parametreler

Name Description
wait_for_completion

Devre dışı bırakma işleminin tamamlanmasının beklenip beklenmeyeceği.

Default value: True

enable_schedule

Veri kümesi tabanlı DataDriftDetector işini çalıştırmak için bir zamanlama oluşturun.

enable_schedule(create_compute_target=False, wait_for_completion=True)

Parametreler

Name Description
create_compute_target

Azure Machine Learning işlem hedefinin otomatik olarak oluşturulup oluşturulmadığını gösterir.

Default value: False
wait_for_completion

Etkinleştirme işleminin tamamlanmasının beklenip beklenmeyeceği.

Default value: True

get_by_name

Belirli bir çalışma alanı ve ad için benzersiz bir DataDriftDetector nesnesi alın.

static get_by_name(workspace, name)

Parametreler

Name Description
workspace
Gerekli

DataDriftDetector'ın oluşturulduğu çalışma alanı.

name
Gerekli
str

Döndürülecek DataDriftDetector nesnesinin adı.

Döndürülenler

Tür Description

DataDriftDetector nesnesi.

get_output

Belirli bir zaman penceresinde belirli bir DataDriftDetector için kayma sonuçlarının ve ölçümlerinin bir demetini alın.

get_output(start_time=None, end_time=None, run_id=None)

Parametreler

Name Description
start_time
datetime, <xref:optional>

Sonuç penceresinin UTC olarak başlangıç saati. Hiçbiri (varsayılan) belirtilirse başlangıç saati olarak en son 10. döngünün sonuçları kullanılır. Örneğin, veri kaydırma zamanlamasının sıklığı gün ise start_time 10 gündür. Sıklık hafta ise, start_time 10 haftadır.

Default value: None
end_time
datetime, <xref:optional>

Sonuç penceresinin UTC olarak bitiş saati. Hiçbiri (varsayılan) belirtilirse, bitiş saati olarak geçerli gün UTC kullanılır.

Default value: None
run_id
int, <xref:optional>

Belirli bir çalıştırma kimliği.

Default value: None

Döndürülenler

Tür Description

Kayma sonuçlarının listesinin ve tek tek veri kümesinin ve sütunlu ölçümlerin listesi.

Açıklamalar

Bu yöntem, çalıştırma türüne göre bir zaman penceresi veya çalıştırma kimliği için kayma sonuçlarının ve ölçümlerinin bir demetini döndürür: geçici çalıştırması, zamanlanmış çalıştırma ve bir geri doldurma çalıştırması.

  • geçici çalıştırma sonuçlarını almak için tek bir yol vardır: run_id geçerli bir GUID olmalıdır.

  • Zamanlanmış çalıştırmaları ve geri doldurma çalıştırma sonuçlarını almak için iki farklı yol vardır: run_id için geçerli bir GUID atayın veya start_time Yok olarak tutarken belirli bir end_time ve/veya run_id (dahil) atayın.

  • run_id, start_timeve end_time aynı yöntem çağrısında Hiçbiri değilse, parametre doğrulama özel durumu oluşturulur.

NOT:start_time ve end_time parametrelerini veya run_id parametresini belirtin, ancak ikisini birden belirtmeyin.

Aynı hedef tarih için birden çok sonuç olabilir (hedef tarih, veri kümesi tabanlı kayma için hedef veri kümesi başlangıç tarihi anlamına gelir). Bu nedenle, yinelenen sonuçları tanımlamak ve işlemek gerekir. Veri kümesi tabanlı kayma için sonuçlar aynı hedef tarihe yönelikse yinelenen sonuçlardır. get_output yöntemi, yinelenen sonuçları tek bir kuralla yinelenenleri kaldıracaktır: her zaman en son oluşturulan sonuçları alır.

get_output yöntemi, start_time ile end_time (sınır dahil) arasında belirli bir zaman aralığında zamanlanmış çalıştırmaların tüm çıkışlarını veya kısmi çıkışlarını almak için kullanılabilir. Ayrıca belirterek tek bir run_id sonuçlarını sınırlayabilirsiniz.

get_output yönteminden döndürülen sonuçları yorumlamaya yardımcı olması için aşağıdaki yönergeleri kullanın:

  • Filtreleme ilkesi "çakışıyor": Gerçek sonuç zamanı (veri kümesi tabanlı: hedef veri kümesi [başlangıç tarihi, bitiş tarihi]) ile verilen [start_time, end_time] arasında çakışma olduğu sürece sonuç alınır.

  • Bir hedef tarih için birden çok çıkış varsa çünkü kayma hesaplaması o güne göre birkaç kez yürütülürse, varsayılan olarak yalnızca en son çıkış seçilir.

  • Veri kayması örneğinin birden çok türü olduğundan sonuç içeriği çeşitli olabilir.

Veri kümesi tabanlı sonuçlar için çıkış şöyle görünür:


   results : [{'drift_type': 'DatasetBased',
               'result':[{'has_drift': True, 'drift_threshold': 0.3,
                          'start_date': '2019-04-03', 'end_date': '2019-04-04',
                          'base_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
                          'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'}]}]
   metrics : [{'drift_type': 'DatasetBased',
               'metrics': [{'schema_version': '0.1',
                            'start_date': '2019-04-03', 'end_date': '2019-04-04',
                            'baseline_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
                            'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'
                            'dataset_metrics': [{'name': 'datadrift_coefficient', 'value': 0.53459}],
                            'column_metrics': [{'feature1': [{'name': 'datadrift_contribution',
                                                              'value': 288.0},
                                                             {'name': 'wasserstein_distance',
                                                              'value': 4.858040000000001},
                                                             {'name': 'energy_distance',
                                                              'value': 2.7204799576545313}]}]}]}]

list

Belirtilen çalışma alanı ve isteğe bağlı veri kümesi için DataDriftDetector nesnelerinin listesini alın.

NOT: Yalnızca workspace parametresi geçirilmesi, çalışma alanında tanımlanan tüm DataDriftDetector nesnelerini döndürür.

static list(workspace, baseline_dataset=None, target_dataset=None)

Parametreler

Name Description
workspace
Gerekli

DataDriftDetector nesnelerinin oluşturulduğu çalışma alanı.

baseline_dataset

Dönüş listesini filtrelemek için temel veri kümesi.

Default value: None
target_dataset

Dönüş listesini filtrelemek için hedef veri kümesi.

Default value: None

Döndürülenler

Tür Description

DataDriftDetector nesnelerinin listesi.

run

Tek bir zaman noktası veri kayma analizi çalıştırın.

run(target_date, compute_target=None, create_compute_target=False, feature_list=None, drift_threshold=None)

Parametreler

Name Description
target_date
Gerekli

UTC'de veri puanlamanın hedef tarihi.

compute_target

İsteğe bağlı Azure Machine Learning ComputeTarget veya ComputeTarget adı. Belirtilmezse, otomatik olarak bir işlem hedefi oluşturulur.

Default value: None
create_compute_target

Azure Machine Learning işlem hedefinin otomatik olarak oluşturulup oluşturulmadığını gösterir.

Default value: False
feature_list

Datadrift algılamasını çalıştırmak için isteğe bağlı beyaz listeye alınmış özellikler.

Default value: None
drift_threshold

DataDriftDetector uyarılarını etkinleştirmek için isteğe bağlı eşik.

Default value: None

Döndürülenler

Tür Description
Run

DataDriftDetector çalıştırması.

show

Belirli bir zaman aralığında veri kayma eğilimini gösterin.

Varsayılan olarak, bu yöntem en son 10 döngüyü gösterir. Örneğin, sıklık gün ise en son 10 gün olacaktır. Sıklık hafta ise en son 10 hafta olacaktır.

show(start_time=None, end_time=None)

Parametreler

Name Description
start_time
datetime, <xref:optional>

Utc olarak sunu zaman penceresinin başlangıcı. Varsayılan Hiçbiri, en son 10. döngünün sonuçlarını almak anlamına gelir.

Default value: None
end_time
datetime, <xref:optional>

Utc olarak sunu veri zamanı penceresinin sonu. Varsayılan Yok, geçerli gün anlamına gelir.

Default value: None

Döndürülenler

Tür Description
dict()

Tüm şekillerin sözlüğü. Anahtar service_name.

update

DataDriftDetector nesnesiyle ilişkili zamanlamayı güncelleştirin.

İsteğe bağlı parametre değerleri Noneolarak ayarlanabilir, aksi takdirde varsayılan olarak mevcut değerlerine ayarlanır.

update(compute_target=Ellipsis, feature_list=Ellipsis, schedule_start=Ellipsis, alert_config=Ellipsis, drift_threshold=Ellipsis, wait_for_completion=True)

Parametreler

Name Description
compute_target

İsteğe bağlı Azure Machine Learning ComputeTarget veya ComputeTarget adı. Bu parametre belirtilmezse DataDriftDetector bir işlem hedefi oluşturur.

Default value: Ellipsis
feature_list

Datadrift algılamasını çalıştırmak için izin verilenler listesine alınmış özellikler.

Default value: Ellipsis
schedule_start

UTC'de veri kayma zamanlamasının başlangıç saati.

Default value: Ellipsis
alert_config

DataDriftDetector uyarıları için isteğe bağlı yapılandırma nesnesi.

Default value: Ellipsis
drift_threshold

DataDriftDetector uyarılarını etkinleştirme eşiği.

Default value: Ellipsis
wait_for_completion

Etkinleştirme/devre dışı bırakma/silme işlemlerinin tamamlanmasının beklenip beklenmeyeceği.

Default value: True

Döndürülenler

Tür Description

kendi

Öznitelikler

alert_config

DataDriftDetector nesnesi için uyarı yapılandırmasını alın.

Döndürülenler

Tür Description

AlertConfiguration nesnesi.

baseline_dataset

DataDriftDetector nesnesiyle ilişkili temel veri kümesini alın.

Döndürülenler

Tür Description

Temel veri kümesinin veri kümesi türü.

compute_target

DataDriftDetector nesnesine eklenmiş işlem hedefini alın.

Döndürülenler

Tür Description

İşlem hedefi.

drift_threshold

DataDriftDetector nesnesi için kayma eşiğini alın.

Döndürülenler

Tür Description

Kayma eşiği.

drift_type

DataDriftDetector türünü alın, 'DatasetBased' şimdilik desteklenen tek değerdir.

Döndürülenler

Tür Description
str

DataDriftDetector nesnesinin türü.

enabled

DataDriftDetector nesnesinin etkinleştirilip etkinleştirilmediğini gösteren boole değerini alın.

Döndürülenler

Tür Description

Boole değeri; Etkin için True.

feature_list

DataDriftDetector nesnesi için beyaz listeye alınmış özelliklerin listesini alın.

Döndürülenler

Tür Description

Özellik adlarının listesi.

frequency

DataDriftDetector zamanlamasının sıklığını alın.

Döndürülenler

Tür Description
str

"Gün", "Hafta" veya "Ay" dizesi

interval

DataDriftDetector zamanlamasının aralığını alın.

Döndürülenler

Tür Description
int

Zaman biriminin tamsayı değeri.

latency

DataDriftDetector zamanlama işlerinin gecikme süresini (saat cinsinden) alın.

Döndürülenler

Tür Description
int

Gecikme süresini temsil eden saat sayısı.

name

DataDriftDetector nesnesinin adını alın.

Döndürülenler

Tür Description
str

DataDriftDetector adı.

schedule_start

Zamanlamanın başlangıç saatini alma.

Döndürülenler

Tür Description

UTC olarak zamanlama başlangıç saatinin datetime nesnesi.

state

DataDriftDetector zamanlamasının durumunu belirtir.

Döndürülenler

Tür Description
str

'Disabled', 'Enabled', 'Deleted', 'Disableing', 'Enableing', 'Delete', 'Failed', 'DisableFailed', 'EnableFailed', 'DeleteFailed' öğelerinden biri.

target_dataset

DataDriftDetector nesnesiyle ilişkili hedef veri kümesini alın.

Döndürülenler

Tür Description

Temel veri kümesinin veri kümesi türü.

workspace

DataDriftDetector nesnesinin çalışma alanını alın.

Döndürülenler

Tür Description

DataDriftDetector nesnesinin oluşturulduğu çalışma alanı.