DataDriftDetector Klasa
Definiuje monitor dryfu danych, który może służyć do uruchamiania zadań dryfu danych w usłudze Azure Machine Learning.
Klasa DataDriftDetector umożliwia identyfikowanie dryfu między danym punktem odniesienia i docelowym zestawem danych. Obiekt DataDriftDetector jest tworzony w obszarze roboczym, określając bezpośrednio zestawy danych odniesienia i docelowe. Aby uzyskać więcej informacji, zobacz https://aka.ms/datadrift.
Konstruktor datadriftdetector.
Konstruktor DataDriftDetector służy do pobierania reprezentacji chmury obiektu DataDriftDetector skojarzonego z podanym obszarem roboczym.
- Dziedziczenie
-
builtins.objectDataDriftDetector
Konstruktor
DataDriftDetector(workspace, name=None, baseline_dataset=None, target_dataset=None, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)
Parametry
- baseline_dataset
- TabularDataset
Zestaw danych do porównania docelowego zestawu danych.
- target_dataset
- TabularDataset
Zestaw danych do uruchamiania zadań adhoc lub zaplanowanych zadań DataDrift. Musi być szeregiem czasowym.
- compute_target
- ComputeTarget lub str
Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli nie zostanie określony.
- frequency
- str
Opcjonalna częstotliwość wskazująca częstotliwość uruchamiania potoku. Obsługuje "Dzień", "Tydzień" lub "Miesiąc".
Opcjonalne funkcje listy dozwolonych do uruchamiania wykrywania danychdrift włączone. Zadania DataDriftDetector będą uruchamiane we wszystkich funkcjach, jeśli feature_list
nie zostaną określone. Lista funkcji może zawierać znaki, liczby, kreski i białe znaki. Długość listy musi być mniejsza niż 200.
- alert_config
- AlertConfiguration
Opcjonalny obiekt konfiguracji alertów dataDriftDetector.
- drift_threshold
- float
Opcjonalny próg umożliwiający włączenie alertów usługi DataDriftDetector. Wartość musi należeć do zakresu od 0 do 1. Wartość 0,2 jest używana, gdy określono wartość None (wartość domyślna).
- target_dataset
- TabularDataset
Zestaw danych do uruchamiania zadań adhoc lub zaplanowanych zadań DataDrift. Musi być szeregiem czasowym.
- compute_target
- ComputeTarget lub str
Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli nie zostanie określony.
- frequency
- str
Opcjonalna częstotliwość wskazująca częstotliwość uruchamiania potoku. Obsługuje "Dzień", "Tydzień" lub "Miesiąc".
Opcjonalne funkcje listy dozwolonych do uruchamiania wykrywania danychdrift włączone. Zadania DataDriftDetector będą uruchamiane we wszystkich funkcjach, jeśli feature_list
nie zostaną określone. Lista funkcji może zawierać znaki, liczby, kreski i białe znaki. Długość listy musi być mniejsza niż 200.
- drift_threshold
- float
Opcjonalny próg umożliwiający włączenie alertów usługi DataDriftDetector. Wartość musi należeć do zakresu od 0 do 1. Wartość 0,2 jest używana, gdy określono wartość None (wartość domyślna).
Uwagi
Obiekt DataDriftDetector reprezentuje definicję zadania dryfu danych, która może służyć do uruchamiania trzech typów uruchamiania zadań:
uruchomić adhoc do analizowania konkretnego dnia wartości danych; zobacz metodę run .
zaplanowane uruchomienie w potoku; zobacz metodę enable_schedule .
przebieg wypełniania, aby zobaczyć, jak zmieniają się dane w czasie; zobacz metodę backfill .
Typowy wzorzec tworzenia obiektu DataDriftDetector to:
- Aby utworzyć obiekt DataDriftDetector oparty na zestawie danych, użyj polecenia create_from_datasets
W poniższym przykładzie pokazano, jak utworzyć obiekt DataDriftDetector oparty na zestawie danych.
from azureml.datadrift import DataDriftDetector, AlertConfiguration
alert_config = AlertConfiguration(['user@contoso.com']) # replace with your email to recieve alerts from the scheduled pipeline after enabling
monitor = DataDriftDetector.create_from_datasets(ws, 'weather-monitor', baseline, target,
compute_target='cpu-cluster', # compute target for scheduled pipeline and backfills
frequency='Week', # how often to analyze target data
feature_list=None, # list of features to detect drift on
drift_threshold=None, # threshold from 0 to 1 for email alerting
latency=0, # SLA in hours for target data to arrive in the dataset
alert_config=alert_config) # email addresses to send alert
Pełna próbka jest dostępna z witryny https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datadrift-tutorial/datadrift-tutorial.ipynb
Konstruktor DataDriftDetector pobiera istniejący obiekt dryfu danych skojarzony z obszarem roboczym.
Metody
backfill |
Uruchom zadanie wypełniania nad określoną datą rozpoczęcia i zakończenia. Aby uzyskać szczegółowe informacje na temat przebiegów uzupełniania dryfu danych, zobacz https://aka.ms/datadrift . UWAGA: Wypełnianie jest obsługiwane tylko w obiektach DataDriftDetector opartych na zestawie danych. |
create_from_datasets |
Utwórz nowy obiekt DataDriftDetector na podstawie tabelarycznego zestawu danych odniesienia i docelowego zestawu danych szeregów czasowych. |
delete |
Usuń harmonogram obiektu DataDriftDetector. |
disable_schedule |
Wyłącz harmonogram obiektu DataDriftDetector. |
enable_schedule |
Utwórz harmonogram uruchamiania zadania DataDriftDetector opartego na zestawie danych. |
get_by_name |
Pobierz unikatowy obiekt DataDriftDetector dla danego obszaru roboczego i nazwę. |
get_output |
Uzyskaj krotkę wyników dryfu i metryk dla określonego elementu DataDriftDetector w danym przedziale czasu. |
list |
Pobierz listę obiektów DataDriftDetector dla określonego obszaru roboczego i opcjonalnego zestawu danych. UWAGA: Przekazanie tylko parametru |
run |
Uruchamianie pojedynczego punktu w analizie dryfu danych w czasie. |
show |
Pokaż trend dryfu danych w danym zakresie czasu. Domyślnie ta metoda pokazuje ostatnie 10 cykli. Jeśli na przykład częstotliwość to dzień, będzie to ostatnie 10 dni. Jeśli częstotliwość to tydzień, będzie to ostatnie 10 tygodni. |
update |
Zaktualizuj harmonogram skojarzony z obiektem DataDriftDetector. Opcjonalne wartości parametrów można ustawić na |
backfill
Uruchom zadanie wypełniania nad określoną datą rozpoczęcia i zakończenia.
Aby uzyskać szczegółowe informacje na temat przebiegów uzupełniania dryfu danych, zobacz https://aka.ms/datadrift .
UWAGA: Wypełnianie jest obsługiwane tylko w obiektach DataDriftDetector opartych na zestawie danych.
backfill(start_date, end_date, compute_target=None, create_compute_target=False)
Parametry
- compute_target
- ComputeTarget lub str
Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli żaden z nich nie zostanie określony.
- create_compute_target
- bool
Wskazuje, czy docelowy obiekt obliczeniowy usługi Azure Machine Learning jest tworzony automatycznie.
Zwraca
Uruchom polecenie DataDriftDetector.
Typ zwracany
create_from_datasets
Utwórz nowy obiekt DataDriftDetector na podstawie tabelarycznego zestawu danych odniesienia i docelowego zestawu danych szeregów czasowych.
static create_from_datasets(workspace, name, baseline_dataset, target_dataset, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)
Parametry
- target_dataset
- TabularDataset
Zestaw danych do uruchamiania zadań adhoc lub zaplanowanych zadań DataDrift. Musi być szeregiem czasowym.
- compute_target
- ComputeTarget lub str
Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli nie zostanie określony.
- frequency
- str
Opcjonalna częstotliwość wskazująca częstotliwość uruchamiania potoku. Obsługuje "Dzień", "Tydzień" lub "Miesiąc".
Opcjonalne funkcje listy dozwolonych do uruchamiania wykrywania danychdrift włączone. Zadania DataDriftDetector będą uruchamiane we wszystkich funkcjach, jeśli feature_list
nie zostaną określone. Lista funkcji może zawierać znaki, liczby, kreski i białe znaki. Długość listy musi być mniejsza niż 200.
- alert_config
- AlertConfiguration
Opcjonalny obiekt konfiguracji alertów dataDriftDetector.
- drift_threshold
- float
Opcjonalny próg umożliwiający włączenie alertów usługi DataDriftDetector. Wartość musi należeć do zakresu od 0 do 1. Wartość 0,2 jest używana, gdy określono wartość None (wartość domyślna).
Zwraca
Obiekt DataDriftDetector.
Typ zwracany
Wyjątki
Uwagi
Dane oparte na zestawie danychDriftDetectors umożliwiają obliczanie dryfu danych między zestawem danych odniesienia, który musi być TabularDatasetzestawem danych , a docelowym zestawem danych, który musi być zestawem danych szeregów czasowych. Zestaw danych szeregów czasowych jest po prostu TabularDataset właściwością fine_grain_timestamp. Narzędzie DataDriftDetector może następnie uruchamiać zadania adhoc lub zaplanowane w celu określenia, czy docelowy zestaw danych dryfował z zestawu danych odniesienia.
from azureml.core import Workspace, Dataset
from azureml.datadrift import DataDriftDetector
ws = Workspace.from_config()
baseline = Dataset.get_by_name(ws, 'my_baseline_dataset')
target = Dataset.get_by_name(ws, 'my_target_dataset')
detector = DataDriftDetector.create_from_datasets(workspace=ws,
name="my_unique_detector_name",
baseline_dataset=baseline,
target_dataset=target,
compute_target_name='my_compute_target',
frequency="Day",
feature_list=['my_feature_1', 'my_feature_2'],
alert_config=AlertConfiguration(email_addresses=['user@contoso.com']),
drift_threshold=0.3,
latency=1)
delete
Usuń harmonogram obiektu DataDriftDetector.
delete(wait_for_completion=True)
Parametry
disable_schedule
Wyłącz harmonogram obiektu DataDriftDetector.
disable_schedule(wait_for_completion=True)
Parametry
enable_schedule
Utwórz harmonogram uruchamiania zadania DataDriftDetector opartego na zestawie danych.
enable_schedule(create_compute_target=False, wait_for_completion=True)
Parametry
- create_compute_target
- bool
Wskazuje, czy docelowy obiekt obliczeniowy usługi Azure Machine Learning jest tworzony automatycznie.
get_by_name
Pobierz unikatowy obiekt DataDriftDetector dla danego obszaru roboczego i nazwę.
static get_by_name(workspace, name)
Parametry
Zwraca
Obiekt DataDriftDetector.
Typ zwracany
get_output
Uzyskaj krotkę wyników dryfu i metryk dla określonego elementu DataDriftDetector w danym przedziale czasu.
get_output(start_time=None, end_time=None, run_id=None)
Parametry
- start_time
- datetime, <xref:optional>
Godzina rozpoczęcia okna wyników w formacie UTC. Jeśli określono wartość None (wartość domyślna), wyniki ostatniego 10 cyklu są używane jako godzina rozpoczęcia. Jeśli na przykład częstotliwość harmonogramu dryfu danych wynosi dzień, start_time
wynosi 10 dni. Jeśli częstotliwość to tydzień, to start_time
10 tygodni.
- end_time
- datetime, <xref:optional>
Godzina zakończenia okna wyników w formacie UTC. Jeśli określono wartość None (wartość domyślna), bieżący dzień UTC jest używany jako godzina zakończenia.
Zwraca
Krotka listy wyników dryfu oraz lista poszczególnych zestawów danych i metryk kolumnowych.
Typ zwracany
Uwagi
Ta metoda zwraca krotkę wyników dryfu i metryk dla przedziału czasu lub identyfikatora przebiegu na podstawie typu przebiegu: przebiegu adhoc , zaplanowanego przebiegu i przebiegu wypełniania.
Aby pobrać wyniki przebiegu adhoc , istnieje tylko jeden sposób:
run_id
powinien być prawidłowym identyfikatorem GUID.Aby pobrać zaplanowane przebiegi i wyniki przebiegu wypełniania, istnieją dwa różne sposoby: przypisanie prawidłowego identyfikatora GUID do
run_id
lub przypisanie określonegostart_time
i/lubend_time
(włącznie) przy zachowaniurun_id
wartości Brak.Jeśli
run_id
parametr ,start_time
iend_time
nie ma wartości None w tym samym wywołaniu metody, zostanie zgłoszony wyjątek sprawdzania poprawności parametru.
UWAGA:start_time
Określ parametry i end_time
lub run_id
parametr, ale nie oba.
Istnieje możliwość, że istnieje wiele wyników dla tej samej daty docelowej (data docelowa oznacza docelową datę rozpoczęcia zestawu danych dla dryfu opartego na zestawie danych). W związku z tym należy zidentyfikować i obsłużyć zduplikowane wyniki.
W przypadku dryfu opartego na zestawie danych, jeśli wyniki są dla tej samej daty docelowej, są one zduplikowane wyniki.
Metoda get_output
spowoduje deduplikację wszystkich zduplikowanych wyników przez jedną regułę: zawsze pobiera najnowsze wygenerowane wyniki.
Metoda get_output
może służyć do pobierania wszystkich danych wyjściowych lub częściowych danych wyjściowych zaplanowanych przebiegów w określonym zakresie czasu między start_time
i end_time
(uwzględniona granica). Można również ograniczyć wyniki poszczególnych elementów adhoc , określając run_id
wartość .
Skorzystaj z poniższych wskazówek, aby ułatwić interpretację wyników zwracanych z get_output
metody :
Zasada filtrowania to "nakładające się": o ile istnieje nakładanie się między rzeczywistym czasem wyników (opartym na zestawie danych: docelowym zestawem danych [data rozpoczęcia, data zakończenia]) i podanym [
start_time
,end_time
], wynik zostanie odebrany.Jeśli istnieje wiele danych wyjściowych dla jednej daty docelowej, ponieważ obliczenie dryfu zostało wykonane kilka razy w tym dniu, domyślnie zostaną wybrane tylko najnowsze dane wyjściowe.
Biorąc pod uwagę, że istnieje wiele typów wystąpienia dryfu danych, zawartość wyniku może być różna.
W przypadku wyników opartych na zestawie danych dane wyjściowe będą wyglądać następująco:
results : [{'drift_type': 'DatasetBased',
'result':[{'has_drift': True, 'drift_threshold': 0.3,
'start_date': '2019-04-03', 'end_date': '2019-04-04',
'base_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'}]}]
metrics : [{'drift_type': 'DatasetBased',
'metrics': [{'schema_version': '0.1',
'start_date': '2019-04-03', 'end_date': '2019-04-04',
'baseline_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'
'dataset_metrics': [{'name': 'datadrift_coefficient', 'value': 0.53459}],
'column_metrics': [{'feature1': [{'name': 'datadrift_contribution',
'value': 288.0},
{'name': 'wasserstein_distance',
'value': 4.858040000000001},
{'name': 'energy_distance',
'value': 2.7204799576545313}]}]}]}]
list
Pobierz listę obiektów DataDriftDetector dla określonego obszaru roboczego i opcjonalnego zestawu danych.
UWAGA: Przekazanie tylko parametru workspace
spowoduje zwrócenie wszystkich obiektów DataDriftDetector zdefiniowanych w obszarze roboczym.
static list(workspace, baseline_dataset=None, target_dataset=None)
Parametry
- baseline_dataset
- TabularDataset
Zestaw danych odniesienia do filtrowania listy zwracanej.
- target_dataset
- TabularDataset
Docelowy zestaw danych w celu filtrowania listy zwracanej.
Zwraca
Lista obiektów DataDriftDetector.
Typ zwracany
run
Uruchamianie pojedynczego punktu w analizie dryfu danych w czasie.
run(target_date, compute_target=None, create_compute_target=False, feature_list=None, drift_threshold=None)
Parametry
- compute_target
- ComputeTarget lub str
Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. Jeśli nie zostanie określony, docelowy obiekt obliczeniowy zostanie utworzony automatycznie.
- create_compute_target
- bool
Wskazuje, czy docelowy obiekt obliczeniowy usługi Azure Machine Learning jest tworzony automatycznie.
Opcjonalne funkcje listy dozwolonych do uruchamiania wykrywania danychdrift włączone.
- drift_threshold
- float
Opcjonalny próg umożliwiający włączenie alertów usługi DataDriftDetector.
Zwraca
Uruchom polecenie DataDriftDetector.
Typ zwracany
show
Pokaż trend dryfu danych w danym zakresie czasu.
Domyślnie ta metoda pokazuje ostatnie 10 cykli. Jeśli na przykład częstotliwość to dzień, będzie to ostatnie 10 dni. Jeśli częstotliwość to tydzień, będzie to ostatnie 10 tygodni.
show(start_time=None, end_time=None)
Parametry
- start_time
- datetime, <xref:optional>
Początek okna czasu prezentacji w formacie UTC. Wartość domyślna Brak oznacza, że wyniki ostatniego 10. cyklu zostaną odebrane.
- end_time
- datetime, <xref:optional>
Koniec okna czasu prezentacji w formacie UTC. Wartość domyślna Brak oznacza bieżący dzień.
Zwraca
Słownik wszystkich rysunków. Klucz jest service_name.
Typ zwracany
update
Zaktualizuj harmonogram skojarzony z obiektem DataDriftDetector.
Opcjonalne wartości parametrów można ustawić na None
, w przeciwnym razie domyślnie mają wartości istniejące.
update(compute_target=Ellipsis, feature_list=Ellipsis, schedule_start=Ellipsis, alert_config=Ellipsis, drift_threshold=Ellipsis, wait_for_completion=True)
Parametry
- compute_target
- ComputeTarget lub str
Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli ten parametr nie zostanie określony.
Funkcje listy dozwolonych do uruchamiania wykrywania danychdrift włączone.
- schedule_start
- datetime
Godzina rozpoczęcia harmonogramu dryfu danych w formacie UTC.
- alert_config
- AlertConfiguration
Opcjonalny obiekt konfiguracji alertów dataDriftDetector.
- wait_for_completion
- bool
Czy poczekać na zakończenie operacji włączania/wyłączania/usuwania.
Zwraca
Własny
Typ zwracany
Atrybuty
alert_config
Pobierz konfigurację alertu dla obiektu DataDriftDetector.
Zwraca
Obiekt AlertConfiguration.
Typ zwracany
baseline_dataset
Pobierz zestaw danych odniesienia skojarzony z obiektem DataDriftDetector.
Zwraca
Typ zestawu danych punktu odniesienia.
Typ zwracany
compute_target
Pobierz obiekt docelowy obliczeniowy dołączony do obiektu DataDriftDetector.
Zwraca
Docelowy zasób obliczeniowy.
Typ zwracany
drift_threshold
drift_type
Pobierz typ elementu DataDriftDetector "DatasetBased" jest obecnie jedyną obsługiwaną wartością.
Zwraca
Typ obiektu DataDriftDetector.
Typ zwracany
enabled
Pobierz wartość logiczną wskazującą, czy obiekt DataDriftDetector jest włączony.
Zwraca
Wartość logiczna; True dla włączonego.
Typ zwracany
feature_list
Pobierz listę funkcji listy dozwolonych dla obiektu DataDriftDetector.
Zwraca
Lista nazw funkcji.
Typ zwracany
frequency
Pobierz częstotliwość harmonogramu DataDriftDetector.
Zwraca
Ciąg "Dzień", "Tydzień" lub "Miesiąc"
Typ zwracany
interval
Pobierz interwał harmonogramu DataDriftDetector.
Zwraca
Wartość całkowita jednostki czasu.
Typ zwracany
latency
Uzyskaj opóźnienie zadań harmonogramu DataDriftDetector (w godzinach).
Zwraca
Liczba godzin reprezentujących opóźnienie.
Typ zwracany
name
schedule_start
Pobierz godzinę rozpoczęcia harmonogramu.
Zwraca
Obiekt daty/godziny harmonogramu rozpoczęcia w formacie UTC.
Typ zwracany
state
Określa stan harmonogramu DataDriftDetector.
Zwraca
Jeden z elementów "Disabled", "Enabled", "Deleted", "Disableing", "Enableing", "Deleteing", "Failed", "DisableFailed", "EnableFailed", "DeleteFailed".
Typ zwracany
target_dataset
Pobierz docelowy zestaw danych skojarzony z obiektem DataDriftDetector.
Zwraca
Typ zestawu danych punktu odniesienia.
Typ zwracany
workspace
Pobierz obszar roboczy obiektu DataDriftDetector.
Zwraca
Obszar roboczy obiektu DataDriftDetector został utworzony.
Typ zwracany
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla