DataDriftDetector Klasa

Odwołanie

Definiuje monitor dryfu danych, który może służyć do uruchamiania zadań dryfu danych w usłudze Azure Machine Learning.

Klasa DataDriftDetector umożliwia identyfikowanie dryfu między danym punktem odniesienia i docelowym zestawem danych. Obiekt DataDriftDetector jest tworzony w obszarze roboczym, określając bezpośrednio zestawy danych odniesienia i docelowe. Aby uzyskać więcej informacji, zobacz https://aka.ms/datadrift.

Konstruktor datadriftdetector.

Konstruktor DataDriftDetector służy do pobierania reprezentacji chmury obiektu DataDriftDetector skojarzonego z podanym obszarem roboczym.

Dziedziczenie: builtins.object

DataDriftDetector

Konstruktor

DataDriftDetector(workspace, name=None, baseline_dataset=None, target_dataset=None, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)

Parametry

workspace: Workspace

Wymagane

Obszar roboczy, w którym ma zostać utworzony obiekt DataDriftDetector.

name: str

wartość domyślna: None

Unikatowa nazwa obiektu DataDriftDetector.

baseline_dataset: TabularDataset

wartość domyślna: None

Zestaw danych do porównania docelowego zestawu danych.

target_dataset: TabularDataset

wartość domyślna: None

Zestaw danych do uruchamiania zadań adhoc lub zaplanowanych zadań DataDrift. Musi być szeregiem czasowym.

compute_target: ComputeTarget lub str

wartość domyślna: None

Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli nie zostanie określony.

frequency: str

wartość domyślna: None

Opcjonalna częstotliwość wskazująca częstotliwość uruchamiania potoku. Obsługuje "Dzień", "Tydzień" lub "Miesiąc".

feature_list: list[str]

wartość domyślna: None

Opcjonalne funkcje listy dozwolonych do uruchamiania wykrywania danychdrift włączone. Zadania DataDriftDetector będą uruchamiane we wszystkich funkcjach, jeśli feature_list nie zostaną określone. Lista funkcji może zawierać znaki, liczby, kreski i białe znaki. Długość listy musi być mniejsza niż 200.

alert_config: AlertConfiguration

wartość domyślna: None

Opcjonalny obiekt konfiguracji alertów dataDriftDetector.

drift_threshold: float

wartość domyślna: None

Opcjonalny próg umożliwiający włączenie alertów usługi DataDriftDetector. Wartość musi należeć do zakresu od 0 do 1. Wartość 0,2 jest używana, gdy określono wartość None (wartość domyślna).

latency: int

wartość domyślna: None

Opóźnienie w godzinach wyświetlania danych w zestawie danych.

workspace: Workspace

Wymagane

Obszar roboczy, w którym ma zostać utworzony obiekt DataDriftDetector.

name: str

Wymagane

Unikatowa nazwa obiektu DataDriftDetector.

baseline_dataset: TabularDataset

Wymagane

Zestaw danych do porównania docelowego zestawu danych.

target_dataset: TabularDataset

Wymagane

Zestaw danych do uruchamiania zadań adhoc lub zaplanowanych zadań DataDrift. Musi być szeregiem czasowym.

compute_target: ComputeTarget lub str

Wymagane

Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli nie zostanie określony.

frequency: str

Wymagane

Opcjonalna częstotliwość wskazująca częstotliwość uruchamiania potoku. Obsługuje "Dzień", "Tydzień" lub "Miesiąc".

feature_list: list[str]

Wymagane

alert_config: AlertConfiguration

Wymagane

Opcjonalny obiekt konfiguracji alertów dataDriftDetector.

drift_threshold: float

Wymagane

latency: int

Wymagane

Opóźnienie w godzinach wyświetlania danych w zestawie danych.

Uwagi

Obiekt DataDriftDetector reprezentuje definicję zadania dryfu danych, która może służyć do uruchamiania trzech typów uruchamiania zadań:

uruchomić adhoc do analizowania konkretnego dnia wartości danych; zobacz metodę run .
zaplanowane uruchomienie w potoku; zobacz metodę enable_schedule .
przebieg wypełniania, aby zobaczyć, jak zmieniają się dane w czasie; zobacz metodę backfill .

Typowy wzorzec tworzenia obiektu DataDriftDetector to:

Aby utworzyć obiekt DataDriftDetector oparty na zestawie danych, użyj polecenia create_from_datasets

W poniższym przykładzie pokazano, jak utworzyć obiekt DataDriftDetector oparty na zestawie danych.


   from azureml.datadrift import DataDriftDetector, AlertConfiguration

   alert_config = AlertConfiguration(['user@contoso.com']) # replace with your email to recieve alerts from the scheduled pipeline after enabling

   monitor = DataDriftDetector.create_from_datasets(ws, 'weather-monitor', baseline, target,
                                                         compute_target='cpu-cluster',         # compute target for scheduled pipeline and backfills
                                                         frequency='Week',                     # how often to analyze target data
                                                         feature_list=None,                    # list of features to detect drift on
                                                         drift_threshold=None,                 # threshold from 0 to 1 for email alerting
                                                         latency=0,                            # SLA in hours for target data to arrive in the dataset
                                                         alert_config=alert_config)            # email addresses to send alert

Pełna próbka jest dostępna z witryny https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datadrift-tutorial/datadrift-tutorial.ipynb

Konstruktor DataDriftDetector pobiera istniejący obiekt dryfu danych skojarzony z obszarem roboczym.

Metody

backfill	Uruchom zadanie wypełniania nad określoną datą rozpoczęcia i zakończenia. Aby uzyskać szczegółowe informacje na temat przebiegów uzupełniania dryfu danych, zobacz https://aka.ms/datadrift . UWAGA: Wypełnianie jest obsługiwane tylko w obiektach DataDriftDetector opartych na zestawie danych.
create_from_datasets	Utwórz nowy obiekt DataDriftDetector na podstawie tabelarycznego zestawu danych odniesienia i docelowego zestawu danych szeregów czasowych.
delete	Usuń harmonogram obiektu DataDriftDetector.
disable_schedule	Wyłącz harmonogram obiektu DataDriftDetector.
enable_schedule	Utwórz harmonogram uruchamiania zadania DataDriftDetector opartego na zestawie danych.
get_by_name	Pobierz unikatowy obiekt DataDriftDetector dla danego obszaru roboczego i nazwę.
get_output	Uzyskaj krotkę wyników dryfu i metryk dla określonego elementu DataDriftDetector w danym przedziale czasu.
list	Pobierz listę obiektów DataDriftDetector dla określonego obszaru roboczego i opcjonalnego zestawu danych. UWAGA: Przekazanie tylko parametru `workspace` spowoduje zwrócenie wszystkich obiektów DataDriftDetector zdefiniowanych w obszarze roboczym.
run	Uruchamianie pojedynczego punktu w analizie dryfu danych w czasie.
show	Pokaż trend dryfu danych w danym zakresie czasu. Domyślnie ta metoda pokazuje ostatnie 10 cykli. Jeśli na przykład częstotliwość to dzień, będzie to ostatnie 10 dni. Jeśli częstotliwość to tydzień, będzie to ostatnie 10 tygodni.
update	Zaktualizuj harmonogram skojarzony z obiektem DataDriftDetector. Opcjonalne wartości parametrów można ustawić na `None`, w przeciwnym razie domyślnie mają wartości istniejące.

backfill

Uruchom zadanie wypełniania nad określoną datą rozpoczęcia i zakończenia.

Aby uzyskać szczegółowe informacje na temat przebiegów uzupełniania dryfu danych, zobacz https://aka.ms/datadrift .

UWAGA: Wypełnianie jest obsługiwane tylko w obiektach DataDriftDetector opartych na zestawie danych.

backfill(start_date, end_date, compute_target=None, create_compute_target=False)

Parametry

start_date: datetime

Wymagane

Data rozpoczęcia zadania wypełniania.

end_date: datetime

Wymagane

Data zakończenia zadania wypełniania, włącznie.

compute_target: ComputeTarget lub str

wartość domyślna: None

Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli żaden z nich nie zostanie określony.

create_compute_target: bool

wartość domyślna: False

Wskazuje, czy docelowy obiekt obliczeniowy usługi Azure Machine Learning jest tworzony automatycznie.

Zwraca

Uruchom polecenie DataDriftDetector.

Typ zwracany

Run

create_from_datasets

Utwórz nowy obiekt DataDriftDetector na podstawie tabelarycznego zestawu danych odniesienia i docelowego zestawu danych szeregów czasowych.

static create_from_datasets(workspace, name, baseline_dataset, target_dataset, compute_target=None, frequency=None, feature_list=None, alert_config=None, drift_threshold=None, latency=None)

Parametry

workspace: Workspace

Wymagane

Obszar roboczy do utworzenia obiektu DataDriftDetector.

name: str

Wymagane

Unikatowa nazwa obiektu DataDriftDetector.

baseline_dataset: TabularDataset

Wymagane

Zestaw danych do porównania docelowego zestawu danych.

target_dataset: TabularDataset

Wymagane

Zestaw danych do uruchamiania zadań adhoc lub zaplanowanych zadań DataDrift. Musi być szeregiem czasowym.

compute_target: ComputeTarget lub str

wartość domyślna: None

Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli nie zostanie określony.

frequency: str

wartość domyślna: None

Opcjonalna częstotliwość wskazująca częstotliwość uruchamiania potoku. Obsługuje "Dzień", "Tydzień" lub "Miesiąc".

feature_list: list[str]

wartość domyślna: None

alert_config: AlertConfiguration

wartość domyślna: None

Opcjonalny obiekt konfiguracji alertów dataDriftDetector.

drift_threshold: float

wartość domyślna: None

latency: int

wartość domyślna: None

Opóźnienie w godzinach wyświetlania danych w zestawie danych.

Zwraca

Obiekt DataDriftDetector.

Typ zwracany

DataDriftDetector

Wyjątki

<xref:KeyError>, <xref:TypeError>, <xref:ValueError>

Uwagi

Dane oparte na zestawie danychDriftDetectors umożliwiają obliczanie dryfu danych między zestawem danych odniesienia, który musi być TabularDatasetzestawem danych , a docelowym zestawem danych, który musi być zestawem danych szeregów czasowych. Zestaw danych szeregów czasowych jest po prostu TabularDataset właściwością fine_grain_timestamp. Narzędzie DataDriftDetector może następnie uruchamiać zadania adhoc lub zaplanowane w celu określenia, czy docelowy zestaw danych dryfował z zestawu danych odniesienia.


   from azureml.core import Workspace, Dataset
   from azureml.datadrift import DataDriftDetector

   ws = Workspace.from_config()
   baseline = Dataset.get_by_name(ws, 'my_baseline_dataset')
   target = Dataset.get_by_name(ws, 'my_target_dataset')

   detector = DataDriftDetector.create_from_datasets(workspace=ws,
                                                     name="my_unique_detector_name",
                                                     baseline_dataset=baseline,
                                                     target_dataset=target,
                                                     compute_target_name='my_compute_target',
                                                     frequency="Day",
                                                     feature_list=['my_feature_1', 'my_feature_2'],
                                                     alert_config=AlertConfiguration(email_addresses=['user@contoso.com']),
                                                     drift_threshold=0.3,
                                                     latency=1)

delete

Usuń harmonogram obiektu DataDriftDetector.

delete(wait_for_completion=True)

Parametry

wait_for_completion: bool

wartość domyślna: True

Czy poczekać na zakończenie operacji usuwania.

disable_schedule

Wyłącz harmonogram obiektu DataDriftDetector.

disable_schedule(wait_for_completion=True)

Parametry

wait_for_completion: bool

wartość domyślna: True

Czy poczekać na zakończenie operacji wyłączenia.

enable_schedule

Utwórz harmonogram uruchamiania zadania DataDriftDetector opartego na zestawie danych.

enable_schedule(create_compute_target=False, wait_for_completion=True)

Parametry

create_compute_target: bool

wartość domyślna: False

Wskazuje, czy docelowy obiekt obliczeniowy usługi Azure Machine Learning jest tworzony automatycznie.

wait_for_completion: bool

wartość domyślna: True

Czy poczekać na zakończenie operacji włączania.

get_by_name

Pobierz unikatowy obiekt DataDriftDetector dla danego obszaru roboczego i nazwę.

static get_by_name(workspace, name)

Parametry

workspace: Workspace

Wymagane

Obszar roboczy, w którym utworzono narzędzie DataDriftDetector.

name: str

Wymagane

Nazwa obiektu DataDriftDetector do zwrócenia.

Zwraca

Obiekt DataDriftDetector.

Typ zwracany

DataDriftDetector

get_output

Uzyskaj krotkę wyników dryfu i metryk dla określonego elementu DataDriftDetector w danym przedziale czasu.

get_output(start_time=None, end_time=None, run_id=None)

Parametry

start_time: datetime, <xref:optional>

wartość domyślna: None

Godzina rozpoczęcia okna wyników w formacie UTC. Jeśli określono wartość None (wartość domyślna), wyniki ostatniego 10 cyklu są używane jako godzina rozpoczęcia. Jeśli na przykład częstotliwość harmonogramu dryfu danych wynosi dzień, start_time wynosi 10 dni. Jeśli częstotliwość to tydzień, to start_time 10 tygodni.

end_time: datetime, <xref:optional>

wartość domyślna: None

Godzina zakończenia okna wyników w formacie UTC. Jeśli określono wartość None (wartość domyślna), bieżący dzień UTC jest używany jako godzina zakończenia.

run_id: int, <xref:optional>

wartość domyślna: None

Określony identyfikator przebiegu.

Zwraca

Krotka listy wyników dryfu oraz lista poszczególnych zestawów danych i metryk kolumnowych.

Typ zwracany

tuple(list, list)

Uwagi

Ta metoda zwraca krotkę wyników dryfu i metryk dla przedziału czasu lub identyfikatora przebiegu na podstawie typu przebiegu: przebiegu adhoc , zaplanowanego przebiegu i przebiegu wypełniania.

Aby pobrać wyniki przebiegu adhoc , istnieje tylko jeden sposób: run_id powinien być prawidłowym identyfikatorem GUID.
Aby pobrać zaplanowane przebiegi i wyniki przebiegu wypełniania, istnieją dwa różne sposoby: przypisanie prawidłowego identyfikatora GUID do run_id lub przypisanie określonego start_time i/lub end_time (włącznie) przy zachowaniu run_id wartości Brak.
Jeśli run_idparametr , start_timei end_time nie ma wartości None w tym samym wywołaniu metody, zostanie zgłoszony wyjątek sprawdzania poprawności parametru.

UWAGA:start_time Określ parametry i end_time lub run_id parametr, ale nie oba.

Istnieje możliwość, że istnieje wiele wyników dla tej samej daty docelowej (data docelowa oznacza docelową datę rozpoczęcia zestawu danych dla dryfu opartego na zestawie danych). W związku z tym należy zidentyfikować i obsłużyć zduplikowane wyniki. W przypadku dryfu opartego na zestawie danych, jeśli wyniki są dla tej samej daty docelowej, są one zduplikowane wyniki. Metoda get_output spowoduje deduplikację wszystkich zduplikowanych wyników przez jedną regułę: zawsze pobiera najnowsze wygenerowane wyniki.

Metoda get_output może służyć do pobierania wszystkich danych wyjściowych lub częściowych danych wyjściowych zaplanowanych przebiegów w określonym zakresie czasu między start_time i end_time (uwzględniona granica). Można również ograniczyć wyniki poszczególnych elementów adhoc , określając run_idwartość .

Skorzystaj z poniższych wskazówek, aby ułatwić interpretację wyników zwracanych z get_output metody :

Zasada filtrowania to "nakładające się": o ile istnieje nakładanie się między rzeczywistym czasem wyników (opartym na zestawie danych: docelowym zestawem danych [data rozpoczęcia, data zakończenia]) i podanym [start_time, end_time], wynik zostanie odebrany.
Jeśli istnieje wiele danych wyjściowych dla jednej daty docelowej, ponieważ obliczenie dryfu zostało wykonane kilka razy w tym dniu, domyślnie zostaną wybrane tylko najnowsze dane wyjściowe.
Biorąc pod uwagę, że istnieje wiele typów wystąpienia dryfu danych, zawartość wyniku może być różna.

W przypadku wyników opartych na zestawie danych dane wyjściowe będą wyglądać następująco:


   results : [{'drift_type': 'DatasetBased',
               'result':[{'has_drift': True, 'drift_threshold': 0.3,
                          'start_date': '2019-04-03', 'end_date': '2019-04-04',
                          'base_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
                          'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'}]}]
   metrics : [{'drift_type': 'DatasetBased',
               'metrics': [{'schema_version': '0.1',
                            'start_date': '2019-04-03', 'end_date': '2019-04-04',
                            'baseline_dataset_id': '4ac144ef-c86d-4c81-b7e5-ea6bbcd2dc7d',
                            'target_dataset_id': '13445141-aaaa-bbbb-cccc-ea23542bcaf9'
                            'dataset_metrics': [{'name': 'datadrift_coefficient', 'value': 0.53459}],
                            'column_metrics': [{'feature1': [{'name': 'datadrift_contribution',
                                                              'value': 288.0},
                                                             {'name': 'wasserstein_distance',
                                                              'value': 4.858040000000001},
                                                             {'name': 'energy_distance',
                                                              'value': 2.7204799576545313}]}]}]}]

list

Pobierz listę obiektów DataDriftDetector dla określonego obszaru roboczego i opcjonalnego zestawu danych.

UWAGA: Przekazanie tylko parametru workspace spowoduje zwrócenie wszystkich obiektów DataDriftDetector zdefiniowanych w obszarze roboczym.

static list(workspace, baseline_dataset=None, target_dataset=None)

Parametry

workspace: Workspace

Wymagane

Obszar roboczy, w którym utworzono obiekty DataDriftDetector.

baseline_dataset: TabularDataset

wartość domyślna: None

Zestaw danych odniesienia do filtrowania listy zwracanej.

target_dataset: TabularDataset

wartość domyślna: None

Docelowy zestaw danych w celu filtrowania listy zwracanej.

Zwraca

Lista obiektów DataDriftDetector.

Typ zwracany

list[DataDriftDetector]

run

Uruchamianie pojedynczego punktu w analizie dryfu danych w czasie.

run(target_date, compute_target=None, create_compute_target=False, feature_list=None, drift_threshold=None)

Parametry

target_date: datetime

Wymagane

Docelowa data oceniania danych w formacie UTC.

compute_target: ComputeTarget lub str

wartość domyślna: None

Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. Jeśli nie zostanie określony, docelowy obiekt obliczeniowy zostanie utworzony automatycznie.

create_compute_target: bool

wartość domyślna: False

Wskazuje, czy docelowy obiekt obliczeniowy usługi Azure Machine Learning jest tworzony automatycznie.

feature_list: list[str]

wartość domyślna: None

Opcjonalne funkcje listy dozwolonych do uruchamiania wykrywania danychdrift włączone.

drift_threshold: float

wartość domyślna: None

Opcjonalny próg umożliwiający włączenie alertów usługi DataDriftDetector.

Zwraca

Uruchom polecenie DataDriftDetector.

Typ zwracany

Run

show

Pokaż trend dryfu danych w danym zakresie czasu.

Domyślnie ta metoda pokazuje ostatnie 10 cykli. Jeśli na przykład częstotliwość to dzień, będzie to ostatnie 10 dni. Jeśli częstotliwość to tydzień, będzie to ostatnie 10 tygodni.

show(start_time=None, end_time=None)

Parametry

start_time: datetime, <xref:optional>

wartość domyślna: None

Początek okna czasu prezentacji w formacie UTC. Wartość domyślna Brak oznacza, że wyniki ostatniego 10. cyklu zostaną odebrane.

end_time: datetime, <xref:optional>

wartość domyślna: None

Koniec okna czasu prezentacji w formacie UTC. Wartość domyślna Brak oznacza bieżący dzień.

Zwraca

Słownik wszystkich rysunków. Klucz jest service_name.

Typ zwracany

dict()

update

Zaktualizuj harmonogram skojarzony z obiektem DataDriftDetector.

Opcjonalne wartości parametrów można ustawić na None, w przeciwnym razie domyślnie mają wartości istniejące.

update(compute_target=Ellipsis, feature_list=Ellipsis, schedule_start=Ellipsis, alert_config=Ellipsis, drift_threshold=Ellipsis, wait_for_completion=True)

Parametry

compute_target: ComputeTarget lub str

wartość domyślna: Ellipsis

Opcjonalna nazwa usługi ComputeTarget lub ComputeTarget w usłudze Azure Machine Learning. DataDriftDetector utworzy docelowy obiekt obliczeniowy, jeśli ten parametr nie zostanie określony.

feature_list: list[str]

wartość domyślna: Ellipsis

Funkcje listy dozwolonych do uruchamiania wykrywania danychdrift włączone.

schedule_start: datetime

wartość domyślna: Ellipsis

Godzina rozpoczęcia harmonogramu dryfu danych w formacie UTC.

alert_config: AlertConfiguration

wartość domyślna: Ellipsis

Opcjonalny obiekt konfiguracji alertów dataDriftDetector.

drift_threshold: float

wartość domyślna: Ellipsis

Próg włączania alertów dataDriftDetector.

wait_for_completion: bool

wartość domyślna: True

Czy poczekać na zakończenie operacji włączania/wyłączania/usuwania.

Zwraca

Własny

Typ zwracany

DataDriftDetector

Workspace

Udostępnij za pośrednictwem

DataDriftDetector Klasa

Konstruktor

Parametry

Uwagi

Metody

backfill

Parametry

Zwraca

Typ zwracany

create_from_datasets

Parametry

Zwraca

Typ zwracany

Wyjątki

Uwagi

delete

Parametry

disable_schedule

Parametry

enable_schedule

Parametry

get_by_name

Parametry

Zwraca

Typ zwracany

get_output

Parametry

Zwraca

Typ zwracany

Uwagi

list

Parametry

Zwraca

Typ zwracany

run

Parametry

Zwraca

Typ zwracany

show

Parametry

Zwraca

Typ zwracany

update

Parametry

Zwraca

Typ zwracany

Atrybuty

alert_config

Zwraca

Typ zwracany

baseline_dataset

Zwraca

Typ zwracany

compute_target

Zwraca

Typ zwracany

drift_threshold

Zwraca

Typ zwracany

drift_type

Zwraca

Typ zwracany

enabled

Zwraca

Typ zwracany

feature_list

Zwraca

Typ zwracany

frequency

Zwraca

Typ zwracany

interval

Zwraca

Typ zwracany

latency

Zwraca

Typ zwracany

name

Zwraca