Udostępnij za pośrednictwem


Ocena ryzyka sztucznej inteligencji dla inżynierów uczenia maszynowego

Pomimo istotnych powodów zabezpieczania systemów uczenia maszynowego, badanie firmy Microsoft obejmujące 28 firm stwierdziło, że większość praktyków branżowych nie pogodziła się z niepożądanym uczeniem maszynowym (ML). Dwadzieścia pięć z 28 firm wskazało, że nie mają odpowiednich narzędzi, aby zabezpieczyć swoje systemy uczenia maszynowego. Co więcej, jawnie szukają wskazówek. Odkryliśmy, że brak przygotowań nie jest ograniczony do mniejszych organizacji — wahają się od firm z listy Fortune 500, rządów po organizacje non-profit. Klienci uznają potrzebę zabezpieczenia systemów sztucznej inteligencji, ale po prostu nie wiedzą, jak.

Ten dokument jest pierwszym krokiem dla organizacji w celu oceny stanu zabezpieczeń systemów sztucznej inteligencji. Zamiast dodawać kolejne ramy do naśladowania przez organizacje, staraliśmy się przedstawić treści w sposób, który można dopasować do istniejących tradycyjnych ram oceny ryzyka dla zabezpieczeń.

Ten dokument ma trzy cele:

  • Zapewnienie kompleksowej perspektywy zabezpieczeń systemu sztucznej inteligencji. Przyjrzeliśmy się każdemu elementowi cyklu życia systemu sztucznej inteligencji w ustawieniu produkcyjnym: od zbierania danych, przetwarzania danych po wdrożenie modelu. Uwzględniliśmy również łańcuch dostaw sztucznej inteligencji oraz mechanizmy kontroli i zasad w odniesieniu do tworzenia kopii zapasowych, odzyskiwania i planowania awaryjnego związanych z systemami sztucznej inteligencji.
  • Przedstaw zagrożenia dla krytycznych zasobów sztucznej inteligencji i jak je zabezpieczyć. Aby bezpośrednio pomóc inżynierom i specjalistom ds. zabezpieczeń, wyliczyliśmy opis zagrożenia na każdym etapie procesu tworzenia systemu sztucznej inteligencji. Następnie udostępniamy zestaw wytycznych, które nakładają i wzmacniają istniejące rozwiązania w kontekście systemów sztucznej inteligencji.
  • Umożliwienie organizacjom przeprowadzania ocen ryzyka zabezpieczeń sztucznej inteligencji. Platforma pomaga zebrać informacje o bieżącym stanie zabezpieczeń systemów sztucznej inteligencji w organizacji, przeprowadzić analizę luk i śledzić postęp stanu zabezpieczeń.

Sformułowaliśmy ją we współpracy z interesariuszami z całej firmy Microsoft, z przedstawicielami ds. zabezpieczeń platformy Azure, strategii odpowiedzialnej sztucznej inteligencji w inżynierii, Centrum Reagowania na Incydenty Bezpieczeństwa Microsoft, zabezpieczeń platformy Azure oraz sztucznej inteligencji, etyki i efektów w inżynierii i badaniach (Aether).

Wprowadzenie

Zalecamy użycie tego dokumentu, aby rozpocząć dyskusję na temat zabezpieczania systemów sztucznej inteligencji dostosowanych do podejmowanych działań związanych z bezpieczeństwem informacji i celów biznesowych. Dokument koncentruje się na systemach sztucznej inteligencji i włączeniu tradycyjnych mechanizmów kontroli, ponieważ systemy sztucznej inteligencji są oparte na tradycyjnej infrastrukturze IT.

Omówimy następujące obszary związane z systemami sztucznej inteligencji.

Mechanizmy kontroli administracyjnej Opis
zasady zabezpieczeń uczenia maszynowego Kontrole i polityki dotyczące udokumentowanych polityk, które regulują uczenie maszynowe, sztuczną inteligencję i bezpieczeństwo informacji.
Kontrole techniczne Opis
zbieranie danych Kontroluje i zasady związane z kolekcją, magazynem i klasyfikacją danych używanych do uczenia maszynowego i sztucznej inteligencji.
Przetwarzanie danych Mechanizmy kontroli i zasad odnoszących się do przetwarzania i inżynierii danych używanych do uczenia maszynowego i sztucznej inteligencji.
trenowanie modelu Kontrolki i zasady dotyczące projektowania, trenowania i walidacji modeli.
wdrażanie modelu Mechanizmy kontroli i zasady dotyczące wdrażania modeli i infrastruktury pomocniczej.
monitorowanie systemu Mechanizmy kontroli i zasady dotyczące ciągłego monitorowania systemów uczenia maszynowego.
zarządzanie incydentami Mechanizmy kontroli i zasady dotyczące sposobu obsługi zdarzeń związanych z systemem sztucznej inteligencji.
ciągłość działania i odzyskiwanie po awarii Mechanizmy kontroli i zasad odnoszących się do utraty własności intelektualnej za pośrednictwem kradzieży modelu, degradacji usługi lub innych luk w zabezpieczeniach specyficznych dla sztucznej inteligencji.

Zaadaptowaliśmy istniejącą strukturę mechanizmów kontroli i zasad z popularnego standardu ISO27001:2013 i odnieśliśmy ją do procesu tworzenia systemu sztucznej inteligencji — od fazy zbierania danych po reagowanie na zagrożenia dla systemów sztucznej inteligencji. Organizacje mogą mieć niektóre lub wszystkie istniejące mechanizmy kontroli wdrożone z ISO27001:2013 lub są już zgodne z kilkoma strukturami ryzyka (NIST 800-53, PCI-DSS, FedRamp itp.) w ramach istniejących wysiłków związanych z bezpieczeństwem informacji.

Brak odpowiedniego zabezpieczenia systemów sztucznej inteligencji zwiększa ryzyko nie tylko systemów sztucznej inteligencji rozwiązanych w tej ocenie, ale ogólniej dla całej technologii informatycznej i środowiska zgodności.

Celem tego dokumentu nie jest zastąpienie żadnego z tych istniejących wysiłków , ale opisem zabezpieczania systemów sztucznej inteligencji z punktu widzenia istniejących narzędzi i struktur oraz rozszerzania go na wszystkie części procesu tworzenia sztucznej inteligencji.

Wymienione tutaj wskazówki nie są normatywne, ponieważ wymagałoby to większej liczby kontekstów, takich jak platforma bazowa, podstawowy typ danych i wybór algorytmu. Jeśli jesteś klientem usługi Azure Machine Learning, zapoznaj się z artykułem Enterprise Security and governance.

Sugerowana ważność, prawdopodobieństwo, wpływ

Nie wszystkie mechanizmy kontroli mają kluczowe znaczenie dla bezpieczeństwa systemu sztucznej inteligencji. W związku z tym, aby właściwie określić priorytety pracy, każda kontrola powinna być oceniana przez organizację z oceną istotności, odpowiadającą wpływowi biznesowemu niezaimplementowania danej kontroli. Organizacja może zaakceptować ryzyko krytycznej kontroli, a zamiast tego wdrożyć kontrolę wyrównywującą, aby zmniejszyć ryzyko. Ostatecznie oceny te mają pomóc w prowadzeniu podejmowania decyzji opartych na ryzyku, a nie przepisywania działań.

Dotkliwość

Ciężkość naruszenia będzie zależeć od przypadku użycia modelu AI. Na szczęście jeśli używane dane lub systemy były krytyczne przed zintegrowaniem uczenia maszynowego, powinny pozostać takie same. Podobnie, jeśli używany model jest "gotowy do użycia" bez innych danych wejściowych, w zależności od kontekstu, w którym jest wykorzystywany, poważność naruszenia jest prawdopodobnie niższa. Techniki, takie jak prywatność różnicowa, mogą zmniejszyć potencjalny wpływ naruszenia zabezpieczeń. Jednak ten kontekst nie zmniejszy krytycznego poziomu systemu, danych ani modelu. Zalecamy ochronę modeli przy użyciu strategii ochrony w głębi systemu, a nie polegania na jednej implementacji defensywnej.

Sugerowany poziom ważności

sugerowane jako krytyczne

  • Jeśli model sztucznej inteligencji jest przeszkolony lub pozyska poufne dane osobowe, dane sklasyfikowane lub dane objęte wymaganiami dotyczącymi zgodności, takimi jak PCI, HIPAA, GLBA itp.
  • Jeśli model sztucznej inteligencji jest używany w aplikacji lub systemie o znaczeniu krytycznym dla działalności firmy, wówczas naruszenie zabezpieczeń mogłoby mieć duży negatywny wpływ na operacje biznesowe.
  • Jeśli model sztucznej inteligencji jest używany w aplikacjach, w których istnieje możliwość fizycznej szkody lub śmierci
  • Jeśli model sztucznej inteligencji jest używany w systemie obsługującym infrastrukturę krytyczną (na przykład wodę, energię, kondycję)

sugerowane jako wysokie

  • Jeśli model sztucznej inteligencji został wytrenowany lub pozyskał poufne dane osobowe, poufne informacje lub dane, które są w inny sposób uznawane za krytyczne przez organizację
  • W przypadku naruszenia bezpieczeństwa tego modelu sztucznej inteligencji miałoby duży, ale ograniczony wpływ na operacje biznesowe.
  • Jeśli model sztucznej inteligencji jest używany w aplikacjach lub systemach o znaczeniu krytycznym dla działania firmy

sugerowane jako średni

  • Jeśli model sztucznej inteligencji jest trenowany na podzbiorze danych treningowych zawierających poufne typy danych
  • Gdyby naruszenie tego modelu sztucznej inteligencji miało wpływ na modele wdrożone w środowisku produkcyjnym
  • Jeśli model AI jest używany w aplikacjach niekrytycznych, ale biznesowych
  • Jeśli model sztucznej inteligencji nie jest używany w środowisku produkcyjnym, ale zawiera informacje dotyczące modeli produkcyjnych

sugerowane jako niskie

  • Jeśli model sztucznej inteligencji jest trenowany na danych, które nie są używane w środowisku produkcyjnym
  • Jeśli model sztucznej inteligencji nie jest używany w środowisku produkcyjnym i nie zawiera informacji dotyczących modeli produkcyjnych

sugerowane jako informacyjne

  • Jeśli dane są niesklasyfikowane ze zweryfikowanego źródła
  • Jeśli model AI nie jest używany w środowisku produkcyjnym

Prawdopodobieństwo

Prawdopodobieństwo ma dwa główne składniki, dostępność modelu i dostępność technik. Aby zmniejszyć prawdopodobieństwo ataku, organizacja powinna zaimplementować mechanizmy kontroli, które:

  1. Usuń powierzchnię ataku lub utrudnij wyliczanie powierzchni ataku.
  2. Upewnij się, że rejestrowanie i alerty działają zgodnie z założeniami, aby zapewnić szybkie rozwiązywanie problemów.
  3. Upewnij się, że wszystkie systemy pomocnicze są aktualne z wymaganiami dotyczącymi zabezpieczeń.

Kontrole mogą obejmować odgradzanie punktów końcowych, segmentację sieci lub ograniczanie szybkości. Szczególną uwagę należy zwrócić na przepływy ruchu oraz diagramy sieci lub potoków, na przykład kompromitację przez atakującego zewnętrznego punktu końcowego i działanie wstecz poprzez potok.

Wpływ

Wpływ jest związany z oddziaływaniem na organizację. Sugerujemy, aby rozpocząć zapoznanie się z różnymi sposobami atakowania systemów uczenia maszynowego i rozważenie sposobów, w jaki modele produkcyjne mogą mieć wpływ na organizację. Więcej informacji znajdziesz w artykule Tryby błędów w uczeniu maszynowym. Po wykonaniu tego zaznajomienia się można je zamapować na macierz nasilenia.

Macierz surowości

Poniższa tabela to podstawowa macierz ważności ryzyka i luk w zabezpieczeniach umożliwiająca rozpoczęcie pracy organizacji. Sugerujemy wypełnienie podobnej kategoryzacji przez zebranie architektów zabezpieczeń, inżynierów uczenia maszynowego i członków zespołu testującego bezpieczeństwo AI.

Typ ataku Prawdopodobieństwo Wpływ Możliwość wykorzystania
wyodrębnianie Wysoki Niski Wysoki
uchylanie się od płacenia Wysoki Średni Wysoki
wnioskowania Średni Średni Średni
inwersji Średni Wysoki Średni
Zatrucie Niski Wysoki Niski

"Projektowanie i opracowywanie bezpiecznej sztucznej inteligencji jest podstawą opracowywania produktów sztucznej inteligencji w firmie BCG. Ponieważ społeczna potrzeba zabezpieczenia naszych systemów sztucznej inteligencji staje się coraz bardziej widoczna, zasoby takie jak struktura zarządzania ryzykiem bezpieczeństwa sztucznej inteligencji firmy Microsoft mogą być podstawowymi wkładami. Wdrożyliśmy już najlepsze rozwiązania w tej strukturze w systemach sztucznej inteligencji, które opracowujemy dla naszych klientów i cieszymy się, że firma Microsoft opracowała i opracowała tę platformę jako open source z korzyścią dla całej branży". — Jack Molloy, starszy inżynier ds. zabezpieczeń, Boston Consulting Group

Podstawowe użycie

Pozostała część dokumentu jest zgodna z tą strukturą:

  • kontrola ryzyka zawiera opis obszaru, który obejmuje kontrola.
  • Cel kontroli i to, co ma osiągnąć.
  • oświadczenie o zagrożeniu, które zawiera opis ograniczenia ryzyka.
  • Wytyczne do wdrażania kontroli. Rozumiemy, że nie wszystkie wskazówki można wdrożyć z uzasadnionych powodów biznesowych. Sugerujemy dokumentowanie wskazówek, których nie można zaimplementować.

Poniższa tabela to kontrola pobrana z oceny ryzyka systemów sztucznej inteligencji. Uwagi są dodawane w celu opisania każdej części struktury kategorii ryzyka.

Przykładowa kontrolka

Jak go przeczytać

1. Zbieranie danych

Kategoria podstawowa

Kontroluje i zasady dotyczące zbierania i przechowywania danych ze wszystkich źródeł używanych do uczenia maszynowego i sztucznej inteligencji.

Opisuje, co kontrolki w tej kategorii obejmują na najwyższym poziomie.

2. Źródła danych

kategoria kontroli

Cel: W celu zapewnienia integralności zebranych danych używanych do szkolonych modeli.

Należy opisać ryzyko, które jest ograniczane za pomocą mechanizmów kontroli.

oświadczenie o zagrożeniach: dane są zbierane z niezaufanych źródeł, które mogą zawierać poufne dane osobowe, inne niepożądane dane, które mogą mieć wpływ na bezpieczeństwo modelu lub stanowią zagrożenie dla zgodności z organizacją.

Oświadczenie opisujące skutek braku wdrożenia kontroli.

Control: Dane powinny być zbierane z zaufanych źródeł. Lista zaufanych źródeł powinna być przechowywana i aktualizowana. Zatwierdzenia dotyczące zbierania niezaufanych danych powinny być brane pod uwagę na podstawie przypadków.

Konkretne czasowniki opisujące najlepsze rozwiązanie dla kontrolki.

Wskazówki:

  1. Należy dołożyć wszelkich starań, aby zapewnić, że dane można było ufać przed rozpoczęciem trenowania modelu. Niezaufane lub nieznane dane mogą powodować luki w zabezpieczeniach w dalszej części potoku.
  2. Dane zawierające poufne dane osobowe, niezależnie od tego, czy są używane do celów nauki o danych, czy też w inny sposób powinny być czyszczone lub przechowywane i odpowiednio uzyskiwać dostęp.
  3. Zbieranie danych bez uwzględnienia ich kontekstu może prowadzić do powstania zestawów danych zawierających niedozwolone dane. Wysiłki związane ze zbieraniem danych powinny uwzględniać materiały chronione prawami autorskimi, naruszenia danych oraz niezabezpieczone punkty końcowe, które mogą przypadkowo spowodować wyciek danych.

Wskazówki to zalecenia dotyczące spełnienia powyższych kryteriów. Udostępniamy je w sposób niezależny od produktu i dostawcy, aby dać organizacjom miejsce na rozwiązanie problemu w sposób, który ma sens dla nich.

Ocena zabezpieczeń uczenia maszynowego

Przed rozpoczęciem pracy

Celem tej oceny jest pomoc organizacjom w wyrażaniu, śledzeniu i korygowaniu ryzyka związanego z operacjami biznesowymi wprowadzonymi przez systemy sztucznej inteligencji. Ta ocena powinna służyć do:

  1. Zbierz informacje o bieżącym stanie zabezpieczeń sztucznej inteligencji w organizacji.
  2. Wykonaj analizę luk i utwórz plan wdrożenia zaleceń.
  3. Śledź postęp zabezpieczeń, wykonując tę ocenę corocznie lub co dwa lata.

Jeśli organizacja nie ma programu zabezpieczeń, ta ocena nie jest miejscem do rozpoczęcia. Organizacja powinna mieć działający program zabezpieczeń informacji przed wdrożeniem zaleceń w tej ocenie. Aby uzyskać więcej informacji, zobacz artykuł wskazówki dotyczące zabezpieczeń platformy Azure w przewodniku Cloud Adoption Framework.

Zbieranie danych

Kontroluje i zasady dotyczące zbierania i przechowywania danych ze wszystkich źródeł używanych do uczenia maszynowego i sztucznej inteligencji.

Cel: dla zapewnienia integralności danych zebranych w systemach sztucznej inteligencji.

Źródła danych

Control: Dane powinny być zbierane z zaufanych źródeł. Lista zaufanych źródeł powinna być przechowywana i aktualizowana. Zatwierdzenia zarządzania dotyczące zbierania niezaufanych danych powinny być brane pod uwagę na podstawie przypadków. Jeśli niezaufane źródło jest zatwierdzone, powinno być udokumentowane.

oświadczenie o zagrożeniach: dane są zbierane z niezaufanych źródeł, które mogą zawierać poufne dane osobowe, inne niepożądane dane, które mogą wpłynąć na wydajność modelu lub stanowią zagrożenie dla zgodności z organizacją.

Wskazówki:

  1. Dane wejściowe powinny być weryfikowane i zaufane po uzyskaniu zgody zarządu przed użyciem w systemie sztucznej inteligencji.
  2. Dane zebrane dla systemu sztucznej inteligencji powinny być przeglądane przed użyciem lub przechowywaniem.
  3. W razie potrzeby zebrane dane powinny zostać oczyszczone z niepożądanych wpisów.
  4. Źródło danych powinno być udokumentowane i przechowywane razem z danymi.
  5. Dane wnioskowania używane do trenowania modelu nie powinny być automatycznie uważane za wiarygodne i powinny być traktowane jako nowe dane.
  6. Wysiłki związane z zbieraniem danych powinny być udokumentowane i poddane inspekcji. Zebrane dane powinny mieć właściciela, który jest odpowiedzialny za przestrzeganie udokumentowanych zasad.

Typy danych poufnych

Control: w celu zapewnienia, że przechowywane dane dla systemów sztucznej inteligencji są prawidłowo zabezpieczone, śledzone i klasyfikowane zgodnie z ich poufnością i przypadkiem użycia. Ta kontrolka obejmuje odpowiednie etykiety klasyfikacji danych, zasady dostępu, informacje o licencji, statystyki opisowe, źródło źródłowe i datę kolekcji.

Opis zagrożenia: Dane używane w systemach sztucznej inteligencji są wykorzystywane, przechowywane lub dostępne niewłaściwie z powodu braku wymaganych atrybutów, metadanych lub dokumentacji.

Wskazówki:

  1. Opracuj zasady dotyczące danych obejmujące prywatność i ochronę poufnych typów danych oraz przekaż zasady wszystkim pracownikom zaangażowanym w korzystanie z systemów sztucznej inteligencji lub ich tworzenie.
  2. Wdrożenie potoków trenowania i wdrażania, które chronią poufność i integralność danych używanych w systemach sztucznej inteligencji.

Magazyn danych

Control: Dane powinny być odpowiednio przechowywane zgodnie z udokumentowanym procesem klasyfikacji. Zestawy danych powinny być indeksowane i uznawane za zasób, który podlega zasadom zarządzania zasobami i kontroli dostępu.

Oświadczenie o zagrożeniu: dane są przechowywane w sposób niezabezpieczony i mogą zostać naruszone lub zmienione przez nieautoryzowane strony lub systemy. Dane nie są poprawnie klasyfikowane, co prowadzi do ujawnienia poufnych informacji lub poufnych danych osobowych.

Wskazówki

  1. Upewnij się, że systemy badawcze lub konta związane ze sztuczną inteligencją nie mają dostępu do produkcyjnych baz danych i na odwrót.
  2. Dane używane w systemach sztucznej inteligencji powinny być klasyfikowane i chronione zgodnie z udokumentowanymi zasadami klasyfikacji.
  3. Dane używane w systemach sztucznej inteligencji są śledzone w udokumentowanych zasadach zarządzania zasobami.
  4. Dane używane w poufnych przypadkach użycia sztucznej inteligencji są przechowywane w zatwierdzonych i zarządzanych systemach.
  5. Dostęp do danych powinien zostać poddany inspekcji, a użytkownicy żądający dostępu powinni przejść przez formalny proces kontroli dostępu obejmujący zatwierdzenie zarządzania.
  6. Dane używane w procesach uczenia maszynowego nie powinny być uwidocznione w Internecie.
  7. Dane pobierane z Internetu (lub innych niezaufanych źródeł) powinny przechodzić przez proces filtrowania obejmujący zatwierdzenie zarządzania.
  8. Zestawy danych powinny być wersjonowane przy użyciu formalnych procesów kontroli zmian.

Dostęp do danych

Control: Zestawy danych powinny być odpowiednio śledzone i weryfikowane za pomocą skrótu kryptograficznego przed użyciem.

Oświadczenie o zagrożeniu: Zestawy danych są zmieniane bez autoryzacji.

Wytyczne:

  1. Należy wymusić kontrolę dostępu opartą na rolach dla zestawów danych.
  2. Przeprowadzanie regularnych inspekcji dostępu w celu zapewnienia, że konta z dostępem do zestawów danych powinny mieć dostęp do zestawów danych. Upewnij się, że każde konto działa w normalnych granicach.
  3. Jeśli nie jest używana centralna platforma śledzenia, należy przejrzeć dostęp do danych za pośrednictwem surowych logów dostępu. Upewnij się, że każde konto działa w normalnych granicach.
  4. Zewnętrzni dostawcy zasobów, wykonawcy lub inne podmioty zewnętrzne nie powinni mieć nadmiarowego ani nieodpowiedniego dostępu do zasobów danych trenowania/testowania firmy bez umów.

Integralność danych

Control: Zestawy danych powinny być zaufane i pozostawać zaufane w całym cyklu życia systemu sztucznej inteligencji.

Oświadczenie o zagrożeniu: zestawy danych są zmieniane w trakcie cyklu życia AI bez możliwości przeprowadzania inspekcji lub śledzenia zmian.

Wytyczne:

  1. Zestawy danych powinny być jednoznacznie identyfikowane, tak aby nieautoryzowane zmiany zatwierdzonego zestawu danych powodowały przegląd zestawu danych.
  2. Zestawy danych i ich opisy kryptograficzne powinny być śledzone w centralnej lokalizacji. Należy przeprowadzić inspekcję dostępu do zestawu danych.
  3. Zmiany w zestawie danych powinny zawierać zaktualizowane opisy kryptograficzne i zatwierdzenie zarządzania przed przesłaniem do centralnej usługi śledzenia.

Przetwarzanie danych

Mechanizmy kontroli i zasady dotyczące przetwarzania danych używanych do uczenia maszynowego i sztucznej inteligencji.

Cel: Aby zapewnić bezpieczne przetwarzanie danych z pierwotnej formy do pośredniej formy gotowej do szkolenia.

Potoki przetwarzania

Kontrola: procesy przetwarzania powinny być odpowiednio zabezpieczone.

Oświadczenie o zagrożeniu: Podmiot zagrożenia może wprowadzać nieautoryzowane zmiany w systemie poprzez zmianę ścieżek przetwarzania danych.

Poradnik:

  1. Nie wszystkie dane, które przechodzą przez system produkcyjny, są istotne dla wysiłków związanych z nauką o danych. Ważne jest, aby przeanalizować tylko wymagane dane i upewnić się, że wszystkie dane przeniesione z bezpiecznego ustawienia produkcyjnego do ustawienia programowania są odpowiednio śledzone. Należy wziąć pod uwagę, że niektóre typy danych mogą nie być w stanie zostać przeniesione do środowiska deweloperskiego. Nauka o danych może wymagać bezpiecznego środowiska pośredniczącego.
  2. Ważna jest właściwa inspekcja dostępu do danych w całym cyklu życia przetwarzania danych. Bez oddzielnych kont nie może być wystarczająca inspekcja dostępu. Ponadto możliwość reagowania na zdarzenie nie może wystąpić bez potencjalnie wpływu na procesy biznesowe. Naruszenie zabezpieczeń jednego konta spowodowałoby naruszenie bezpieczeństwa wszystkich danych opuszczających bezpieczne środowisko produkcyjne.
  3. Procesy nauki o danych mogą wymagać zasobów spoza ścisłej granicy zgodności.
  4. Procesy nauki o danych powinny być zawsze zgodne z istniejącymi wymaganiami. Ten proces może obejmować przenoszenie zasobów i procesów nauki o danych do zgodnego środowiska.
  5. Dane powinny być śledzone przez cały cykl życia; To śledzenie obejmuje podzestawy większych zestawów danych. Należy wymagać, aby model mógł zostać prześledżony z powrotem do danych, na których został wytrenowany. Ponadto kopia tych danych powinna istnieć w całości.

Przysłona zestawu danych

Control: W celu zapewnienia podzbiorów (na przykład czasowych, podzielonych na kategorie) danych uwzględnianych przy budowie modelu i sposobu, w jaki mogą one stanowić zagrożenie dla bezpieczeństwa (wycieku prywatności, zatrucie/integralność poprzez nadmierne poleganie na informacjach zwrotnych itp.).

pl-PL: Oświadczenie o zagrożeniu: Podmiot zagrażający może odzyskać części danych, rekonstruując/odzyskując podzestawy danych.

wskazówki :

  1. Podzestawy danych to same zestawy danych. Te podzestawy są wymagane, aby były dołączone do nich te same metadane co nadrzędny zestaw danych i powinny być podobnie sprawdzane pod kątem typów danych poufnych.
  2. W zależności od zasad dotyczących praktyk uczenia maszynowego (umów SLA, metryk stronniczości itp.), każdy zestaw danych (w tym podzestawy) powinien spełniać minimalny udokumentowany standard otaczający te metryki, jeśli mają być używane w tworzeniu modelu. Metadane powinny być zawsze dołączone do zestawu danych.
  3. Wszystkie zestawy danych naruszające istniejące zasady powinny mieć udokumentowany wyjątek zatwierdzony przez zarządzanie. Wyjątek powinien zawierać udokumentowaną przyczynę wyjątku oprócz wymaganych metadanych.
  4. Wszystkie dane używane do tworzenia modelu powinny być śledzone w centralnej lokalizacji. Dane powinny być poddawane inspekcji w dowolnym momencie. Ponadto modele, które można wytrenować na nieśledzonych danych, powinny być ściągane z środowiska produkcyjnego, dopóki nie zostaną dopasowane do znanego zestawu danych z wymaganymi metadanymi.
  5. Zestawy danych powinny być odpowiednio wersjonowane, tak aby wszystkie metadane były aktualizowane, a użytkownicy danych zrozumieli zawartość i właściwości statystyczne. W razie potrzeby należy wymagać zatwierdzenia zarządzania dla poufnych przypadków użycia.

Trenowanie modelu

Mechanizmy kontroli i zasady dotyczące trenowania modeli i algorytmów.

Projektowanie modelu

Control: Kod trenowania modelu jest przeglądany przez odpowiedzialną osobę.

oświadczenie o zagrożeniu: niewłaściwy kod lub luki w zabezpieczeniach w kodzie modelu stanowią ryzyko dla dostępności, integralności lub poufności.

Wytyczne :

  1. Projekt modelu i badania powinny odbywać się w odpowiednim środowisku. Projektowanie i architektura modelu mogą mieć duży wpływ na skuteczność modelu. Środowiska produkcyjne nie są miejscem do prowadzenia badań ani do testowania nieudowodnionych twierdzeń dotyczących skuteczności projektu.
  2. Wybór modelu dla systemu produkcyjnego należy przejrzeć i zatwierdzić przez zarządzanie. Ten proces powinien nastąpić na wczesnym etapie opracowywania i powinien być śledzony za pomocą dowolnego dostępnego mechanizmu (Excel, DevOps, Git itp.). Wyjątki powinny być udokumentowane.
  3. Modele są często specyficzne dla domeny i powinny istnieć odpowiednie dokumenty towarzyszące modelowi w całej organizacji.
  4. Upewnij się, że metadane modelu są dostępne dla użytkowników, a niezatwierdzone zastosowania modeli są udokumentowane i wymuszone. Użytkownik może dostosować istniejący model, tak długo, jak nowe metadane są dołączane i śledzone odpowiednio.

Trenowanie modelu

Control: Kryterium wyboru modelu (zestawy metryk i blokad) naśladuje naturalny dryf i wszelkie niepożądane warunki, które mogą być oczekiwane w czasie wdrażania.

Oświadczenie zagrożenia: Model, który jest trenowany w idealnych warunkach, może być kruchy podczas wdrażania w warunkach przeciwności.

Wskazówki

  1. Zestawy trenowania i walidacji powinny uwzględniać naturalne zależności czasowe. Na przykład w przypadku klasyfikatorów złośliwego oprogramowania zestaw weryfikacji powinien zawierać tylko wersje oprogramowania nowsze niż zawarte w zestawie szkoleniowym.
  2. Jawne dodawanie niezawodności modelu przez rozszerzanie zestawów danych o typowe uszkodzenia, które można rozsądnie odnaleźć w środowisku naturalnym.
  3. Wyraźnie trenuj w najgorszych warunkach, używając przeciwstawnego ponownego trenowania.
  4. Śledź eksperymenty i skojarzone metadane.

Wybór modelu

Wybór modelu polega na wybraniu jednego modelu z zestawu kandydatów, gdzie każdy kandydat ma unikatowy zestaw parametrów modelu, algorytm trenowania i hiperparametrów trenowania. Kryterium wyboru zwycięskiego modelu jest często oparte na pojedynczej mierzalnej metryce (na przykład minimalnej straty, maksymalnego wskaźnika wykrywania) mierzonej na ogólnym zestawie danych walidacyjnych lub uśrednionej w zestawie walidacyjnym K-krotnej.

Control: Projektowanie modelu i algorytm trenowania obejmują jawną lub niejawną regularyzację modelu.

Oświadczenie o zagrożeniu: Modele są nadmiernie dopasowane do zestawu danych trenowania i/lub pojedynczej walidacji i są bardziej narażone na sytuacje awaryjne.

Wskazówki:

  1. W przypadku wydajności obliczeniowej należy użyć walidacji krzyżowej K-krotnej, aby zapobiec nadmiernemu dopasowaniu do pojedynczego zestawu testowego.
  2. Sprawdź, czy wybrane modele działają dobrze w różnych zestawach blokad, aby sprawdzić, czy nie są one nadmiernie dopasowane.
  3. Upewnij się, że procesy istnieją.

Wersjonowanie modelu

Kontrola: Modele są stale treningowane na nowo, gdy nowe dane szkoleniowe przepływają do potoków szkolenia.

Oświadczenie o zagrożeniach: występuje zdarzenie, ale zaangażowany model nie może być zlokalizowany do badania.

Wskazówki:

  1. Za każdym razem, gdy model jest trenowany, jest mu przypisywana nowa wersja. Kwalifikatory, takie jak my_model_dev_1.1 lub my_model_prod_1.1, powinny służyć do oznaczania produkcji z modeli przedprodukcyjnych. Wersjonowanie pomaga wyizolować problemy produkcyjne lub przedprodukcyjne. Odwołuj się do istniejących bezpiecznych procesów lub zasad SDL.

Wdrażanie modelu

Kontrolki i zasady dotyczące wdrażania modeli, algorytmów i infrastruktury pomocniczej.

Testowanie zabezpieczeń

Control: Modele wprowadzane do środowiska produkcyjnego są odpowiednio zabezpieczone.

Oświadczenie o zagrożeniu: Systemy sztucznej inteligencji nie są odpowiednio testowane w odniesieniu do zagrożeń przed wdrożeniem.

Wskazówki:

  1. Formalne kryteria testowania akceptacyjnego nie zostały zdefiniowane i udokumentowane dla nowych systemów sztucznej inteligencji, uaktualnień i nowych wersji.
  2. Nowe systemy sztucznej inteligencji, uaktualnienia lub nowe wersje powinny być implementowane przy użyciu testów formalnych.
  3. Zautomatyzowane narzędzia powinny być używane do testowania systemów informacyjnych, uaktualnień lub nowych wersji.
  4. Środowisko testowe powinno przypominać końcowe środowisko produkcyjne.
  5. Częstotliwość, zakres i metody dla niezależnych przeglądów zabezpieczeń powinny być udokumentowane.

Przegląd zabezpieczeń i zgodności

Control: niezawodne zarządzanie siecią bazną jest kluczem do zabezpieczenia systemu uczenia maszynowego i infrastruktury.

Deklaracja zagrożenia: Kompromitacja systemu ML przez uzyskanie dostępu do niezabezpieczonej sieci.

Wskazówki:

  1. Urządzenia bramy do systemów uczenia maszynowego powinny być skonfigurowane do filtrowania ruchu między domenami i blokowania nieautoryzowanego dostępu.
  2. Odpowiednie wymogi ustawowe, regulacyjne i umowne powinny być wyraźnie zdefiniowane i udokumentowane oraz rozwiązane wraz z określonymi mechanizmami kontroli i poszczególnymi obowiązkami.
  3. Należy również udokumentować, zaimplementować lub przejrzeć wytyczne dotyczące bezpiecznej konfiguracji.
  4. Kryterium podziału sieci uczenia maszynowego na domeny powinno być zgodne z zasadami kontroli dostępu organizacji lub wymaganiami dotyczącymi dostępu organizacji.
  5. Mechanizmy takie jak bezpieczna brama, sieć VPN i routing w systemach uczenia maszynowego powinny być implementowane w sposób umożliwiający stopniowe wdrożenie zestawu mechanizmów kontroli.
  6. Użytkownicy i inżynierowie uczenia maszynowego powinni stosować lub przestrzegać wymagań dotyczących implementacji mechanizmów kontroli w celu prawidłowego segregowania i ograniczania korzystania z publicznie dostępnych systemów, sieci wewnętrznych i krytycznych zasobów.

Monitorowanie systemu

Mechanizmy kontroli i zasady dotyczące ciągłego monitorowania systemów uczenia maszynowego i infrastruktury pomocniczej.

Dzienniki i przegląd dzienników

Control: rejestrowanie i monitorowanie jest niezbędne dla systemów uczenia maszynowego ze względów bezpieczeństwa.

Oświadczenie o zagrożeniu: Podczas badania nie można odnaleźć dziennika dla systemów uczenia maszynowego.

Wskazówki:

  1. Rejestrowanie i monitorowanie powinno odbywać się spójnie we wszystkich systemach sztucznej inteligencji i ich składnikach, w tym w magazynie, potokach, serwerach produkcyjnych itp.
  2. Dzienniki zdarzeń i zabezpieczeń powinny być regularnie przeglądane pod kątem nietypowych zachowań.
  3. Skonsolidowane raporty i alerty dotyczące aktywności systemu powinny być generowane i przeglądane przez kierownictwo lub przedstawiciel ds. zabezpieczeń.

Zarządzanie zdarzeniami

Role i obowiązki

Control: Dzienniki zabezpieczeń powinny być zbierane w centralnej lokalizacji.

Oświadczenie Zagrożenia: Podczas badania analitycy zabezpieczeń nie mają sformalizowanych procedur.

wskazówki dotyczące :

  1. Organizacje muszą postępować zgodnie z formalnym procesem zgłaszania zdarzeń systemów sztucznej inteligencji w kontekście utraty usług, utraty sprzętu, utraty urządzeń, awarii systemu, przeciążeń systemu, błędów ludzkich, niezgodności z zasadami lub wytycznymi, naruszeniami zabezpieczeń fizycznych, niekontrolowanymi zmianami systemu, awariami oprogramowania, awariami sprzętu i naruszeniami dostępu.
  2. Formalne procedury reagowania na zdarzenia i eskalacji powinny zostać opracowane w celu udokumentowania działań podjętych po otrzymaniu raportu zdarzenia zabezpieczeń informacji.
  3. Procedury reagowania na zdarzenia powinny być testowane okresowo, śledząc metryki odpowiedzi.

Planowanie ciągłości działania

Planowanie, przegląd i wyniki

Control: upewnij się, że systemy uczenia maszynowego można skorygować i odzyskać po wystąpieniu zdarzenia.

oświadczenie o zagrożeniach: Zdarzenia powodują trwałe problemy z poufnością, integralnością lub dostępnością krytycznych systemów uczenia maszynowego.

wskazówki dotyczące :

  1. Krytyczne zasoby sztucznej inteligencji powinny być identyfikowane i spisane.
  2. Organizacja powinna opracować plan ciągłości działania (BCP) lub proces odzyskiwania po awarii (DR) w obliczu ataków na systemy sztucznej inteligencji.
  3. Organizacja musi zidentyfikować priorytety zagrożeń związanych z wpływem utraty krytycznych systemów sztucznej inteligencji na ataki.
  4. Organizacje muszą mieć testy ciągłości działalności biznesowej działające zgodnie z powtarzającym się harmonogramem krytycznych systemów sztucznej inteligencji.

Referencje

Jeśli masz pytania, komentarze lub opinie, skontaktuj się z atml@microsoft.com.

Pobierz plik PDF tego dokumentu z naszego repozytorium GitHub.