Zabezpieczanie przyszłości sztucznej inteligencji i uczenia maszynowego w firmie Microsoft
Autorzy: Andrew Marshall, Raul Rojas, Jay Stokes i Donald Brinkman
Specjalne podziękowania dla Marka Cartwrighta i Grahama Calladine’a
Streszczenie
Sztuczna inteligencja (AI, artificial intelligence) i uczenie maszynowe (ML, machine learning) już mają duży wpływ na to, w jaki sposób ludzie pracują, kontaktują się i żyją na co dzień. Użycie produktów i usług utworzonych na bazie sztucznej inteligencji i uczenia maszynowego wciąż wzrasta, dlatego należy podjąć wyspecjalizowane działania w celu ochrony nie tylko klientów i ich danych, ale także technologii AI i algorytmów, przed nadużyciami, trollowaniem i ekstrakcją. Ten dokument zawiera wnioski dotyczące zabezpieczeń wyciągnięte przez firmę Microsoft na podstawie projektowania produktów i obsługi usług online opartych na sztucznej inteligencji. Mimo że trudno przewidzieć, jak ten obszar będzie się rozwijał, doszliśmy do wniosku, że już teraz istnieją problemy wymagające podjęcia odpowiednich działań. Ponadto zauważyliśmy, że istnieją pewne strategiczne problemy, z którymi branża techniczna musi sobie poradzić zawczasu, aby zapewnić długoterminowe bezpieczeństwo klientów i swoich danych.
Ten dokument nie dotyczy ataków opartych na sztucznej inteligencji ani nawet wykorzystywania sztucznej inteligencji przez przestępców. Koncentrujemy się w nim na problemach, którymi firma Microsoft i jej partnerzy muszą się zająć, aby chronić produkty i usługi oparte na sztucznej inteligencji przed wysoce wyrafinowanymi, kreatywnymi i złośliwymi atakami przeprowadzanymi przez pojedyncze „trolle” lub całe „watahy wilków”.
Ten dokument koncentruje się wyłącznie na problemach inżynierii zabezpieczeń, które są unikatowe dla sztucznej inteligencji/uczenia maszynowego, jednak ze względu na rozległy charakter dziedziny bezpieczeństwa informacji przyjmuje się, że omówione tu problemy i wnioski w pewnym stopniu będą pokrywać się z obszarami ochrony prywatności i etyki. W niniejszym dokumencie omówiono wyzwania, które mają strategiczne znaczenie dla branży technicznej, dlatego jego odbiorcy docelowi to menedżerowie inżynierii zabezpieczeń z całej branży.
Nasze wczesne ustalenia sugerują, że:
W celu ograniczenia problemów z zabezpieczeniami, które zostały omówione w tym dokumencie, wymagane jest wprowadzenie zmian pod kątem sztucznej inteligenci/uczenia maszynowego w istniejących rozwiązaniach z zakresu zabezpieczeń.
Modele uczenia maszynowego nie są w stanie odróżnić złośliwych danych wejściowych od niezłośliwych, nieprawidłowych danych. Znacząca ilość danych treningowych jest pobierana z nienadzorowanych, niemoderowanych, publicznych zestawów danych, które mogą być współtworzone przez podmioty zewnętrzne. Osoby atakujące nie muszą naruszać zabezpieczeń takich zestawów danych, ponieważ mogą je swobodnie współtworzyć. W miarę upływu czasu złośliwe dane o niskim poziomie ufności stają się zaufanymi danymi o wysokim poziomie ufności, pod warunkiem, że struktura i formatowanie tych danych są prawidłowe.
Biorąc pod uwagę dużą liczbę warstw ukrytych klasyfikatorów/neuronów, które mogą być wykorzystywane w modelu uczenia głębokiego, pokładamy zbyt wielkie zaufanie w danych wyjściowych algorytmów i procesów podejmowania decyzji sztucznej inteligencji/uczenia maszynowego bez krytycznego spojrzenia na to, jak te decyzje zostały podjęte. To zaciemnienie uniemożliwia „pokazanie swojej pracy” i utrudnia popartą dowodami obronę ustaleń sztucznej inteligencji/uczenia maszynowego, gdy są one kwestionowane.
Sztuczna inteligencja/uczenie maszynowe są coraz częściej wykorzystywane do wspierania procesów podejmowania ważnych decyzji w medycynie i innych branżach, w których zła decyzja może spowodować poważne obrażenia lub śmierć. Brak możliwości raportowania dowodowego w rozwiązaniach sztucznej inteligencji/uczenia maszynowego uniemożliwia obronę tych ważnych wniosków zarówno przed sądem, jak i przed opinią publiczną.
Cele tego dokumentu są następujące: (1) omówienie problemów inżynierii zabezpieczeń, które są unikatowe dla sztucznej inteligencji/uczenia maszynowego, (2) przedstawienie pewnych początkowych przemyśleń i obserwacji dotyczących nowych zagrożeń oraz (3) udostępnienie wczesnych pomysłów dotyczących potencjalnego korygowania. Niektóre z wyzwań omówionych w tym dokumencie dotyczą problemów, którym branża musi zapobiec w ciągu następnych dwóch lat, a inne dotyczą problemów, z którymi musimy zmierzyć się już teraz. Bez dokładniejszego zbadania obszarów omówionych w tym dokumencie ryzykujemy, że przyszłe sztuczna inteligencja staje się czarną skrzynką dzięki naszej niezdolności do zaufania lub zrozumienia (i modyfikacji w razie potrzeby) procesów podejmowania decyzji dotyczących sztucznej inteligencji na poziomie matematycznym [7]. Z punktu widzenia bezpieczeństwa w efekcie oznacza to utratę kontroli i odejście od głównych zasad firmy Microsoft dotyczących sztucznej inteligencji [4, 8].
Nowe wyzwania inżynierii zabezpieczeń
Zapobieganie tradycyjnym wektorom ataków na oprogramowanie nadal ma krytyczne znaczenie, jednak nie zapewnia wystarczającego pokrycia krajobrazu zagrożeń w zakresie sztucznej inteligencji/uczenia maszynowego. Branża techniczna musi unikać rozwiązywania problemów nowej generacji za pomocą narzędzi starej generacji przez tworzenie nowych struktur i adoptowanie nowych metod, które dotyczą luk w projekcie i działaniu usług opartych na sztucznej inteligencji/uczeniu maszynowym:
Jak piszemy poniżej, podstawy bezpiecznego programowania i działania muszą uwzględniać koncepcje odporności i dyskrecji w zakresie ochrony sztucznej inteligencji i kontrolowanych przez nią danych. W obszarach uwierzytelniania, rozdzielenia obowiązków, weryfikacji danych wejściowych i zapobiegania atakom typu „odmowa usługi” wymagane jest wprowadzenie zmian pod kątem sztucznej inteligencji. Bez inwestycji w te obszary usługi sztucznej inteligencji/uczenia maszynowego będą kontynuowały trudną walkę z wrogami o różnych poziomach umiejętności.
Sztuczna inteligencja musi umieć rozpoznawać uprzedzenia u innych bez wprowadzania ich do własnych interakcji z ludźmi. Osiągnięcie tego celu wymaga kolektywnego i rozwojowego zrozumienia uprzedzeń, stereotypów, dialektów językowych i innych konstrukcji kulturowych. Takie zrozumienie ułatwi ochronę sztucznej inteligencji przed atakami wykorzystującymi metody socjotechniczne i manipulowanie zestawami danych. Tak naprawdę, jeśli system będzie właściwie zaimplementowany, takie ataki go wzmocnią i umożliwią mu udostępnienie swojego rozszerzonego zrozumienia innym systemom sztucznej inteligencji.
Algorytmy uczenia maszynowego muszą potrafić odróżnić złośliwie wprowadzane dane od niegroźnych zdarzeń typu „czarny łabędź” [1] przez odrzucenie danych treningowych z negatywnym wpływem na wyniki. W przeciwnym razie modele uczenia maszynowego zawsze będą podatne na manipulacje ze strony osób atakujących i trolli.
Sztuczna inteligencja musi mieć wbudowane funkcje kryminalistyczne. Dzięki temu przedsiębiorstwa mogą dostarczać klientom przejrzystą i odpowiedzialną sztuczną inteligencję, zapewniając, że jej działania są nie tylko weryfikowane pod kątem poprawności, ale również prawnie uzasadnione. Te funkcje są również wczesną formą „wykrywania nieautoryzowanego dostępu do sztucznej inteligencji” i zapewniają inżynierom możliwość ustalenia dokładnego punktu w czasie, w którym klasyfikator podjął decyzję, danych, które na nią wpłynęły, oraz wiarygodności tych danych. Możliwości wizualizacji danych w tym obszarze szybko się rozwijają i dają nadzieję, że ułatwią inżynierom identyfikowanie i rozwiązywanie podstawowych przyczyn tych złożonych problemów [11].
Sztuczna inteligencja musi rozpoznawać i chronić informacje poufne, nawet jeśli ludzie nie uznają ich za takie. Rozbudowane środowiska użytkownika w systemach sztucznej inteligencji wymagają ogromnych ilości danych pierwotnych do trenowania, dlatego należy zaplanować „nadmierne udostępnianie” przez klientów.
Każdy z tych obszarów, w tym zagrożenia i potencjalne środki zaradcze, został omówiony szczegółowo poniżej.
Sztuczna inteligencja wymaga zmian w tradycyjnych modelach bezpiecznego projektowania/bezpiecznych operacji: zastosowania koncepcji odporności i dyskrecji
Projektanci sztucznej inteligencji zawsze będą musieli zapewnić poufność, integralność i dostępność danych poufnych. Ponadto będą musieli zagwarantować, że system sztucznej inteligencji jest wolny od znanych luk w zabezpieczeniach oraz zapewnić mechanizmy kontroli na potrzeby ochrony, wykrywania i reagowania na złośliwe zachowanie skierowane przeciwko systemowi lub danym użytkownika.
Tradycyjne sposoby obrony przed złośliwymi atakami nie zapewniają takiego samego zasięgu w tym nowym paradygmacie, w którym ataki oparte na głosie/wideo/obrazie mogą obejść obecne filtry i mechanizmy obronne. Należy zbadać nowe aspekty modelowania zagrożeń, aby zapobiec nowym nadużyciom i wykorzystaniu systemów sztucznej inteligencji. Wykracza to daleko poza identyfikację tradycyjnej powierzchni ataku za pomocą testowania odporności na błędne dane lub manipulacji danymi wejściowymi (te ataki mają własne aspekty specyficzne dla sztucznej inteligencji). Wymaga to włączenia scenariuszy unikatowych dla obszaru sztucznej inteligencji/uczenia maszynowego. Kluczowym elementem są tu środowiska użytkownika sztucznej inteligencji, takie jak głos, wideo i gesty. Zagrożenia związane z tymi środowiskami nie były tradycyjnie modelowane. Na przykład zawartość wideo jest teraz dostosowywana do wywoływania efektów fizycznych. Ponadto badania wykazały, że możliwe jest wykonanie głosowych poleceń ataku [10].
Nieprzewidywalność, kreatywność i złośliwość przestępców, zdeterminowanych przeciwników i trolli wymaga od nas zaszczepienia w naszej sztucznej inteligencji wartości odporności i dyskrecji:
Odporność: System powinien być w stanie wykrywać nietypowe zachowania i zapobiegać manipulacji lub przymusowi poza normalnymi granicami dopuszczalnego zachowania w stosunku do systemu sztucznej inteligencji i określonego zadania. Są to nowe typy ataków specyficzne dla obszaru sztucznej inteligencji/uczenia maszynowego. Systemy powinny być zaprojektowane tak, aby były odporne na dane wejściowe, które w innym przypadku byłyby sprzeczne z lokalnymi przepisami, etyką i wartościami wyznawanymi przez społeczność i jej twórców. Oznacza to wyposażenie sztucznej inteligencji w funkcje umożliwiające określenie, kiedy interakcja zaczyna wychodzić „poza scenariusz”. Można to osiągnąć przy użyciu następujących metod:
Wskazywanie pojedynczych użytkowników, którzy odbiegają od norm ustanowionych przez różnorodne duże klastry podobnych użytkowników, np. użytkowników, którzy wydają się pisać szybko, reagują zbyt szybko, nie śpią lub uruchamiają części systemu, z których nie korzystają inni użytkownicy.
Identyfikowanie wzorców zachowań, o których wiadomo, że są wskaźnikami złośliwych ataków sondujących, i uruchomienie łańcucha Network Intrusion Kill Chain (Łańcuch likwidowania włamania do sieci).
Rozpoznawanie wszystkich przypadków, gdy wielu użytkowników działa w sposób skoordynowany, np. wielu użytkowników wysyła to samo niewytłumaczalne, ale celowo spreparowane zapytanie, nagłe skoki liczby użytkowników lub nagłe skoki w aktywacji określonych części systemu sztucznej inteligencji.
Takie ataki powinny być rozpatrywane na równi z atakami typu „odmowa usługi”, ponieważ sztuczna inteligencja może wymagać poprawek i ponownego trenowania, aby nie nabrać się ponownie na te same sztuczki. Niezwykle ważna jest umiejętność identyfikowania złośliwych zamiarów w obecności środków zaradczych, takich jak te stosowane w celu pokonania interfejsów API analizy tonacji [5].
Dyskrecja: Sztuczna inteligencja powinna być odpowiedzialnym i godnym zaufania strażnikiem wszelkich informacji, do których ma dostęp. Jako ludzie bez wątpienia przypiszemy określony poziom zaufania do naszych relacji ze sztuczną inteligencją. W pewnym momencie ci agenci będą komunikować się z innymi agentami lub z innymi ludźmi w naszym imieniu. Musimy mieć pewność, że system sztucznej inteligencji jest wystarczająco dyskretny, aby udostępnić jedynie w ograniczonej formie to, co musi o nas udostępnić, aby inni agenci mogli wykonywać zadania w jego imieniu. Ponadto, jeśli wielu agentów korzysta z danych osobowych w naszym imieniu, nie każdy z nich potrzebuje dostępu globalnego. Wszelkie scenariusze dostępu do danych obejmujące wielu agentów sztucznej inteligencji lub botów powinny ograniczać czas trwania dostępu do wymaganego minimum. Użytkownicy powinni również blokować dane i odrzucać uwierzytelnianie agentów z określonych korporacji lub ustawień regionalnych tak samo, jak przeglądarki internetowe zezwalają na blokowanie witryn dzisiaj. Rozwiązanie tego problemu wymaga nowego podejścia do uwierzytelniania między agentami i uprawnień dostępu do danych, tak jak w przypadku inwestycji w uwierzytelnianie użytkowników w chmurze, które były realizowane we wczesnych latach przetwarzania w chmurze.
Sztuczna inteligencja musi umieć rozpoznawać uprzedzenia u innych, a jednocześnie sama musi być wolna od uprzedzeń
Sztuczna inteligencja powinna być sprawiedliwa i inkluzywna bez dyskryminowania jakiejkolwiek konkretnej grupy osób lub ważnych wyników, jednak aby to osiągnąć, musi mieć wrodzone zrozumienie uprzedzeń. Bez trenowania w celu rozpoznawania uprzedzeń, trollowania i sarkazmu sztuczna inteligencja zostanie nabrana przez tych, którzy w najlepszym razie chcą sobie pożartować, a w najgorszym chcą wyrządzić szkodę klientom.
Osiągnięcie tego poziomu świadomości wymaga, aby „dobrzy ludzie uczyli sztuczną inteligencję złych rzeczy”, ponieważ wymaga to kompleksowego i rozwojowego zrozumienia uprzedzeń kulturowych. Sztuczna inteligencja powinna być w stanie rozpoznać użytkownika, z którym miała negatywne interakcje w przeszłości, i zachować odpowiednią ostrożność, podobnie jak rodzice uczą swoje dzieci, aby zachować ostrożność wobec obcych. Najlepszym sposobem na to jest ostrożne wystawianie sztucznej inteligencji na działania trolli w kontrolowany/moderowany/ograniczony sposób. W ten sposób sztuczna inteligencja może poznać różnicę między niegroźnym użytkownikiem „kopiącym opony” a faktyczną złośliwością/trollowaniem. Trolle zapewniają cenny strumień danych treningowych dla sztucznej inteligencji, dzięki czemu staje się ona bardziej odporna na przyszłe ataki.
Sztuczna inteligencja powinna również być w stanie rozpoznawać uprzedzenia w zestawach danych, których używa do trenowania. Mogą one być kulturowe lub regionalne, zawierające język używany przez określoną grupę ludzi lub tematy/punkty widzenia o szczególnym znaczeniu dla jednej grupy. Podobnie jak w przypadku złośliwych danych treningowych, sztuczna inteligencja musi być odporna na wpływ tych danych na podstawie własnych wniosków i ustaleń. U podstaw leży tu wyrafinowany mechanizm sprawdzania poprawności danych wejściowych podobny do mechanizmu sprawdzania granic. Zamiast obliczania długości i przesunięć bufora, rolę bufora i sprawdzania granic pełnią wyrazy oznaczone czerwoną flagą z szerokiego zakresu źródeł. Historia konwersacji i kontekst użycia wyrazów także mają kluczowe znaczenie. Podobnie jak w przypadku praktyk dogłębnej ochrony, które zapewniają warstwy ochrony dla tradycyjnego frontonu interfejsu API usługi internetowej, należy zastosować wiele warstw ochrony w technikach rozpoznawania i unikania uprzedzeń.
Algorytmy uczenia maszynowego muszą potrafić odróżnić złośliwie wprowadzane dane od niegroźnych zdarzeń typu „czarny łabędź”
Opublikowano wiele oficjalnych dokumentów na temat teoretycznego potencjału manipulacji modelem uczenia maszynowego/klasyfikatorem oraz ekstrakcji/kradzieży z usług, gdzie osoby atakujące mają dostęp do zestawu danych treningowych i jednocześnie dobrze rozumieją używany model [2, 3, 6, 7]. Nadrzędnym problemem jest to, że atakujący, który ma kontrolę nad danymi zestawu treningowego, może oszukać wszystkie klasyfikatory uczenia maszynowego. Osoby atakujące nie muszą nawet mieć możliwości modyfikowania istniejących danych zestawu treningowego, wystarczy im możliwość dodania do niego danych wejściowych, które z czasem staną się „zaufane”, ponieważ klasyfikator uczenia maszynowego nie potrafi odróżnić złośliwych danych od prawdziwych nieprawidłowych danych.
Ten problem z łańcuchem dostaw danych treningowych wprowadza koncepcję „integralności decyzji” — zdolności do identyfikowania i odrzucania złośliwie wprowadzonych danych treningowych lub danych wejściowych użytkownika, zanim będą one miały negatywny wpływ na zachowanie klasyfikatora. Uzasadnienie jest takie, że wiarygodne dane treningowe dają większe prawdopodobieństwo generowania wiarygodnych wyników/decyzji. Mimo że nadal niezwykle ważne jest trenowanie na niezaufanych danych i uzyskanie na nie odporności, złośliwy charakter tych danych powinien zostać przeanalizowany, zanim staną się one częścią zbioru danych treningowych o wysokim poziomie zaufania. Bez takich środków sztuczna inteligencja może zostać zmuszona do przesadnego reagowania na trollowanie i może odmawiać usługi legalnym użytkownikom.
Jest to szczególnie ważne, gdy nienadzorowane algorytmy uczenia maszynowego są trenowane na nienadzorowanych lub niezaufanych zestawach danych. Oznacza to, że osoby atakujące mogą wprowadzić dowolne dane, pod warunkiem że mają one prawidłowy format, a algorytm będzie na nim trenowany, co w efekcie spowoduje, że ten punkt danych będzie tak samo zaufany, jak reszta zestawu treningowego. Po przyjęciu wystarczającej ilości danych wejściowych spreparowanych przez osobę atakującą algorytm treningowy traci zdolność odróżniania szumu i anomalii od danych o wysokim poziomie zaufania.
Jako przykład tego zagrożenia wyobraź sobie bazę danych znaków Stop na całym świecie, w każdym języku. Nadzór w takim przypadku byłby niezwykle trudny ze względu na liczbę obrazów i języków. Złośliwy wkład w ten zestaw danych pozostałby w dużej mierze niezauważony, dopóki samochody bezzałogowe przestałyby rozpoznawać znaki Stop. W takim przypadku środki zaradcze dotyczące odporności danych i integralności decyzji będą musiały działać razem, aby zidentyfikować i wyeliminować szkody wyrządzone przez złośliwe dane, aby nie stały się one podstawową częścią modelu uczenia.
Sztuczna inteligencja musi mieć wbudowane rejestrowanie danych kryminalistycznych i danych zabezpieczeń, aby zapewnić przejrzystość i odpowiedzialność
Sztuczna inteligencja ostatecznie będzie w stanie działać profesjonalnie jako agent w naszym imieniu, pomagając nam w podejmowaniu ważnych decyzji. Przykładem może być tu sztuczna inteligencja, która pomaga w przetwarzaniu transakcji finansowych. Jeśli sztuczna inteligencja zostanie wykorzystana w złym celu, a transakcje w jakikolwiek sposób zmanipulowane, konsekwencje mogą być różne — od indywidualnych po systemowe. W wysokowartościowych scenariuszach sztuczna inteligencja będzie potrzebować odpowiednich mechanizmów rejestrowania danych kryminalistycznych i danych zabezpieczeń, aby zapewnić integralność, przejrzystość, odpowiedzialność, a w niektórych przypadkach także dowody, jeśli będzie wymagana odpowiedzialność cywilna lub karna.
Podstawowe usługi sztucznej inteligencji będą potrzebować narzędzi do inspekcji/śledzenia zdarzeń na poziomie algorytmu, aby deweloperzy mogli sprawdzać zarejestrowany stan określonych klasyfikatorów, które mogły doprowadzić do nieprawidłowej decyzji. Taka możliwość jest wymagana w całej branży, aby można było udowodnić poprawność i przejrzystość decyzji wygenerowanych przez sztuczną inteligencję za każdym razem, gdy będą one kwestionowane.
Funkcje śledzenia zdarzeń mogą rozpocząć od korelacji podstawowych informacji decyzyjnych, takich jak:
Przedział czasu, w którym miało miejsce ostatnie zdarzenie treningowe
Znacznik czasu ostatniego wpisu w zestawie danych, na którym przeprowadzono trenowanie
Wagi i poziomy zaufania kluczowych klasyfikatorów stosowanych przy podejmowaniu ważnych decyzji
Klasyfikatory lub składniki uczestniczące w podejmowaniu decyzji
Ostateczna decyzja o wysokiej wartości wywnioskowana przez algorytm
Takie śledzenie jest przesadą w przypadku większości decyzji podejmowanych przy pomocy algorytmu. Jednak możliwość zidentyfikowania punktów danych i metadanych algorytmu prowadzących do określonych wyników będzie ogromną korzyścią procesu podejmowaniu decyzji o wysokiej wartości. Takie możliwości nie tylko wykażą wiarygodność i integralność dzięki zdolności algorytmu do „pokazania swojej pracy”, ale dane te można również wykorzystać do dostrajania.
Inną funkcją śledczą potrzebną w sztucznej inteligencji/uczeniu maszynowym jest wykrywanie manipulacji. Tak jak potrzebujemy, aby sztuczna inteligencja rozpoznawała uprzedzenia i nie była na nią podatna, powinniśmy mieć dostępne funkcje kryminalistyczne, aby pomagały naszym inżynierom w wykrywaniu takich ataków i reagowania na nie. Takie możliwości kryminalistyczne będą miały ogromną wartość w połączeniu z technikami wizualizacji danych [11], umożliwiającymi audyt, debugowanie i dostrajanie algorytmów w celu uzyskania bardziej efektywnych wyników.
Sztuczna inteligencja musi chronić informacje poufne, nawet jeśli ludzie tego nie robią
Rozbudowane środowiska wymagają rozbudowanych danych. Ludzie już udostępnili ogromne ilości danych, na podstawie których można trenować modele uczenia maszynowego. Dotyczy to zarówno zawartości zwykłych kolejek strumieniowego przesyłania wideo, jak i trendów zakupów na kartach kredytowych/historii transakcji wykorzystywanych do wykrywania oszustw. Sztuczna inteligencja powinna mieć zakorzenione poczucie dyskrecji, jeśli chodzi o przetwarzanie danych użytkowników, zawsze działając w celu ich ochrony, nawet gdy są one dobrowolnie udostępniane przez udostępniające zbyt wiele społeczeństwo.
Ponieważ sztuczna inteligencja może mieć uwierzytelnioną grupę „współpracowników”, z którymi komunikuje się w celu wykonania złożonych zadań, musi także uznać potrzebę ograniczenia danych, które udostępnia tym współpracownikom.
Wczesne spostrzeżenia na temat rozwiązywania problemów związanych z zabezpieczeniami sztucznej inteligencji
Pomimo, że ten projekt dopiero powstaje, uważamy, że zebrane do tej pory dowody pokazują, iż szczegółowe zbadanie każdego z poniższych obszarów będzie miało kluczowe znaczenie dla przesunięcia naszej branży w kierunku bardziej wiarygodnych i bezpiecznych produktów/usług sztucznej inteligencji/uczenia maszynowego. Poniżej przedstawiliśmy nasze wczesne spostrzeżenia i przemyślenia dotyczące tego, co chcielibyśmy zrobić w tym obszarze.
Można ustanowić ukierunkowane na sztuczną inteligencję/uczenie maszynowe testy penetracyjne i organy przeglądu zabezpieczeń, aby zapewnić, że nasza przyszła sztuczna inteligencja dzieli nasze wartości i jest zgodna z zasadami sztucznej inteligencji asilomar.
- Taka grupa mogłaby również opracowywać narzędzia i struktury, które mogłyby być używane w całej branży do zabezpieczania usług opartych na sztucznej inteligencji/uczeniu maszynowym.
- Wraz z upływem czasu ta wiedza będzie gromadzona w ramach grup inżynieryjnych w sposób organiczny, tak jak w przypadku fachowej wiedzy z zakresu tradycyjnych zabezpieczeń w ciągu ostatnich 10 lat.
Można opracować szkolenia, które umożliwią przedsiębiorstwom osiągnięcie celów, takich jak demokratyzacja sztucznej inteligencji, przy jednoczesnym korygowaniu problemów omówionych w tym dokumencie.
- Szkolenia w zakresie bezpieczeństwa sztucznej inteligencji zapewniają, że inżynierowie są świadomi zagrożeń dla ich sztucznej inteligencji i zasobów, którymi dysponują. Materiał ten należy dostarczać w połączeniu z bieżącymi szkoleniami z zakresu ochrony danych klientów.
- Można to osiągnąć bez wymagania, aby każdy analityk danych stał się specjalistą ds. zabezpieczeń — zamiast tego należy skoncentrować się na edukowaniu deweloperów w zakresie odporności i dyskrecji stosownie do ich przypadków użycia sztucznej inteligencji.
- Deweloperzy będą musieli poznać bezpieczne „bloki konstrukcyjne” usług sztucznej inteligencji, które będą wielokrotnie używane w całym przedsiębiorstwie. Trzeba będzie położyć nacisk na projektowanie odporne na uszkodzenia z podsystemami, które można łatwo wyłączyć (np. moduły przetwarzające obrazy, analizatory tekstu).
Klasyfikatory uczenia maszynowego i związane z nimi algorytmy mogą zostać wzmocnione i mogą wykrywać złośliwe dane treningowe bez zanieczyszczania obecnie używanych prawidłowych danych treningowych lub wypaczania wyników.
Techniki, takie jak odrzucanie negatywnych danych wejściowych [6], wymagają cyklicznego sprawdzania przez badaczy.
Ta praca obejmuje weryfikację matematyczną, testowanie koncepcji w kodzie oraz testowanie zarówno pod względem złośliwych, jak i niezłośliwych nietypowych danych.
Sprawdzanie/moderowanie przez człowieka może być tutaj korzystne, szczególnie w przypadku obecności anomalii statystycznych.
Można skonstruować „klasyfikatory nadzorcze”, aby uzyskać bardziej uniwersalne zrozumienie zagrożeń dla wielu systemów sztucznej inteligencji. Znacznie poprawia to bezpieczeństwo systemu, ponieważ osoba atakująca nie może już ekstrahować jednego określonego modelu.
Systemy sztucznej inteligencji mogłyby być ze sobą połączone, aby wzajemnie identyfikować zagrożenia w swoich systemach
Można zbudować scentralizowaną bibliotekę inspekcji/danych dowodowych uczenia maszynowego, która ustanowi standard przejrzystości i wiarygodności sztucznej inteligencji.
- Można również opracować funkcje zapytania w celu przeprowadzania inspekcji i rekonstrukcji ważnych decyzji biznesowych podejmowanych przez sztuczną inteligencję.
Język używany przez przeciwników z różnych grup kulturowych i mediów społecznościowych mógłby być stale inwentaryzowany i analizowany przez sztuczną inteligencję w celu wykrywania trollowania, sarkazmu itp.
Systemy sztucznej inteligencji muszą być odporne na wszelkiego rodzaju żargon, zarówno techniczny, regionalny, jak i specyficzny dla danego forum.
Tę wiedzę można również wykorzystać w automatyzacji filtrowania/etykietowania/blokowania zawartości w celu rozwiązania problemów ze skalowalnością moderatora.
Ta globalna baza danych terminów może być hostowana w bibliotekach programistycznych, a nawet uwidaczniana za pośrednictwem interfejsów API usług w chmurze do ponownego użycia przez różne sztuczną inteligencję, zapewniając, że nowe sztuczna inteligencja korzysta z połączonej mądrości starszych.
Można by było utworzyć „Strukturę testowania odporności uczenia maszynowego na błędne dane”, która zapewniłaby inżynierom możliwość wstrzykiwania różnego rodzaju ataków do testowych zestawów treningowych ocenianych przez sztuczną inteligencję.
- Mogłoby to skupiać się nie tylko na języku, ale także na obrazach, głosach i gestach, a także na permutacjach tych typów danych.
Podsumowanie
Zasady sztucznej inteligencji ustalone na konferencji w Asilomar ilustrują złożoność dostarczania sztucznej inteligencji w sposób, który konsekwentnie przynosi korzyści ludzkości. Przyszłe systemy sztucznej inteligencji będą musiały współpracować z innymi systemami sztucznej inteligencji, aby zapewnić rozbudowane, atrakcyjne środowiska użytkowników. Oznacza to, że po prostu nie wystarczy, aby firma Microsoft „opracowała dobrą sztuczną inteligencję” z punktu widzenia bezpieczeństwa — świat musi to zrobić. Potrzebujemy dostosowania branży i współpracy z większą widocznością problemów omówionych w tym dokumencie, w sposób podobny do naszego ogólnoświatowego dążenia do Cyfrowej Konwencji Genewskiej [9]. Zajmując się przedstawionymi tutaj problemami, możemy zacząć prowadzić naszych klientów i partnerów branżowych drogą, na której sztuczna inteligencja jest naprawdę zdemokratyzowana i zwiększa inteligencję całej ludzkości.
Bibliografia
[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512
[2] Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart,Kradzież modeli uczenia maszynowego za pośrednictwem interfejsów API przewidywania
[3] Ian GoodFellow, Nicolas Papernot, Sandy Huang, Yan Duan, Pieter Abbeel i Jack Clark:Atakowanie uczenia maszynowego przy użyciu niepożądanych przykładów
[4] Satya Nadella:Partnerstwo przyszłości
[5] Claburn, Thomas:Troll-destroying AI firmy Google nie może poradzić sobie z literówkami
[6] Marco Barreno, Blaine Nelson, Anthony D. Joseph, J.D. Tygar:Bezpieczeństwo uczenia maszynowego
[7] Wolchover, Natalie:Ten pionier sztucznej inteligencji ma kilka obaw
[8] Conn, Ariel:Jak dopasować sztuczną inteligencję do wartości ludzkich?
[9] Smith, Brad:Potrzeba pilnych działań zbiorowych, aby zapewnić ludziom bezpieczeństwo w Internecie: Lekcje z zeszłotygodniowego cyberataku
[10] Nicholas Carlini, Pratyush Mishra, Tavish Vaidya, Yuankai Zhang, Micah Sherr, Clay Shields, David Wagner, Wenchao Zhou:Hidden Voice Commands
[11] Fernanda Viégas, Martin Wattenberg, Daniel Smilkov, James Wexler, Jimbo Wilson, Nikhil Thorat, Charles Nicholson, Google Research:Big Picture