Podsumowanie

Ukończone

W tym module przedstawiono podstawowe pojęcia dotyczące zabezpieczeń sztucznej inteligencji. Zbadano, jak zabezpieczenia sztucznej inteligencji różnią się od tradycyjnego cyberbezpieczeństwa — szczególnie ze względu na niedeterministyczny charakter generowania sztucznej inteligencji oraz rozszerzoną powierzchnię ataków utworzoną przez interfejsy języka naturalnego. Przedstawiono również znaczenie odpowiedzialnej sztucznej inteligencji oraz przemysłowych standardów, takich jak OWASP Top 10 for LLM Applications i MITRE ATLAS.

Zbadano trzy warstwy architektury sztucznej inteligencji — użycie, aplikację i platformę — oraz różne zagadnienia dotyczące zabezpieczeń w każdej warstwie. Następnie zapoznano się z pięcioma kategoriami ataków specyficznych dla sztucznej inteligencji:

  • Jailbreaking: Techniki, które pomijają mechanizmy ochronne, w tym bezpośrednie wstrzyknięcie, ataki crescendo i sztuczki związane z kodowaniem.
  • Wstrzykiwanie poleceń: ataki bezpośrednie i pośrednie (XPIA), które manipulują działaniem modelu za pomocą złośliwych instrukcji
  • Manipulowanie modelem: zatrucie modelu i ataki zatruwcze danych, które zagrażają modelowi podczas trenowania
  • Eksfiltracja danych: nieautoryzowane wyodrębnianie modeli, danych szkoleniowych lub danych interakcji
  • Nadmierne poleganie: ludzkie ryzyko behawioralne akceptowania danych wyjściowych sztucznej inteligencji bez weryfikacji

Dla każdego typu ataku nauczyłeś się o warstwowych strategiach łagodzenia, które łączą mechanizmy kontroli technicznej, monitorowania i nadzoru człowieka. Bezpieczeństwo sztucznej inteligencji to szybko rozwijająca się dziedzina — nadal pojawiają się nowe techniki ataków i środki zaradcze. Utrzymywanie aktualności z platformami, takimi jak OWASP, MITRE ATLAS i NIST AI RMF, jest niezbędne do utrzymania skutecznych mechanizmów kontroli zabezpieczeń.

Inne zasoby

Aby kontynuować naukę, przejdź do: