Penilaian Risiko AI untuk Teknisi ML

Artikel
03/19/2024

Terlepas dari alasan kuat untuk mengamankan sistem ML, survei Microsoft yang mencakup 28 bisnis menemukan bahwa sebagian besar praktisi industri belum berdampak pada pembelajaran mesin musuh (ML). Dua puluh lima dari 28 bisnis menunjukkan bahwa mereka tidak memiliki alat yang tepat untuk mengamankan sistem ML mereka. Terlebih lagi, mereka secara eksplisit mencari panduan. Kami menemukan bahwa kurangnya persiapan tidak terbatas pada organisasi yang lebih kecil - mereka berkisar dari perusahaan Fortune 500, pemerintah hingga organisasi nirlaba. Pelanggan mengakui kebutuhan untuk mengamankan sistem AI tetapi tidak tahu caranya.

Dokumen ini adalah langkah pertama bagi organisasi untuk menilai postur keamanan sistem AI mereka. Tetapi alih-alih menambahkan kerangka kerja lain yang harus diikuti organisasi, kami mencoba menyediakan konten dengan cara yang dapat ditekankan ke kerangka kerja penilaian risiko keamanan tradisional yang ada.

Ada tiga tujuan untuk dokumen ini:

Memberikan perspektif komprehensif untuk keamanan sistem AI. Kami melihat setiap elemen siklus hidup sistem AI dalam pengaturan produksi: dari pengumpulan data, pemrosesan data hingga penyebaran model. Kami juga memperhitungkan rantai pasokan AI dan kontrol dan kebijakan sehubungan dengan pencadangan, pemulihan, dan perencanaan kontingensi yang terkait dengan sistem AI.
Menguraikan ancaman terhadap aset AI penting dan panduan untuk mengamankannya. Untuk secara langsung membantu teknisi dan profesional keamanan, kami menghitung pernyataan ancaman di setiap langkah proses pembangunan sistem AI. Selanjutnya, kami memberikan serangkaian panduan yang melapisi dan memperkuat praktik yang ada dalam konteks sistem AI.
Memungkinkan organisasi untuk melakukan penilaian risiko keamanan AI. Kerangka kerja ini membantu mengumpulkan informasi tentang status keamanan sistem AI saat ini dalam organisasi, melakukan analisis kesenjangan dan melacak kemajuan postur keamanan.

Kami merumuskannya bersama dengan pemangku kepentingan di seluruh Microsoft, dengan perwakilan dari Azure Security, Responsible AI Strategy in Engineering, Microsoft Security Response Center, Azure Security, dan AI, Ethics and Effects in Engineering and Research (Aether).

Pengantar

Sebaiknya gunakan dokumen ini untuk memulai diskusi sekeliling mengamankan sistem AI yang selaras dengan upaya keamanan informasi dan tujuan bisnis yang sedang berlangsung. Dokumen ini berfokus pada sistem AI, dan penyertaan kontrol tradisional karena sistem AI dibangun di atas infrastruktur IT tradisional.

Kami mencakup area berikut yang terkait dengan sistem AI.

Kontrol administratif	Deskripsi
Kebijakan keamanan pembelajaran mesin	Kontrol dan kebijakan yang berkaitan dengan kebijakan terdokumen yang mengatur pembelajaran mesin, kecerdasan buatan, dan keamanan informasi.

Kontrol teknis	Deskripsi
Pengumpulan data	Kontrol dan kebijakan yang terkait dengan pengumpulan, penyimpanan, dan klasifikasi data yang digunakan untuk pembelajaran mesin dan kecerdasan buatan.
Pemrosesan data	Kontrol dan kebijakan yang berkaitan dengan pemrosesan dan rekayasa data yang digunakan untuk pembelajaran mesin dan kecerdasan buatan.
Pelatihan model	Kontrol dan kebijakan yang berkaitan dengan desain, pelatihan, dan validasi model.
Penyebaran model	Kontrol dan kebijakan yang berkaitan dengan penyebaran model dan infrastruktur pendukung.
Pemantauan sistem	Kontrol dan kebijakan yang berkaitan dengan pemantauan sistem pembelajaran mesin yang sedang berlangsung.
Manajemen insiden	Kontrol dan kebijakan yang berkaitan dengan bagaimana insiden yang terkait dengan sistem AI ditangani.
Kelangsungan bisnis dan pemulihan bencana	Kontrol dan kebijakan yang berkaitan dengan hilangnya kekayaan intelektual melalui pencurian model, degradasi layanan, atau kerentanan khusus AI lainnya.

Kami mengadaptasi kerangka kerja kontrol dan kebijakan yang ada dari standar ISO27001:2013 yang populer dan memetakannya di seluruh proses pembuatan sistem AI - dari fase pengumpulan data hingga menanggapi ancaman terhadap sistem AI. Organisasi mungkin memiliki beberapa atau semua kontrol yang ada yang diterapkan dari ISO27001:2013 atau sudah mematuhi beberapa kerangka kerja risiko (NIST 800-53, PCI-DSS, FedRamp, dll.) sebagai bagian dari upaya keamanan informasi yang ada.

Gagal mengamankan sistem AI yang memadai meningkatkan risiko tidak hanya sistem AI yang ditangani dalam penilaian ini, tetapi lebih umum ke seluruh teknologi informasi dan lingkungan kepatuhan.

Tujuan dari dokumen ini bukan untuk mengganti salah satu upaya yang ada ini - tetapi untuk menggambarkan mengamankan sistem AI dari titik vantage alat dan kerangka kerja yang ada, dan memperluasnya ke semua bagian proses pembangunan AI.

Panduan yang tercantum di sini tidak preskriptif, karena akan memerlukan lebih banyak konteks seperti platform yang mendasarinya, jenis data yang mendasarinya, dan pilihan algoritma. Jika Anda adalah pelanggan Azure Pembelajaran Mesin, lihat artikel Keamanan dan tata kelola perusahaan.

Tingkat keparahan, kemungkinan, dampak yang disarankan

Tidak semua kontrol sangat penting bagi keamanan sistem AI. Oleh karena itu, untuk memprioritaskan pekerjaan dengan benar, setiap kontrol harus dinilai oleh organisasi dengan peringkat tingkat keparahan yang relevan dengan dampak bisnis dari tidak menerapkan kontrol tertentu. Organisasi mungkin memilih untuk menerima risiko kontrol penting, dan sebaliknya menerapkan kontrol kompensasi untuk menurunkan risiko. Pada akhirnya, peringkat ini untuk membantu memandu pengambilan keputusan berbasis risiko daripada meresepkan aktivitas.

Tingkat keparahan

Tingkat keparahan kompromi akan bergantung pada kasus penggunaan model AI. Untungnya, jika data atau sistem yang digunakan menjadi perhatian penting sebelum pembelajaran mesin diintegrasikan, data atau sistem harus tetap sama. Demikian pula, jika model yang digunakan adalah "off-the-shelf" tanpa input lain, tergantung pada konteks model yang digunakan, tingkat keparahan kompromi kemungkinan lebih rendah. Teknik seperti privasi diferensial dapat mengurangi dampak potensial dari kompromi. Namun, konteks ini tidak akan mengurangi kekritisan sistem, data, atau model. Kami menyarankan agar model dilindungi menggunakan strategi pertahanan mendalam daripada mengandalkan satu implementasi defensif.

Tingkat keparahan yang disarankan

Disarankan sebagai kritis

Jika model AI dilatih, atau menyerap data pribadi sensitif, data rahasia, atau data yang diatur oleh persyaratan kepatuhan seperti PCI, HIPAA, GLBA, dll.
Jika model AI digunakan dalam aplikasi atau sistem penting bisnis sehingga kompromi akan memiliki dampak negatif besar dari operasi bisnis
Jika model AI digunakan dalam aplikasi di mana fisik atau bahaya atau kematian adalah kemungkinan hasil
Jika model AI digunakan dalam sistem yang mendukung infrastruktur penting (misalnya, air, daya, kesehatan)

Disarankan sebagai tinggi

Jika model AI dilatih atau menyerap data pribadi sensitif, informasi rahasia, atau data yang dianggap penting oleh organisasi
Jika kompromi model AI ini akan memiliki dampak besar tetapi tercakup pada operasi bisnis
Jika model AI digunakan dalam aplikasi atau sistem yang penting bagi bisnis

Disarankan sebagai sedang

Jika model AI dilatih pada subset data pelatihan yang berisi jenis data sensitif
Jika kompromi model AI ini akan memiliki implikasi untuk model yang disebarkan dalam produksi
Jika model AI digunakan dalam aplikasi noncritical tetapi berhadapan dengan bisnis
Jika model AI tidak digunakan dalam produksi tetapi memiliki informasi mengenai model produksi

Disarankan serendah mungkin

Jika model AI dilatih pada data yang tidak digunakan dalam produksi
Jika model AI tidak digunakan dalam produksi, dan tidak memiliki informasi mengenai model produksi

Disarankan sebagai informasi

Jika data tidak diklasifikasikan dari sumber yang diperketat
Jika model AI tidak digunakan dalam produksi

Kecenderungan

Kemungkinan memiliki dua komponen utama, ketersediaan model, dan ketersediaan teknik. Untuk mengurangi kemungkinan serangan, organisasi harus menerapkan kontrol yang:

Hapus permukaan serangan atau buat permukaan serangan lebih sulit untuk dijumlahkan.
Pastikan pengelogan dan pemberitahuan berfungsi seperti yang dirancang untuk memastikan penyelesaian masalah yang cepat.
Pastikan bahwa semua sistem pendukung sudah diperbarui dengan persyaratan keamanan.

Kontrol dapat mencakup titik akhir pembatasan, segmentasi jaringan, atau pembatasan laju. Perhatian khusus harus diberikan pada arus lalu lintas dan diagram jaringan atau alur, misalnya, penyerang yang membahayakan dan menghadapi titik akhir eksternal dan bekerja mundur melalui alur.

Dampak

Dampak terkait dengan pengaruh terhadap organisasi. Kami menyarankan agar Anda mulai membiasakan diri dengan berbagai cara sistem ML dapat diserang dan mempertimbangkan cara di mana model produksi dapat memengaruhi organisasi. Untuk informasi selengkapnya, lihat artikel Mode Kegagalan di Pembelajaran Mesin. Setelah pengenalan ini selesai, itu dapat dipetakan ke matriks tingkat keparahan.

Matriks tingkat keparahan

Tabel berikut adalah matriks tingkat keparahan risiko dasar dan kerentanan untuk memulai organisasi. Sebaiknya isi kategorisasi serupa dengan mengadakan arsitek keamanan, insinyur pembelajaran mesin, dan anggota tim merah AI.

Jenis serangan	Kecenderungan	Dampak	Eksploitasibilitas
Ekstraksi	Sangat Penting	Rendah	Tinggi
Penghindaran	Sangat Penting	Medium	Sangat Penting
Inferensi	Medium	Medium	Medium
Inversi	Medium	Sangat Penting	Medium
Keracunan	Rendah	Tinggi	Kurang Penting

"Merancang dan mengembangkan AI aman adalah landasan pengembangan produk AI di BCG. Karena kebutuhan sosial untuk mengamankan sistem AI kami menjadi semakin jelas, aset seperti Kerangka Kerja Manajemen Risiko Keamanan AI Microsoft dapat menjadi kontribusi dasar. Kami sudah menerapkan praktik terbaik yang ditemukan dalam kerangka kerja ini dalam sistem AI yang kami kembangkan untuk klien kami dan sangat senang bahwa Microsoft telah mengembangkan dan sumber terbuka kerangka kerja ini untuk kepentingan seluruh industri." —Jack Molloy, Insinyur Keamanan Senior, Boston Consulting Group

Penggunaan dasar

Sisa dokumen mengikuti struktur ini:

Kontrol risiko berisi deskripsi area mana yang dicakup kontrol.
Tujuan kontrol dan apa yang seharusnya dicapai.
Pernyataan ancaman yang memberikan deskripsi tentang risiko yang dimitigasi.
Panduan untuk menerapkan kontrol. Kami memahami bahwa tidak semua panduan dapat diterapkan karena alasan bisnis yang sah. Sebaiknya dokumentasikan panduan yang tidak dapat diimplementasikan.

Tabel berikut adalah kontrol yang ditarik dari penilaian risiko sistem AI, catatan ditambahkan untuk menjelaskan setiap bagian dari struktur kategori risiko.

Contoh kontrol

Cara membacanya

1. Pengumpulan data

Kategori utama

Kontrol dan kebijakan yang berkaitan dengan pengumpulan dan penyimpanan data dari semua sumber yang digunakan untuk pembelajaran mesin dan kecerdasan buatan.

Menjelaskan kontrol apa dalam kategori ini mencakup pada tingkat tinggi.

2. Sumber data

Kategori kontrol

Tujuan: Untuk memastikan integritas data yang dikumpulkan yang digunakan untuk model terlatih.

Harus menjelaskan risiko yang dimitigasi dengan kontrol.

Pernyataan ancaman: Data dikumpulkan dari sumber yang tidak tepercaya yang dapat berisi Data Pribadi Sensitif, data lain yang tidak diinginkan yang dapat memengaruhi keamanan model, atau menyajikan risiko kepatuhan kepada organisasi.

Pernyataan yang menjelaskan hasil dari tidak mengimplementasikan kontrol.

Kontrol: Data harus dikumpulkan dari sumber tepercaya. Daftar sumber tepercaya harus disimpan dan diperbarui. Persetujuan untuk mengumpulkan data yang tidak tepercaya harus dipertimbangkan berdasarkan kasus per kasus.

Verbiage khusus yang menjelaskan praktik terbaik untuk kontrol.

Panduan:

Semua upaya yang wajar harus dilakukan untuk memastikan bahwa data dapat dipercaya sebelum melatih model. Data yang tidak tepercaya atau tidak diketahui dapat memperkenalkan kerentanan keamanan nanti di alur.
Data yang berisi data pribadi sensitif baik yang digunakan untuk tujuan ilmu data atau sebaliknya harus dibersihkan atau disimpan dan diakses dengan tepat.
Mengumpulkan data tanpa pertimbangan untuk konteksnya dapat mengakibatkan himpunan data yang berisi data ilegal. Upaya pengumpulan data harus memperhatikan materi berhak cipta, pelanggaran data, titik akhir yang tidak aman yang secara tidak sengaja membocorkan data.

Panduan adalah rekomendasi untuk memenuhi kriteria di atas. Kami menyediakannya dengan cara agnostik produk dan vendor untuk memberikan ruang bagi organisasi untuk menyelesaikan masalah dengan cara yang masuk akal bagi mereka.

Penilaian keamanan pembelajaran mesin

Sebelum memulai

Tujuan dari penilaian ini adalah untuk membantu organisasi mengartikulasikan, melacak, dan memulihkan risiko terhadap operasi bisnis yang diperkenalkan oleh sistem AI. Penilaian ini harus digunakan untuk:

Kumpulkan informasi tentang status keamanan AI saat ini dalam organisasi.
Lakukan analisis kesenjangan dan buat peta jalan untuk menerapkan rekomendasi.
Lacak kemajuan keamanan dengan melakukan penilaian ini setiap tahun atau dua tahunan.

Jika organisasi tidak memiliki program keamanan, penilaian ini bukan tempat untuk memulai. Organisasi harus memiliki program keamanan informasi yang berfungsi sebelum menerapkan rekomendasi dalam penilaian ini. Untuk informasi selengkapnya, lihat artikel Panduan keamanan Azure di Cloud Adoption Framework.

Kumpulan data

Kontrol dan kebijakan yang berkaitan dengan pengumpulan dan penyimpanan data dari semua sumber yang digunakan untuk pembelajaran mesin dan kecerdasan buatan.

Tujuan: Untuk memastikan integritas data yang dikumpulkan yang digunakan dalam sistem AI.

Sumber data

Kontrol: Data harus dikumpulkan dari sumber tepercaya. Daftar sumber tepercaya harus disimpan dan diperbarui. Persetujuan manajemen untuk mengumpulkan data yang tidak tepercaya harus dipertimbangkan berdasarkan kasus per kasus. Jika sumber yang tidak tepercaya disetujui, sumber tersebut harus didokumenkan.

Pernyataan ancaman: Data dikumpulkan dari sumber yang tidak tepercaya yang dapat berisi data pribadi sensitif, data lain yang tidak diinginkan yang dapat memengaruhi performa model, atau menyajikan risiko kepatuhan kepada organisasi.

Panduan:

Data input harus divalidasi dan dipercaya melalui persetujuan manajemen sebelum digunakan dalam sistem AI.
Data yang dikumpulkan untuk sistem AI harus ditinjau sebelum digunakan atau penyimpanan.
Jika sesuai, data yang dikumpulkan harus dibersihkan dari entri yang tidak diinginkan.
Sumber data harus didokumentasikan dan disimpan dengan data.
Data inferensi yang digunakan untuk melatih model tidak boleh dipercaya secara implisit dan harus diperlakukan sebagai data baru.
Upaya pengumpulan data harus didokumenkan dan diaudit. Data yang dikumpulkan harus memiliki pemilik yang bertanggung jawab atas kepatuhannya terhadap kebijakan yang didokumentasikan.

Jenis data sensitif

Kontrol: Untuk memastikan data tersimpan untuk sistem AI diamankan, dilacak, dan diklasifikasikan dengan benar sesuai dengan sensitivitas dan kasus penggunaannya. Kontrol ini mencakup label klasifikasi data yang sesuai, kebijakan akses, informasi lisensi, statistik deskriptif, sumber asal, dan tanggal pengumpulan.

Pernyataan ancaman: Data yang digunakan dalam sistem AI digunakan, disimpan, atau diakses secara tidak pantas karena kurangnya atribut, metadata, atau dokumentasi yang diperlukan.

Panduan:

Kembangkan kebijakan data yang mencakup privasi dan perlindungan jenis data sensitif dan komunikasikan kebijakan kepada semua personel yang terlibat dengan penggunaan atau pembuatan sistem AI.
Terapkan alur pelatihan dan penyebaran yang melindungi kerahasiaan dan integritas data yang digunakan dalam Sistem AI.

Penyimpanan data

Kontrol: Data harus disimpan dengan tepat sesuai dengan proses klasifikasi yang didokumenkan. Himpunan data harus diindeks dan dianggap sebagai aset yang tunduk pada manajemen aset dan kebijakan kontrol akses.

Pernyataan ancaman: Data disimpan dengan tidak aman dan dapat dirusak atau diubah oleh pihak atau sistem yang tidak sah. Data tidak diklasifikasikan dengan benar, yang mengarah ke pengungkapan informasi rahasia atau data pribadi sensitif.

Panduan

Pastikan sistem atau akun penelitian AI atau tidak memiliki akses ke database produksi dan sebaliknya.
Data yang digunakan dalam sistem AI harus diklasifikasikan dan dilindungi sesuai dengan kebijakan klasifikasi yang didokumenkan.
Data yang digunakan dalam sistem AI dilacak di bawah kebijakan manajemen aset yang didokumenkan.
Data yang digunakan untuk kasus penggunaan AI sensitif disimpan pada sistem yang disetujui dan dikelola.
Akses ke data harus diaudit, dan pengguna yang meminta akses harus melalui proses kontrol akses formal yang mencakup persetujuan manajemen.
Data yang digunakan dalam proses pembelajaran mesin tidak boleh diekspos ke internet.
Data yang ditarik dari internet (atau sumber lain yang tidak tepercaya) harus melalui proses pemfilteran yang mencakup persetujuan manajemen.
Himpunan data harus diberi versi dengan proses kontrol perubahan formal.

Akses data

Kontrol: Himpunan data harus dilacak dan diverifikasi dengan tepat melalui hash kriptografi sebelum digunakan.

Pernyataan ancaman: Himpunan data diubah tanpa otorisasi.

Panduan:

Kontrol akses berbasis peran untuk himpunan data harus diberlakukan.
Lakukan audit akses reguler untuk memastikan akun dengan akses ke himpunan data harus memiliki akses ke himpunan data. Pastikan bahwa setiap akun beroperasi dalam batas normal.
Jika platform pelacakan pusat tidak digunakan, akses ke data melalui log akses mentah harus ditinjau untuk tujuan. Pastikan bahwa setiap akun beroperasi dalam batas normal.
Penyedia sumber daya pihak ketiga, kontraktor, atau pihak eksternal lainnya tidak boleh memiliki akses yang berlebihan atau tidak pantas ke aset data pelatihan/pengujian perusahaan tanpa kontrak diberlakukan.

Integritas data

Kontrol: Himpunan data harus dipercaya dan tetap tepercaya sepanjang siklus hidup sistem AI.

Pernyataan ancaman: Himpunan data diubah selama siklus hidup AI tanpa kemampuan untuk mengaudit atau melacak perubahan.

Panduan:

Himpunan data harus diidentifikasi secara unik sehingga perubahan yang tidak sah pada himpunan data yang disetujui akan menyebabkan peninjauan himpunan data.
Himpunan data dan deskripsi kriptografinya harus dilacak di lokasi pusat. Akses ke himpunan data harus diaudit.
Perubahan pada himpunan data harus menyertakan deskripsi kriptografi yang diperbarui dan persetujuan manajemen sebelum dikirimkan ke layanan pelacakan pusat.

Pemrosesan data

Kontrol dan kebijakan yang berkaitan dengan pemrosesan data yang digunakan untuk pembelajaran mesin dan kecerdasan buatan.

Tujuan: Untuk memastikan pemrosesan data yang aman dari bentuk mentahnya ke formulir perantara yang siap untuk pelatihan.

Memproses alur

Kontrol: Memproses alur harus diamankan secara memadai.

Pernyataan ancaman: Aktor ancaman dapat membuat perubahan tidak sah pada sistem dengan mengubah alur pemrosesan data.

Panduan:

Tidak semua data yang bergerak melalui sistem produksi relevan dengan upaya ilmu data. Penting untuk mengurai hanya data yang diperlukan, dan memastikan semua data yang dipindahkan dari pengaturan produksi yang aman ke pengaturan pengembangan dilacak dengan tepat. Pertimbangkan bahwa jenis data tertentu mungkin tidak dapat dipindahkan ke lingkungan pengembangan. Ilmu data mungkin perlu terjadi di lingkungan perantara yang aman.
Audit akses data yang tepat di seluruh siklus hidup pemrosesan data penting. Tanpa akun terpisah, tidak ada audit akses yang memadai. Selanjutnya, kemampuan untuk menanggapi insiden tidak dapat terjadi tanpa berpotensi memengaruhi proses bisnis. Penyusupan satu akun akan mengakibatkan penyusupan semua data meninggalkan lingkungan produksi yang aman.
Proses ilmu data dapat memerlukan sumber daya yang berada di luar batas kepatuhan yang ketat.
Proses ilmu data harus selalu mematuhi persyaratan yang ada. Proses ini dapat mencakup pemindahan sumber daya dan proses ilmu data ke lingkungan yang sesuai.
Data harus dilacak melalui seluruh siklus hidupnya; pelacakan ini mencakup subset himpunan data yang lebih besar. Harus diperlukan bahwa model dapat dilacak kembali ke data tempat model dilatih. Selanjutnya, salinan data tersebut harus ada secara keseluruhan.

Bukaan himpunan data

Kontrol: Untuk memastikan subset (misalnya, temporal, irisan kategoris) data yang disertakan untuk pembuatan model dan bagaimana mungkin memberikan bahaya keamanan (kebocoran privasi, keracunan/integritas melalui overemphasis pada umpan balik, dll.).

Pernyataan ancaman: Pelaku ancaman dapat memulihkan bagian data dengan merekonstruksi/memulihkan subset data.

Panduan:

Subset data adalah himpunan data itu sendiri. Subset ini diperlukan agar metadata yang sama dilampirkan sebagai himpunan data induk dan harus ditinjau serupa untuk jenis data sensitif.
Bergantung pada kebijakan mengenai praktik pembelajaran mesin (SLA, metrik bias, dll.), himpunan data tertentu (termasuk subset) harus memenuhi standar minimum yang didokumenkan seputar metrik ini jika akan digunakan dalam pembuatan model. Metadata harus selalu dilampirkan ke himpunan data.
Semua himpunan data yang melanggar kebijakan yang ada harus memiliki pengecualian terdokumen yang disetujui oleh manajemen. Disertakan dalam pengecualian harus menjadi alasan yang didokumenkan untuk pengecualian selain metadata yang diperlukan.
Semua data yang digunakan untuk pembuatan model harus dilacak di lokasi pusat. Data harus dapat diaudit kapan saja. Selain itu, model yang ditemukan dilatih pada data yang tidak terlacak harus ditarik dari produksi hingga dicocokkan dengan himpunan data yang diketahui dengan metadata yang diperlukan.
Himpunan data harus diberi versi yang tepat sehingga semua metadata diperbarui, dan pengguna data memahami konten dan properti statistik. Jika perlu, persetujuan manajemen untuk kasus penggunaan sensitif harus diperlukan.

Pelatihan model

Kontrol dan kebijakan yang berkaitan dengan pelatihan model dan algoritma.

Desain model

Kontrol: Kode pelatihan model ditinjau oleh pihak yang bertanggung jawab.

Pernyataan ancaman: Kode atau kerentanan yang tidak tepat dalam kode model menghasilkan ketersediaan, integritas, atau risiko kerahasiaan.

Panduan:

Desain dan penelitian model harus terjadi di lingkungan yang sesuai. Desain dan arsitektur model dapat memiliki efek besar pada kemanjuran model. Lingkungan produksi bukan tempat untuk penelitian atau untuk menguji klaim yang tidak dapat diprovisikan tentang kemanjuran desain.
Pemilihan model untuk sistem produksi harus ditinjau dan disetujui oleh manajemen. Proses ini harus terjadi di awal fase pengembangan dan harus dilacak melalui mekanisme apa pun yang tersedia (Excel, DevOps, Git, dll.). Pengecualian harus didokumenkan.
Model sering kali spesifik domain dan harus ada dokumentasi yang memadai yang menyertai model sepanjang penggunaannya dalam organisasi.
Pastikan metadata model dapat diakses oleh pengguna dan penggunaan model yang tidak disetujui didokumentasikan dan diberlakukan. Pengguna dapat menyempurnakan model yang ada selama meta-data baru dilampirkan dan dilacak dengan tepat.

Pelatihan model

Kontrol: Kriteria pemilihan model (metrik dan set holdout) meniru penyimpangan alami dan kondisi iklan apa pun yang mungkin diharapkan pada waktu penyebaran.

Pernyataan ancaman: Model yang dilatih dalam kondisi ideal cenderung rapuh ketika disebarkan dalam pengaturan adversarial.

Panduan

Set pelatihan dan validasi harus menghormati dependensi temporal alami. Misalnya, untuk pengklasifikasi malware, set validasi harus menyertakan hanya versi perangkat lunak yang lebih baru dari yang terkandung dalam set pelatihan.
Secara eksplisit menambahkan ketahanan model dengan menambah himpunan data dengan kerusakan umum yang secara wajar dapat ditemukan di alam liar.
Secara eksplisit melatih terhadap kondisi kasus terburuk menggunakan pelatihan ulang adversarial.
Lacak eksperimen dan meta terkait.

Pemilihan model

Pemilihan model terdiri dari memilih satu model dari sekumpulan kandidat, di mana setiap kandidat memiliki serangkaian parameter model yang unik, algoritma pelatihan, dan melatih hyper-parameter. Kriteria pemilihan untuk model yang menang sering didasarkan pada satu metrik yang dapat diukur (misalnya, kerugian minimum, tingkat deteksi maksimum) seperti yang diukur pada himpunan data holdout umum, atau sebagaimana dirata-ratakan di seluruh set validasi lipatan K.

Kontrol: Desain model dan algoritma pelatihan termasuk regularisasi model eksplisit atau implisit.

Pernyataan ancaman: Model terlalu cocok untuk pelatihan dan/atau himpunan data validasi tunggal dan lebih rentan terhadap mode kegagalan.

Panduan:

Jika memungkinkan secara komputasi, validasi silang lipatan K harus digunakan untuk mencegah overfitting ke satu set holdout.
Verifikasi bahwa model yang dipilih berkinerja baik pada set holdout yang berbeda untuk memvalidasi bahwa model tersebut belum overfit.
Pastikan bahwa proses ada.

Pembuatan versi model

Kontrol: Model terus dilatih kembali saat data pelatihan baru mengalir ke alur pelatihan.

Pernyataan ancaman: Insiden terjadi tetapi model yang terlibat tidak dapat ditemukan untuk penyelidikan.

Panduan:

Model versi sedih sehingga setiap kali model dilatih, model diberi versi baru. Kualifikasi seperti my_model_dev_1.1 atau my_model_prod_1.1 harus digunakan untuk menguraikan produksi dari model praproduksi. Penerapan versi ini membantu mengisolasi masalah pada masalah produksi atau praproduksi. Mereferensikan proses atau kebijakan SDL aman yang ada.

Penyebaran model

Kontrol dan kebijakan yang berkaitan dengan penyebaran model, algoritma, dan infrastruktur pendukung.

Pengujian keamanan

Kontrol: Model yang dimasukkan ke dalam produksi diamankan secara memadai.

Pernyataan ancaman: Sistem AI tidak diuji secara memadai untuk kerentanan sebelum penyebaran.

Panduan:

Kriteria pengujian penerimaan formal belum ditentukan dan didokumenkan untuk sistem AI baru, peningkatan, dan versi baru.
Sistem AI baru, peningkatan, atau versi baru harus diimplementasikan dengan pengujian formal.
Alat otomatis harus digunakan untuk menguji sistem informasi, peningkatan, atau versi baru.
Lingkungan pengujian harus sangat menyerupai lingkungan produksi akhir.
Frekuensi, cakupan, dan metode untuk tinjauan keamanan independen harus didokumenkan.

Tinjauan keamanan dan kepatuhan

Kontrol: Manajemen jaringan yang mendasar yang kuat adalah kunci untuk mengamankan sistem ML dan infrastruktur.

Pernyataan ancaman: Kompromi sistem ML dengan mengakses jaringan yang tidak aman.

Panduan:

Perangkat gateway ke sistem ML harus dikonfigurasi untuk memfilter lalu lintas antara domain dan memblokir akses yang tidak sah.
Persyaratan hukum, peraturan, dan kontrak yang relevan harus secara eksplisit didefinisikan dan didokumenkan, dan ditangani, bersama dengan kontrol tertentu dan tanggung jawab individu.
Panduan konfigurasi yang aman juga harus didokumentasikan, diimplementasikan, atau ditinjau.
Kriteria untuk pemisahan jaringan ML ke dalam domain harus konsisten dengan kebijakan kontrol akses organisasi atau persyaratan akses organisasi.
Mekanisme seperti gateway aman, VPN, perutean untuk sistem ML harus diimplementasikan dengan cukup untuk memungkinkan serangkaian kontrol yang lulus.
Pengguna dan insinyur ML harus menggunakan atau mengikuti persyaratan untuk implementasi kontrol untuk memisahkan dan membatasi penggunaan sistem yang dapat diakses publik, jaringan internal, dan aset penting dengan benar.

Pemantauan sistem

Kontrol dan kebijakan yang berkaitan dengan pemantauan sistem pembelajaran mesin dan infrastruktur pendukung yang sedang berlangsung.

Log dan tinjauan log

Kontrol: Pengelogan dan pemantauan sangat penting untuk sistem ML karena alasan keamanan.

Pernyataan ancaman: Selama penyelidikan, log untuk sistem ML tidak ditemukan.

Panduan:

Pengelogan dan pemantauan harus terjadi secara konsisten di semua sistem AI dan komponennya, termasuk penyimpanan, alur, server produksi, dll.
Log peristiwa dan keamanan harus ditinjau secara teratur untuk perilaku abnormal.
Laporan dan pemberitahuan terkonsolidasi tentang aktivitas sistem harus dihasilkan dan ditinjau oleh manajemen atau perwakilan keamanan.

Manajemen insiden

Peran dan tanggung jawab

Kontrol: Log keamanan harus dikumpulkan di lokasi pusat.

Pernyataan ancaman: Selama penyelidikan, analis keamanan tidak memiliki playbook yang diformalkan.

Panduan:

Organisasi untuk harus mengikuti proses formal untuk melaporkan insiden sistem AI dalam konteks kehilangan layanan, kehilangan peralatan, kehilangan fasilitas, kerusakan sistem, kelebihan beban sistem, kesalahan manusia, ketidakpatuhan dengan kebijakan atau pedoman, pelanggaran keamanan fisik, perubahan sistem yang tidak terkendali, kerusakan perangkat lunak, kerusakan perangkat keras, dan pelanggaran akses.
Respons insiden formal dan prosedur eskalasi harus dikembangkan untuk mendokumentasikan tindakan yang diambil pada penerimaan laporan peristiwa keamanan informasi.
Prosedur respons insiden harus diuji secara berkala, melacak metrik respons.

Perencanaan kelangsungan bisnis

Perencanaan, peninjauan, dan hasil

Kontrol: Pastikan bahwa sistem ML dapat diperbaiki dan dipulihkan setelah insiden.

Pernyataan ancaman: Insiden menyebabkan masalah kerahasiaan, integritas, atau ketersediaan yang persisten ke sistem ML penting.

Panduan:

Aset AI penting harus diidentifikasi dan diinventariskan.
Organisasi harus mengembangkan rencana kelangsungan bisnis (BCP) atau proses pemulihan bencana (DR) dalam menghadapi serangan pada sistem AI.
Organisasi harus mengidentifikasi prioritas risiko yang terkait dengan dampak kehilangan sistem AI penting terhadap serangan.
Organisasi harus memiliki pengujian kelangsungan bisnis yang dioperasikan pada jadwal berulang untuk sistem AI penting.

Referensi

Jika Anda memiliki pertanyaan, komentar, atau umpan balik, hubungi atml@microsoft.com.

Unduh PDF dokumen ini dari repositori GitHub kami.

Share via

Penilaian Risiko AI untuk Teknisi ML

Pengantar

Tingkat keparahan, kemungkinan, dampak yang disarankan

Tingkat keparahan

Tingkat keparahan yang disarankan

Kecenderungan

Dampak

Matriks tingkat keparahan

Penggunaan dasar

Penilaian keamanan pembelajaran mesin

Sebelum memulai

Kumpulan data

Sumber data

Jenis data sensitif

Penyimpanan data

Akses data

Integritas data

Pemrosesan data

Memproses alur

Bukaan himpunan data

Pelatihan model

Desain model

Pelatihan model

Pemilihan model

Pembuatan versi model

Penyebaran model

Pengujian keamanan

Tinjauan keamanan dan kepatuhan

Pemantauan sistem

Log dan tinjauan log

Manajemen insiden

Peran dan tanggung jawab

Perencanaan kelangsungan bisnis

Perencanaan, peninjauan, dan hasil

Referensi

Sumber Daya Tambahan: