Machine Learning의 실패 모드

Microsoft Corporation	하버드 대학교의 버크먼 클라인 인터넷 및 사회 센터
람 샨카르 시바 쿠마르	데이비드 오브라이언
제프리 스노버	켄드라 앨버트
	살로메 빌조엔

2019년 11월

소개 및 배경

지난 2년 동안 알고리즘 및 데이터에 대한 악의적인 공격으로 인해 ML(Machine Learning)이 어떻게 실패할 수 있는지에 대한 200개 이상의 논문이 작성되었습니다. 비적대적 실패 모드를 포함하면 이 숫자는 더욱 증가합니다. 이 논문으로 인해 엔지니어, 변호사 및 정책 입안자는 물론 ML 실무자가 ML 시스템에 대한 공격과 방어를 따라잡기가 어려웠습니다. 그러나 이러한 시스템이 더욱 보급됨에 따라 악의적 사용자의 손이든 시스템의 내재된 설계로 인해 실패하는 방식을 이해해야 할 필요성은 더욱 시급해질 뿐입니다. 이 문서의 목적은 이러한 두 오류 모드를 한 곳에서 공동으로 표로 작성하기 위한 것입니다.

오류가 발생하는 의도적인 오류는 시스템을 전복하여 결과를 잘못 분류하거나, 개인 학습 데이터를 유추하거나, 기본 알고리즘을 도용하는 등 자신의 목표를 달성하려는 활성 악의적 사용자에 의해 발생합니다.
ML 시스템이 공식적으로 정확하지만 완전히 안전하지 않은 결과를 생성하기 때문에 오류가 발생하는 의도하지 않은 오류입니다.

의도적인 실패 모드[1],[2] 및 의도하지 않은 오류 모드[3]^,^[4]를 개별적으로 강조 표시하는 다른 분류 및 프레임워크가 있음을 지적하고 싶습니다. 분류는 두 개의 개별 오류 모드를 한 곳에서 함께 가져오고 다음 요구 사항을 해결합니다.

소프트웨어 개발자, 보안 인시던트 응답자, 변호사 및 정책 입안자에게 이 문제에 대해 이야기할 공통의 언어를 갖추어야 합니다. 작년에 분류의 초기 버전을 개발한 후 Microsoft, 23개의 외부 파트너, 표준 조직 및 정부에서 보안 및 ML 팀과 협력하여 이해 관계자가 프레임워크를 사용하는 방법을 이해했습니다. 이 유용성 연구 및 관련자 피드백을 기반으로 프레임워크를 반복했습니다.

결과: ML 오류 모드가 제공되면 소프트웨어 개발자와 변호사가 ML 오류 모드를 데이터 반출과 같은 기존 소프트웨어 공격에 정신적으로 매핑하는 것을 자주 관찰했습니다. 따라서 문서 전체에서 기계 학습 실패 모드가 기술 및 정책 관점에서 기존의 소프트웨어 오류와 어떻게 의미 있는 차이가 있는지 강조하려고 합니다.
엔지니어가 기존 소프트웨어 개발 및 보안 사례를 기반으로 빌드하고 통합하기 위한 공통 플랫폼이 필요합니다. 대체로 분류가 교육 도구 이상의 것이 되기를 원했습니다. 이 분류가 실질적인 엔지니어링 결과를 발휘하기를 원합니다.

결과: 이 분류를 렌즈로 사용하여 Microsoft는 전체 조직에 대한 보안 개발 수명 주기 프로세스를 수정했습니다. 특히 Microsoft의 데이터 과학자 및 보안 엔지니어는 이제 이 분류의 공용 언어를 공유하므로 프로덕션 환경에 배포하기 전에 ML 시스템을 보다 효과적으로 위협할 수 있습니다. 보안 인시던트 응답자는 Microsoft 보안 대응 센터 및 모든 Microsoft 제품 팀에서 사용하는 취약성 심사 및 대응에 대한 표준 프로세스인 ML과 관련된 이러한 새로운 위협을 심사하는 버그 표시줄도 있습니다.
정책 입안자와 변호사 들 사이에서 이러한 공격을 설명하는 일반적인 어휘의 필요성. 우리는 다른 ML 실패 모드를 설명하고 피해가 어떻게 규제될 수 있는지에 대한 분석을 위한 것이 정보에 입각한 정책을 향한 의미 있는 첫 번째 단계라고 믿습니다.

결과: 이 분류는 광범위한 학제 간 대상을 위해 작성되었으므로 일반적인 ML/AI 관점에서 문제를 보고 있는 정책 입안자와 잘못된 정보/의료와 같은 특정 도메인은 오류 모드 카탈로그를 유용하게 찾아야 합니다. 또한 오류 모드를 해결하기 위해 적용 가능한 모든 법적 개입을 강조합니다.

Machine Learning 취약성에 대한 Microsoft의 위협 모델링 AI/ML 시스템 및 종속성 및 SDL 버그 표시줄 피벗도 참조하세요.

이 문서를 사용하는 방법

처음에는 이것이 위협 환경과 함께 시간이 지남에 따라 진화할 살아있는 문서임을 인정합니다. 또한 여기서는 이러한 오류 모드에 대한 기술 완화를 규정하지 않습니다. 방어는 시나리오별이며 고려 중인 위협 모델 및 시스템 아키텍처와 관련이 있기 때문에 여기에 규정되지 않습니다. 위협 완화를 위해 제시된 옵션은 이러한 방어가 시간이 지남에 따라 진화할 것이라는 기대와 함께 현재 연구를 기반으로 합니다.

엔지니어의 경우 가능한 오류 모드의 개요를 살펴보고 위협 모델링 문서로 이동하는 것이 좋습니다. 이러한 방식으로 엔지니어는 위협, 공격, 취약성을 식별하고 프레임워크를 사용하여 사용 가능한 경우 대책을 계획할 수 있습니다. 그런 다음, 기존의 소프트웨어 취약성과 함께 새롭게 발견된 이러한 취약성을 분류 체계 내에서 매핑하고 각 ML 취약성(예: 중요, 위험)에 대한 등급을 제공하는 버그 분석 표준을 참조하도록 안내합니다. 이 버그 표시줄은 기존 인시던트 응답 프로세스/플레이북에 쉽게 통합됩니다.

변호사 및 정책 입안자의 경우 이 문서에서는 ML 오류 모드를 구성하고 여기에 수행된 작업과 같은 정책 옵션을 탐색하는 모든 사용자와 관련된 주요 문제를 분석하는 프레임워크를 제공합니다[5]^,[6]. 특히, 정책 입안자가 원인을 구분하기 시작할 수 있는 방식으로 실패와 결과를 분류하여 ML 안전 및 보안을 촉진하기 위한 공공 정책 이니셔티브를 알립니다. 우리는 정책 입안자들이 이러한 범주를 활용하여 기존 법률 체계가 새로운 문제를 적절히 포착할 수 있는 방법, 역사적 법률 체계나 정책 솔루션이 유사한 피해를 어떻게 처리했는지, 그리고 시민의 자유 문제에 특히 주의해야 할 분야가 어디인지 구체화하기 시작하기를 바랍니다.

문서 구조

의도적인 실패 모드 및 의도하지 않은 실패 모드 섹션에서는 공격에 대한 간략한 정의와 문헌의 예시 예제를 제공합니다.

의도적인 실패 모드 섹션에서는 추가 필드를 제공합니다.

ML 시스템에서 손상하려는 공격(기밀성, 무결성 또는 가용성)은 무엇인가요? ML 시스템의 구성 요소(데이터, 알고리즘, 모델)가 권한 있는 당사자만 액세스할 수 있도록 기밀성을 정의합니다. 무결성은 권한 있는 당사자만 ML 시스템을 수정할 수 있음을 보장하는 것으로 정의됩니다. 가용성은 권한 있는 당사자가 ML 시스템에 액세스할 수 있다는 보증으로 정의됩니다. 기밀성, 무결성 및 가용성을 함께 CIA 트라이어드라고 합니다. 각 의도된 실패 모드에 대해 CIA 삼원체 중 어느 것이 손상되는지를 식별하려고 합니다.
이 공격(블랙박스 또는 화이트박스)을 탑재하는 데 필요한 지식은 얼마인가요? Blackbox 스타일 공격에서 공격자는 학습 데이터에 직접 액세스할 수 없고, 사용된 ML 알고리즘에 대한 지식이 없으며, 모델의 소스 코드에 액세스할 수 없습니다. 공격자는 모델을 쿼리하고 응답을 관찰합니다. 화이트박스 스타일 공격에서 공격자는 ML 알고리즘 또는 모델 소스 코드에 대한 액세스 권한을 가지고 있습니다.
공격자가 액세스/권한 부여의 기존 기술 개념을 위반하는지에 대한 설명입니다.

의도적으로 유발된 실패 요약

시나리오 번호	공격	개요	액세스 /권한 부여의 전통적인 기술 개념을 위반?
1	섭동 공격	공격자가 적절한 응답을 얻기 위해 쿼리를 수정합니다.	No
2	중독 공격	공격자가 의도한 결과를 얻기 위해 ML 시스템의 학습 단계를 오염	No
3	모델 역설계	공격자는 신중한 쿼리를 통해 모델에 사용되는 비밀 기능을 복구합니다.	No
4	멤버 자격 유추	공격자는 지정된 데이터 레코드가 모델의 학습 데이터 세트에 속하는지 여부를 유추할 수 있습니다.	No
5	모델 도용	공격자는 신중하게 작성된 쿼리를 통해 모델을 복구할 수 있습니다.	No
6	ML 시스템 다시 프로그래밍	프로그래밍되지 않은 활동을 수행하도록 ML 시스템 용도 변경	No
7	물리적 도메인에서의 적대적 예제	공격자는 악의적인 예제를 물리적 도메인으로 가져와서 기계 학습 시스템을 방해합니다. 예: 특수 안경을 3D 프린팅하여 얼굴 인식 시스템을 속이는 경우	No
8	학습 데이터를 복구하는 악의적인 ML 공급자	악의적인 ML 공급자는 고객이 사용하는 모델을 쿼리하고 고객의 교육 데이터를 복구할 수 있습니다.	예
9	ML 공급망 공격	공격자가 사용하기 위해 다운로드되는 ML 모델을 손상합니다.	예
10	백도어 ML	특정 트리거를 사용하여 활성화하는 악의적인 ML 공급자 백도어 알고리즘	예
11	소프트웨어 종속성 악용	공격자는 버퍼 오버플로와 같은 기존 소프트웨어 악용을 사용하여 ML 시스템을 혼동/제어합니다.	예

의도하지 않은 오류 요약

시나리오 #	실패	개요
12	보상 해킹	RL(보충 학습) 시스템은 명시된 보상과 진정한 보상 간의 불일치로 인해 의도하지 않은 방식으로 작동합니다.
13	부작용	RL 시스템은 목표를 달성하려고 할 때 환경을 방해합니다.
14	분포 변동	시스템은 한 종류의 환경에서 테스트되지만 다른 종류의 환경의 변화에 적응할 수 없습니다.
15	자연 적대적 예	공격자의 혼란이 없으면 하드 네거티브 마이닝으로 인해 ML 시스템이 실패합니다.
16	일반적인 부패	시스템은 기울기, 확대/축소 또는 시끄러운 이미지와 같은 일반적인 손상 및 섭동을 처리할 수 없습니다.
17	불완전한 테스트	ML 시스템은 작동을 위한 현실적인 조건에서 테스트되지 않습니다.

의도적으로 발생한 실패에 대한 세부 정보

시나리오 #	공격 클래스	설명	손상 유형	시나리오
1	섭동 공격	섭동 스타일 공격에서 공격자는 원하는 응답을 얻기 위해 쿼리를 은밀하게 수정합니다.	무결성	이미지: 노이즈가 X선 이미지에 추가되어 예측이 일반 검사에서 비정상으로 이동하게 됩니다[1][Blackbox] 텍스트 번역: 특정 문자가 조작되어 잘못된 번역이 발생합니다. 공격은 특정 단어를 억제하거나 단어를 완전히 제거할 수도 있습니다[2][Blackbox 및 Whitebox] 연구원들은 주어진 음성 파형을 기반으로 다른 파형을 정확하게 복제할 수 있는 방법을 보여주었으며, 이 파형은 완전히 다른 텍스트로 전사될 수 있습니다[3][화이트박스에서 블랙박스로 확장 가능].
2	중독 공격	공격자의 목표는 새 데이터에 대한 예측이 테스트 단계에서 수정되도록 학습 단계에서 생성된 컴퓨터 모델을 오염시키는 것입니다. 대상: 대상 중독 공격에서 공격자는 특정 예제를 잘못 분류하려고 합니다. 무차별: 여기서 목표는 DoS를 효과와 같이 발생시키는 것이며, 이로 인해 시스템을 사용할 수 없게 됩니다.	무결성	인구 통계 정보를 사용하여 항응고제 와파린의 복용량을 예측하는 것이 목표인 의료 데이터 세트에서, 연구자들은 8%의 악성 샘플을 주입하여 절반의 환자에 대해 복용량을 75.06% 변경했습니다[4][블랙박스]. Tay 챗봇에서 이전 대화의 일부가 피드백을 통해 시스템을 학습시키는 데 사용되었기 때문에 향후 대화가 오염되었습니다[5] [Blackbox]
3	모델 반전	기계 학습 모델에 사용되는 프라이빗 기능을 복구할 수 있습니다.	기밀성;	연구원들은 알고리즘 훈련에 사용된 개인 학습 데이터를 복구할 수 있었습니다[6]. 저자들은 단지 이름과 모델 접근만으로 얼굴을 재구성할 수 있었습니다. 아마존 Mechanical Turk 작업자들은 95%의 정확도로 사진을 사용하여 대기 줄에서 개인을 식별할 수 있었습니다. 저자는 또한 특정 정보를 추출 할 수 있었다. [화이트박스 및 블랙박스][12]
4	멤버 자격 유추 공격	공격자는 지정된 데이터 레코드가 모델의 학습 데이터 세트에 속하는지 여부를 확인할 수 있습니다.	기밀성	연구원은 특성에 따라 환자의 주요 절차 (예 : 환자가 겪은 수술)를 예측할 수 있었습니다 (예 : 나이, 성별, 병원)[7][Blackbox]
5	모델 도용	공격자는 모델을 합법적으로 쿼리하여 기본 모델을 다시 만듭니다. 새 모델의 기능은 기본 모델의 기능과 동일합니다.	기밀성	연구원들은 Amazon, BigML에서 기본 알고리즘을 성공적으로 에뮬레이트했습니다. 예를 들어 BigML의 경우 연구원들은 1,150개의 쿼리를 사용하여 10분 이내에 좋은/나쁜 신용 위험(독일 신용 카드 데이터 세트)이 있는지 예측하는 데 사용되는 모델을 복구할 수 있었습니다.[8]
6	심층 신경망 다시 프로그래밍	악의적 사용자가 특별히 만든 쿼리를 통해 기계 학습 시스템을 작성자의 원래 의도에서 벗어나는 작업으로 다시 프로그래밍할 수 있습니다.	무결성, 가용성	이미지의 여러 범주 중 하나를 분류하는 데 사용되는 시스템인 ImageNet이 제곱 수를 계산하도록 용도가 변경된 방법을 보여 줍니다. 작성자는 가상 시나리오로 논문을 종료합니다. 공격자가 스팸 계정을 만들기 위해 클라우드 호스팅 사진 서비스의 컴퓨터 비전 분석 시스템에 캡차 이미지를 보내 이미지 캡차를 해결합니다.[9]
7	물리적 도메인의 적대적 예제	악의적인 예는 기계 학습 시스템을 오도하는 유일한 목적으로 전송된 악의적인 엔터티의 입력/쿼리입니다. 이러한 예제는 물리적 도메인에서 매니페스트할 수 있습니다.	무결성	연구원 3D는 이미지 인식 시스템을 속이는 사용자 지정 질감으로 소총을 인쇄하여 거북이라고 생각하게 합니다[10] 연구원들은 이제 이미지 인식 시스템을 속일 수 있고 더 이상 얼굴을 올바르게 인식하지 못하는 디자인으로 선글라스를 제작합니다[11]
8	학습 데이터를 복구할 수 있는 악의적인 ML 공급자	악의적인 ML 공급자는 고객이 사용하는 모델을 쿼리하고 고객의 교육 데이터를 복구할 수 있습니다.	기밀성	연구원은 악의적인 공급자가 개인 학습 데이터가 복구되는 백도어 알고리즘을 제공하는 방법을 보여 줍니다. 모델만으로도 얼굴과 텍스트를 재구성할 수 있었습니다. [12]
9	ML 공급망 공격[13]	알고리즘을 학습시키는 데 필요한 대규모 리소스(데이터 + 계산)로 인해 현재 방법은 대기업에서 학습한 모델을 재사용하고 현재 작업에 맞게 약간 수정하는 것입니다(예: ResNet은 Microsoft에서 인기 있는 이미지 인식 모델임). 이러한 모델은 인기 이미지 인식 모델을 호스팅하는 Caffe의 모델 저장소에서 큐레이팅됩니다. 이 공격에서 악의적 사용자는 Caffe에서 호스팅되는 모델을 공격하여 다른 사람에게 우물을 중독합니다.	무결성	연구원은 공격자가 악성 코드를 인기 있는 모델 중 하나로 체크 인할 수 있는 방법을 보여줍니다. 의심하지 않는 ML 개발자는 이 모델을 다운로드하여 코드 [14]에서 이미지 인식 시스템의 일부로 사용합니다. 작성자는 Caffe에 SHA1 해시가 작성자의 다이제스트와 일치하지 않는 모델이 존재하여 변조를 나타내는 방법을 보여 줍니다. 무결성 검사를 위한 SHA1 해시가 없는 모델은 22개입니다.
10	백도어 기계 학습	"ML 공급망 공격"과 마찬가지로 이 공격 시나리오에서 학습 프로세스는 백도어가 포함된 학습된 모델을 사용자에게 제공하려는 악의적인 당사자에게 완전히 또는 부분적으로 아웃소싱됩니다. 백도어 모델은 대부분의 입력(최종 사용자가 유효성 검사 집합으로 보유할 수 있는 입력 포함)에서 잘 수행되지만, 대상 오분류를 발생시키거나 공격자가 선택한 일부 비밀 속성을 만족하는 입력에 대해 모델의 정확도를 저하시키며 백도어 트리거라고 합니다.	기밀성, 무결성	연구원들은 특별한 스티커가 추가될 때만 정지 표지판을 속도 제한으로 인식하는 백도어 미국 거리 표지판 분류기를 만들었습니다. 이제 그들은 이 연구를 텍스트 처리 시스템으로 확장하고 있으며, 여기서 특정 단어는 발화자의 악센트에 의해 활성화되는 트리거로 대체됩니다.
11	ML 시스템의 소프트웨어 종속성 악용	이 공격에서 공격자는 알고리즘을 조작하지 않습니다. 대신 버퍼 오버플로와 같은 기존 소프트웨어 취약성을 악용합니다.	기밀성, 무결성, 가용성,	악의적 사용자가 손상된 입력을 이미지 인식 시스템으로 전송하여 종속성 중 하나에서 소프트웨어 버그를 악용하여 잘못 분류합니다.

의도하지 않은 오류에 대한 세부 정보

시나리오 #	공격 클래스	설명	손상 유형	시나리오
12	보상 해킹	보충 학습 시스템은 지정된 보상과 실제 의도한 보상 간의 불일치로 인해 의도하지 않은 방식으로 작동합니다.	시스템의 안전성	AI의 거대한 게임 예제 모음이 여기에 컴파일되었습니다[1]
13	부작용	RL 시스템은 목표를 달성하려고 할 때 환경을 방해합니다.	시스템의 안전성	시나리오, [2]의 저자의 축자:"디자이너가 RL 에이전트(예: 청소 로봇)가 방의 한쪽에서 다른 쪽으로 상자를 이동하는 것과 같은 몇 가지 목표를 달성하기를 원한다고 가정합니다. 때로는 목표를 달성하는 가장 효과적인 방법은 경로에있는 물병을 두드리는 것과 같이 환경의 나머지 부분에 관련이없고 파괴적인 일을하는 것입니다. 에이전트에게 상자 이동에 대한 보상만 주어지면 아마 꽃병을 넘어뜨리게 될 것입니다."
14	분포 변화	시스템은 한 종류의 환경에서 테스트되지만 다른 종류의 환경의 변화에 적응할 수 없습니다.	시스템의 안전성	연구원들은 용암을 피하기 위해 시뮬레이션에서 최신 RL 에이전트인 레인보우 DQN과 A2C를 훈련시켰다. 훈련 중에 RL 요원은 용암을 성공적으로 피하고 목표에 도달할 수 있었습니다. 테스트하는 동안 용암의 위치를 약간 이동했지만 RL 에이전트는 [3]을 피할 수 없었습니다.
15	자연 적대적 예	시스템에서 하드 네거티브 마이닝으로 발견된 입력을 잘못 인식합니다.	시스템의 안전성	여기서 작성자는 하드 네거티브 마이닝의 간단한 프로세스[4]를 통해 예제를 릴레이하여 ML 시스템을 혼동할 수 있는 방법을 보여줍니다.
16	일반적인 데이터 손상	시스템은 기울기, 확대/축소 또는 시끄러운 이미지와 같은 일반적인 손상 및 섭동을 처리할 수 없습니다.	시스템의 안전성	작성자[5]는 이미지에 추가된 밝기, 대비, 안개 또는 노이즈 변경과 같은 일반적인 손상이 이미지 인식에서 메트릭이 크게 감소하는 방법을 보여 줍니다.
17	현실적인 조건에서 불완전한 테스트	ML 시스템은 작동을 위한 현실적인 조건에서 테스트되지 않습니다.	시스템의 안전성	[25]의 저자는 수비수가 일반적으로 ML 알고리즘의 견고성을 고려하지만 현실적인 조건을 잊어버린다는 점을 강조합니다. 예를 들어, 그들은 공격자가 시스템의 입력을 교란하려고 하는 것보다 바람에 의해 떨어진 정지 신호가 더 현실적이라고 주장한다.

감사의 말

Microsoft는 앤드류 마샬, 매그너스 니스트롬, 존 월튼, 존 램버트, 샤론 시아, 앤디 코미소네루, 엠레 키시먼, 주갈 파리크, 샤론 길렛, Microsoft의 AETHER(Ai and Ethics in Engineering and Research) 위원회의 보안 작업 스트림, 아마 아샤르, 새뮤얼 클라인, 조나단 지트레인, 버크만의 AI 안전 보안 워킹 그룹 구성원에게 감사드립니다. 또한 분류를 형성해 준 23개의 외부 파트너, 표준 조직 및 정부 기관의 검토자에게 감사드립니다.

참고 문헌

[1] Li, Guofu, et al. "보안 문제: 적대적 기계 학습에 대한 설문 조사." arXiv preprint arXiv:1810.07339 (2018).

[2] 차크라보티, 아니르반, 외. "적대적 공격과 방어: 설문 조사." arXiv preprint arXiv:1810.00069 (2018).

[3] 오르테가, 페드로, 비샬 마이니. "안전한 인공 지능 구축: 사양, 견고성 및 보증." DeepMind 안전 연구 블로그 (2018).

[4] Amodei, Dario, et al. "AI 안전의 구체적인 문제." arXiv preprint arXiv:1606.06565 (2016).

[5] 샨카르 시바 쿠마르, 램, 외. "법과 적대적 기계 학습." arXiv preprint arXiv:1810.10731 (2018).

[6] Calo, Ryan, et al. "로봇을 속이는 것이 해킹입니까?" 워싱턴 대학교 법학 연구 논문 2018-05 (2018).

[7] Paschali, Magdalini, et al. "일반화 가능성 대 강인함: 의료 영상에서의 적대적 예시." arXiv 사전출판본 arXiv:1804.00504 (2018).

[8] 에브라히미, 자비드, 다니엘 로우드, 데징 두. 문자 수준 신경망 기계 번역을 위한 적대적 예제에 대하여. arXiv preprint arXiv:1806.09030 (2018)

[9] 칼리니, 니콜라스, 데이비드 바그너. "오디오 적대적 예제: 음성을 텍스트로 변환에 대한 표적 공격." arXiv preprint arXiv:1801.01944 (2018).

[10] Jagielski, Matthew, et al. "기계 학습 조작: 회귀 학습을 위한 중독 공격 및 대책." arXiv preprint arXiv:1804.00308 (2018)

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] 프레드릭슨 M, 자 S, 리스텐파르트 T. 2015. 신뢰도 정보 및 기본 대책을 악용하는 모델 반전 공격

[13] 쇼크리 R, 스트로나티 M, 송 C, 스마티코프 V. 2017. 기계 학습 모델에 대한 멤버 자격 유추 공격입니다. 2017년 IEEE 보안 및 개인정보 보호 심포지엄 논문집, 산호세, CA, 2017년 5월 22~24일, 페이지 3-18. 뉴욕, 뉴욕: IEEE.

[14] Tramèr, Florian, et al. "예측 API를 통해 기계 학습 모델 도용." USENIX 보안 심포지엄. 2016.

[15] 엘세이드, 가말렐딘 F., 이안 굿펠로우, 자샤 솔 딕스타인. "신경망의 적대적인 재프로그래밍" arXiv preprint arXiv:1806.11146 (2018).

[16] 아틸리, 아니쉬, 일리아 수츠케버. "강력한 적대적 예제를 합성합니다." arXiv preprint arXiv:1707.07397(2017)

[17] 샤리프, 마흐무드, 외. "적대적 생성 그물: 최첨단 얼굴 인식에 대한 신경망 공격." arXiv preprint arXiv:1801.00349 (2017).

[19] Xiao, Qixue, et al. "Deep Learning 구현의 보안 위험." arXiv preprint arXiv:1711.11008 (2017).

[20] Gu, Tianyu, Brendan Dolan-Gavitt 및 Siddharth Garg. "Badnets: 기계 학습 모델 공급망의 취약성 식별." arXiv preprint arXiv:1708.06733 (2017)

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei, Dario, et al. "AI 안전의 구체적인 문제." arXiv preprint arXiv:1606.06565 (2016).

[24] Leike, Jan, et al. "AI Safety Gridworlds." arXiv preprint arXiv:1711.09883 (2017).

[25] 길머, 저스틴, 외. "적대적 예제 연구를 위한 게임 규칙에 동기를 부여하기." arXiv preprint arXiv:1807.06732 (2018).

[26] 헨드릭스, 댄, 토마스 디테리히. "일반적인 손상 및 교란에 대한 신경망 견고성 벤치마킹" arXiv preprint arXiv:1903.12261 (2019).

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-03-26