다음을 통해 공유


Security Development Lifecycle 버그 표시줄에서 AI/ML 피벗

앤드류 마셜, 주갈 파리크, 엠레 키시만, 람 샨카르 시바 쿠마르

2019년 11월

이 문서는 AI 작업 그룹에 대한 Microsoft AETHER 엔지니어링 사례의 결과물입니다. 이 문서는 기존 보안 취약성을 심사하는 데 사용되는 기존 SDL 버그 표시줄에 대한 보완 기능으로 작동합니다. 이는 AI/ML 관련 보안 문제의 심사에 대한 참조로 사용됩니다. MICROSOFT 보안 대응 센터에서 게시한 AI 시스템 취약성 심각도 분류AI와 관련된 시스템에 대한 일반적인 취약성 유형 및 심각도 수준을 정의합니다.

이 지침은 람 샨카르 시바 쿠마르, 데이비드 오브라이언, 켄드라 앨버트, 살로메 빌조엔, 제프리 스노버가 만든 적대적 Machine Learning 위협 분류를 중심으로 구성되며 기계 학습의 실패 모드라는 제목이 있습니다. 이 콘텐츠는 ML 오류 모드에서 의도적이거나 악의적인 동작과 우발적인 동작을 모두 기반으로 하는 연구이지만, 이 버그 모음 보완은 전적으로 보안 인시던트 및/또는 수정 배포를 초래하는 의도적인/악의적인 동작에 중점을 둡니다.

위협 설명/비즈니스 위험/예제
데이터 중독

학습 데이터 손상 - 공격자의 최종 목표는 학습 단계에서 생성된 컴퓨터 모델을 오염하여 새 데이터에 대한 예측이 테스트 단계에서 수정되도록 하는 것입니다.

대상 지정 중독 공격에서 공격자는 특정한 예시를 잘못 분류하여 특정 작업을 수행하거나 생략하도록 만들려고 합니다.

AV 소프트웨어를 맬웨어로 전송하여 오분류를 강제 적용하고 클라이언트 시스템에서 대상 AV 소프트웨어를 사용하지 않도록 합니다.

회사는 모델을 학습시키기 위해 선물 데이터에 대해 잘 알려져 있고 신뢰할 수 있는 웹 사이트를 긁어냅니다. 그런 다음 SQL 삽입 공격을 통해 데이터 공급자의 웹 사이트가 손상됩니다. 공격자는 데이터 세트를 미리 포이즌할 수 있으며 학습 중인 모델에는 데이터가 오염되었다는 개념이 없습니다.

모델 도용

합법적으로 쿼리하여 기본 모델을 재현합니다. 새 모델의 기능은 기본 모델의 기능과 동일합니다. 모델이 다시 만들어지면 기능 정보를 복구하거나 학습 데이터를 유추하도록 반전할 수 있습니다.

수식 해결 – API 출력을 통해 클래스 확률을 반환하는 모델의 경우 공격자는 쿼리를 작성하여 모델에서 알 수 없는 변수를 확인할 수 있습니다.

경로 찾기 – API 특수성을 악용하여 입력을 분류할 때 트리에서 수행한 "의사 결정"을 추출하는 공격입니다.

전송 가능성 공격 - 악의적 사용자는 대상 모델에 예측 쿼리를 실행하여 로컬 모델을 학습시키고 이를 사용하여 대상 모델로 전송하는 악의적인 예제를 만들 수 있습니다. 모델이 추출되고 악의적 입력 유형에 취약한 경우 프로덕션 배포 모델에 대한 새로운 공격은 모델 복사본을 추출한 공격자가 완전히 오프라인으로 개발할 수 있습니다.

ML 모델이 스팸 식별, 맬웨어 분류 및 네트워크 변칙 검색과 같은 악의적인 동작을 검색하는 데 사용되는 설정에서 모델 추출은 회피 공격을 용이하게 할 수 있습니다.

모델 반전

기계 학습 모델에 사용되는 비공개 기능을 복구할 수 있습니다. 여기에는 공격자가 액세스할 수 없는 프라이빗 학습 데이터 재구성이 포함됩니다. 이는 대상과 일치하는 분류에 따라 반환되는 신뢰 수준을 최대화하는 입력을 찾아서 수행됩니다.

예: 추측되거나 알려진 이름에서 얼굴 인식 데이터를 재구성하고 모델을 쿼리하기 위한 API 액세스입니다.

실제 도메인의 악의적 예시 이러한 예제는 정지 기호에 특정 색의 빛(적대적 입력)이 비추기 때문에 정지 기호를 실행하도록 속인 자율 주행 자동차와 같이 물리적 도메인에서 나타날 수 있으며, 이미지 인식 시스템이 더 이상 정지 기호로 정지 기호를 볼 수 없습니다.
공격 ML 공급망

알고리즘을 학습하는 데 필요한 대규모 리소스(데이터 + 계산)로 인해 현재 방법은 대기업에서 학습한 모델을 다시 사용하고 현재 작업에 맞게 약간 수정하는 것입니다(예: ResNet은 Microsoft에서 인기 있는 이미지 인식 모델임).

이러한 모델은 Model Zoo(Caffe에서 널리 사용되는 이미지 인식 모델을 호스트함)에서 구성됩니다.

이 공격에서 악의적인 사용자는 Caffe에서 호스트되는 모델을 공격하여 다른 사람에게 우물을 중독합니다.

악성 ML 공급자의 백도어 알고리즘

기본 알고리즘 손상

악의적인 ML-as-a-Service 공급자는 프라이빗 학습 데이터가 복구되는 백도어 알고리즘을 제공합니다. 이를 통해 공격자는 모델과 관련된 중요한 데이터(예: 얼굴 및 텍스트)를 다시 구성할 수 있습니다.

신경망 재프로그래밍

공격자로부터 특별히 작성된 쿼리를 사용하여 ML 시스템을 작성자의 원래 의도에서 벗어나는 작업으로 다시 프로그래밍할 수 있습니다.

얼굴 인식 API의 약한 액세스 제어를 통해 3개 rd 당사자가 심층 가짜 생성기와 같은 사용자에게 해를 끼치도록 설계된 앱에 통합할 수 있습니다.

남용/계정 테이크다운 시나리오입니다.

적대적 섭동

혼란 스타일의 공격에서 공격자는 프로덕션 배포 모델에서 원하는 응답을 얻기 위해 쿼리를 은밀하게 수정합니다. 이는 최종 결과가 액세스 위반 또는 EOP일 필요는 없는 퍼지 스타일 공격으로 이어지는 모델 입력 무결성 위반입니다. 대신 모델의 분류 성능을 손상합니다.

이는 트롤이 특정 대상 단어를 사용하여 AI가 이를 금지하는 방식으로 나타낼 수 있으며, "금지됨" 단어와 일치하는 이름의 합법적인 사용자에게 서비스를 효과적으로 거부할 수 있습니다.

무해한 전자 메일을 스팸으로 분류하도록 강요하거나 악의적인 예제가 검색되지 않습니다. 이를 모델 회피 또는 모방 공격이라고도 합니다.

공격자는 특히 결과 높은 시나리오에서 올바른 분류의 신뢰 수준을 줄이기 위해 입력을 만들 수 있습니다. 이는 합법적인 경고와는 잘 구분되지 않는 사기성 경고를 포함한 많은 관리자 또는 모니터링 시스템을 위한 많은 가양성의 형태를 사용할 수도 있습니다.

멤버 자격 유추

모델 학습에 사용되는 그룹의 개별 멤버 자격 유추

예: 연령/성별/병원을 기반으로 하는 수술 프로시저 예측