다음을 통해 공유


AI/ML 시스템 및 종속성 위협 모델링

앤드류 마샬, 주갈 파리크, 엠레 키시만, 람 샨카르 시바 쿠마르

Raul Rojas 및 AETHER 보안 엔지니어링 워크스트림에 대한 특별 감사

2019년 11월

이 문서는 AI 작업 그룹에 대한 AETHER 엔지니어링 사례의 결과물이며 AI 및 Machine Learning 공간과 관련된 위협 열거 및 완화에 대한 새로운 지침을 제공하여 기존 SDL 위협 모델링 사례를 보완합니다. 다음의 보안 디자인 검토 중에 참조로 사용됩니다.

  1. AI/ML 기반 서비스와 상호 작용하거나 종속되는 제품/서비스

  2. 핵심 AI/ML을 사용하여 빌드되는 제품/서비스

기존의 보안 위협 완화는 그 어느 때보다 중요합니다. 보안 개발 수명 주기에서 설정한 요구 사항은 이 지침이 기반으로 하는 제품 보안 기반을 설정하는 데 필수적입니다. 기존 보안 위협을 해결하지 못하면 소프트웨어와 물리적기본 작업 모두에서 이 문서에서 다루는 AI/ML 관련 공격을 가능하게 할 뿐만 아니라 소프트웨어 스택 아래로 손상이 사소하게 감소할 수 있습니다. 이 공간의 새로운 보안 위협에 대한 소개는 Microsoft의 AI 및 ML의 미래 보안을 참조하세요.

보안 엔지니어와 데이터 과학자의 기술 세트는 일반적으로 겹치지 않습니다. 이 지침은 보안 엔지니어가 데이터 과학자가 되거나 그 반대로 될 필요 없이 두 분야의 완전히 새로운 위협/완화에 대해 체계적으로 대화할 수 있는 방법을 안내합니다.

이 문서는 다음 두 섹션으로 나뉩니다.

  1. "위협 모델링의 새로운 주요 고려 사항"은 AI/ML 시스템을 위협 모델링할 때 새로운 사고 방식과 새로운 질문에 중점을 둡니다. 데이터 과학자와 보안 엔지니어는 모두 위협 모델링 토론 및 완화 우선 순위 지정을 위한 플레이북이기 때문에 이를 검토해야 합니다.
  2. "AI/ML 관련 위협 및 완화"는 현재 이러한 위협으로부터 Microsoft 제품 및 서비스를 보호하기 위해 사용하는 구체적인 완화 단계와 특정한 공격의 세부 정보를 제공합니다. 이 섹션의 주요 대상은 위협 모델링/보안 검토 프로세스의 결과물로 구체적인 위협 완화를 구현해야 하는 데이터 과학자입니다.

이 지침은 람 샹카르 시바 쿠마르, 데이비드 오브라이언, 켄드라 앨버트, 살로메 빌조엔, 제프리 스노버가 만든 "기계 학습의 실패 모드"라는 제목의 적대적 기계 학습 위협 분류를 중심으로 구성됩니다. 이 문서에 자세히 설명된 보안 위협 심사에 대한 인시던트 관리 지침은 AI/ML 위협에 대한 SDL 버그 표시줄을 참조 하세요. 이 모든 문서는 위협 환경과 함께 시간이 지남에 따라 진화 할 살아있는 문서입니다.

위협 모델링의 새로운 주요 고려 사항: 신뢰 경계를 보는 방식 변경

학습한 데이터와 데이터 공급자의 손상/중독을 가정합니다. 비정상 또는 악성 데이터 항목을 감지하는 방법, 이러한 항목을 구분하고 이러한 항목으로부터 복구하는 방법을 알아봅니다.

요약

학습 데이터 저장소 및 이를 호스팅하는 시스템은 위협 모델링 범위의 일부입니다. 오늘날 기계 학습에서 가장 큰 보안 위협은 이 분야에 표준이 되는 위험 감지 및 완화 조치가 없어서 발생하는 데이터 중독이며, 이와 함께 신뢰할 수 없는/선별되지 않은 공개 데이터 세트가 학습 데이터의 소스로 사용되는 문제도 있습니다. 데이터의 출처 및 계보를 추적하는 일은 데이터의 신뢰성을 보장하고 "가비지-인 가비지-아웃" 학습의 반복을 방지하기 위해 중요합니다.

보안 검토 시 질문할 사항

  • 데이터가 독살되거나 변조된 경우 어떻게 알 수 있나요?

    -학습 데이터의 품질에 대한 기울이기를 감지해야 하는 원격 분석은 무엇인가요?

  • 사용자가 제공한 입력에서 학습하고 있나요?

    -해당 콘텐츠에 대해 어떤 종류의 입력 유효성 검사/삭제를 수행합니까?

    -이 데이터의 구조가 데이터 세트의 데이터시트와 유사 합니까?

  • 온라인 데이터 저장소에 대해 학습하는 경우 모델과 데이터 간의 연결 보안을 보장하기 위해 어떤 단계를 수행합니까?

    -피드의 소비자에게 타협을 보고하는 방법이 있나요?

    - 그렇게 하는 일이 가능한가요?

  • 학습한 데이터는 얼마나 중요합니까?

    -카탈로그로 지정하거나 데이터 항목의 추가/업데이트/삭제를 제어합니까?

  • 모델이 중요한 데이터를 출력할 수 있나요?

    -이 데이터를 원본의 사용 권한으로 얻었습니까?

  • 모델이 목표를 달성하는 데 필요한 결과만 출력하나요?

  • 모델은 원시 신뢰도 점수 또는 기록 및 복제할 수 있는 다른 직접 출력을 반환하나요?

  • 모델을 공격/반전하여 학습 데이터가 복구되는 영향은 무엇인가요?

  • 모델 출력의 신뢰 수준이 갑자기 떨어지는 경우 원인 데이터뿐만 아니라 방법/이유를 확인할 수 있나요?

  • 모델에 대한 올바른 형식의 입력을 정의했나요? 입력이 이 형식을 충족하도록 하기 위해 무엇을 하고 있으며, 그렇지 않으면 어떻게 해야 할까요?

  • 출력이 잘못되었지만 오류를 보고하지 않는 경우 어떻게 알 수 있나요?

  • 학습 알고리즘이 수학 수준에서 적대적 입력에 탄력적인지 알고 있나요?

  • 학습 데이터의 적대적 오염에서 복구하는 방법은 무엇인가요?

    -악의적인 콘텐츠를 격리/격리하고 영향을 받은 모델을 다시 학습할 수 있나요?

    -다시 학습하기 위해 이전 버전의 모델로 롤백/복구할 수 있나요?

  • 재귀되지 않은 공개 콘텐츠에서 보충 학습을 사용하고 있나요?

  • 데이터의 계보에 대해 생각하기 시작합니다. 문제를 찾으시겠습니까? 데이터 세트에 대한 소개까지 추적할 수 있나요? 그렇지 않은 경우 문제가 있습니까?

  • 학습 데이터의 원본 위치를 파악하고 통계 규범을 식별하여 변칙의 모양을 이해하기 시작합니다.

    -학습 데이터의 어떤 요소가 외부의 영향력에 취약합니까?

    -학습 중인 데이터 집합에 누가 기여할 수 있나요?

    -경쟁 업체에 해를 끼치기 위해 학습 데이터 원본을 어떻게 공격하시겠습니까?

  • 적대적 섭동(모든 변형)

  • 데이터 중독(모든 변형)

공격의 예

  • 무해한 이메일이 스팸으로 분류되게 하거나 악성 사례가 감지되게 않게 만들기

  • 특히 중요한 결과가 발생할 수 있는 시나리오에서, 올바른 분류의 신뢰도 수준을 저하시키도록 공격자가 조작한 입력

  • 공격자가 처리 중인 원본 데이터에 무작위 노이즈를 주입하여 미래에 올바르게 분류될 수 있는 가능성을 저하시키고 모델의 정확도를 훼손

  • 학습 데이터의 오염으로 인해 선택한 데이터 요소의 오분류가 강제로 발생하여 시스템에서 특정 작업을 수행하거나 생략하게 됩니다.

모델 또는 제품/서비스가 온라인 또는 물리적 작업에서 고객에게 피해를 줄 수 있는 조치를 식별합니다기본

요약

완화되지 않은 상태로 두고 AI/ML 시스템에 대한 공격은 물리적 세계로 넘어갈 수 있습니다. 사용자에게 심리적 또는 신체적 위해를 가하도록 변조될 수 있는 시나리오는 제품/서비스에 치명적인 위험입니다. 이는 해당 개인 데이터 요소를 누수할 수 있는 교육 및 디자인 선택에 사용되는 고객에 대한 중요한 데이터로 확장됩니다.

보안 검토 시 질문할 사항

  • 악의적인 예제를 사용하여 학습합니까? 적대적 예시가 물리적 영역에서 모델의 출력에 어떤 영향을 미치나요?

  • 제품/서비스에 대한 트롤링이 어떤 형태로 나타나나요? 이를 감지하고 대응하려면 어떻게 해야 할까요?

  • 합법적인 사용자에 대한 액세스를 거부하도록 서비스를 속이는 결과를 반환하기 위해 모델을 가져오는 데 무엇이 걸리나요?

  • 모델이 복사/도난되는 경우 어떤 영향이 있나요?

  • 모델을 사용하여 특정 그룹 또는 단순히 학습 데이터에서 개별 사용자의 멤버 자격을 유추할 수 있나요?

  • 공격자가 특정 작업을 수행하도록 강요하여 제품에 평판 손상 또는 PR 반발을 일으킬 수 있나요?

  • 트롤과 같이 형식이 적절하지만 지나치게 편향된 데이터를 처리하려면 어떻게 해야 할까요?

  • 모델과 상호 작용하거나 모델을 쿼리하는 각 방법에 대해 해당 메서드를 심문하여 학습 데이터 또는 모델 기능을 공개할 수 있나요?

  • 멤버 자격 유추

  • 모델 반전

  • 모델 도용

공격의 예

  • 신뢰도 결과를 극대화하기 위해 모델을 반복 쿼리하여 학습 데이터를 재구성 및 추출

  • 철저한 쿼리/응답 일치를 통해 모델 자체의 중복

  • 비공개 데이터의 특정 요소를 드러내는 방식으로 모델을 쿼리하는 동작이 학습 세트에 포함됨

  • 정지 표지판 / 신호등을 무시하도록 속이는 자율 주행 자동차

  • 무해한 사용자를 트롤하도록 조작된 대화형 봇

데이터/모델 공급망의 프런트 엔드 프레젠테이션 계층뿐만 아니라 AI/ML 종속성의 모든 원본 식별

요약

AI 및 기계 학습에서 많은 공격이 모델에 대한 쿼리 액세스를 제공하기 위해 표시되는 API에 대한 적법한 액세스로 시작합니다. 여기에 포함된 풍부한 데이터 원본과 풍부한 사용자 환경으로 인해 인증되었지만 "부적절"(여기에 회색 영역이 있음) 3개의 모델에 대한 rd-party 액세스는 Microsoft에서 제공하는 서비스 위의 프레젠테이션 계층으로 작동할 수 있기 때문에 위험합니다.

보안 검토 시 질문할 사항

  • 모델 또는 서비스 API에 액세스하도록 인증된 고객/파트너는 누구인가요?

    - 이들이 서비스 위에서 표시 계층으로 동작할 수 있나요?

    -손상 시 즉시 액세스를 취소할 수 있나요?

    -서비스 또는 종속성을 악의적으로 사용하는 경우 복구 전략은 무엇인가요?

  • 3rd 파티가 모델을 중심으로 외관을 구축하여 용도를 다시 지정하고 Microsoft 또는 고객에게 해를 끼칠 수 있나요?

  • 고객이 교육 데이터를 직접 제공합니까?

    -해당 데이터를 보호하려면 어떻게 해야 할까요?

    -악의적이고 서비스가 대상인 경우 어떻게 해야 할까요?

  • 가양성 은 다음과 같습니까? 가음성의 영향은 무엇인가요?

  • 여러 모델에서 참 긍정 및 가양성 비율의 편차를 추적하고 측정할 수 있나요?

  • 고객에게 모델 출력의 신뢰성을 증명하려면 어떤 종류의 원격 분석이 필요한가요?

  • 오픈 소스 소프트웨어뿐만 아니라 데이터 공급자도 ML/학습 데이터 공급망의 3개 rd 파티 종속성 모두 식별

    -왜 사용 하 고 어떻게 그들의 신뢰성을 확인 합니까?

  • 제3자가제공하는 미리 작성된 모델을 사용하거나 학습 데이터를 제3자MLaaS 공급자에게 제출하나요?

  • 유사한 제품/서비스에 대한 공격에 대한 뉴스 기사 인벤토리. 많은 AI/ML 위협이 모델 유형 간에 전송된다는 것을 이해하면 이러한 공격이 사용자 고유의 제품에 어떤 영향을 미치나요?

  • 신경망 재프로그래밍

  • 물리적 영역의 적대적 예

  • 악성 ML 공급자의 학습 데이터 복구

  • ML 공급망 공격

  • 백도어 모델

  • 손상된 ML 관련 종속성

공격의 예

  • 악의적인 MLaaS 공급자는 특정 바이패스로 모델을 트로이 목마로 만듭니다.

  • 악의적 고객이 내가 사용하는 일반적인 OSS 종속성에서 취약점을 찾은 다음, 조작된 학습 데이터 페이로드를 업로드하여 서비스를 손상시킴

  • 파렴치한 파트너는 얼굴 인식 API를 사용하고 서비스를 통해 프레젠테이션 계층을 만들어 Deep Fakes를 생성합니다.

AI/ML 관련 위협 및 완화

#1: 악의적인 교란

설명

교란 스타일의 공격에서 공격자는 프로덕션 배포 모델에서 원하는 응답을 얻기 위해 쿼리를 은밀하게 수정합니다[1]. 이는 최종 결과가 반드시 액세스 위반 또는 EOP가 아니라 모델의 분류 성능을 손상시키는 퍼지 스타일 공격으로 이어지는 모델 입력 무결성 위반입니다. 이것은 또한 AI가 금지할 수 있는 방식으로 특정 대상 단어를 사용하는 트롤에 의해 나타날 수 있으며, "금지됨" 단어와 일치하는 이름의 합법적인 사용자에게 서비스를 효과적으로 거부할 수 있습니다.

Diagram that shows increasing attack difficulty when complexity is increasing and capability is decreasing.[24]

변형 #1a: 대상 오분류

이 경우 공격자는 대상 분류자의 입력 클래스에 없지만 모델에 의해 특정 입력 클래스로 분류되는 샘플을 생성합니다. 악의적인 샘플은 인간의 눈에 임의 노이즈처럼 나타날 수 있지만 공격자는 대상 기계 학습 시스템에 대한 지식이 있어서 무작위가 아니지만 대상 모델의 특정 측면을 악용하는 백색 노이즈를 생성합니다. 악의적 사용자는 합법적인 샘플이 아닌 입력 샘플을 제공하지만 대상 시스템은 이를 합법적인 클래스로 분류합니다.

예제

A diagram showing that a photo of targeted noise is incorrectly classified by an image classifier resulting in a photo of a bus.[6]

완화 방법

  • 적대적 학습에 의해 유도된 모델 신뢰도를 사용하여 적대적 견고성 강화 [19]: 작성자는 기본 모델의 적대적 견고성을 강화하기 위해 신뢰 정보와 가장 가까운 인접 검색을 결합하는 프레임워크인 HCNN(Highly Confidence Near Neighbor)을 제안합니다. 이렇게 하면 기본 학습 배포에서 샘플링된 지점의 영역에서 올바른 모델 예측과 잘못된 모델 예측을 구별할 수 있습니다.

  • 특성 기반 인과 분석 [20]: 저자는 악의적인 혼란에 대한 복원력과 기계 학습 모델에서 생성된 개별 결정에 대한 특성 기반 설명 간의 연결을 연구합니다. 악의적인 입력은 특성 공간에서 강력하지 않다고 보고합니다. 즉, 특성이 높은 몇 가지 기능을 마스킹하면 악의적인 예제에서 기계 학습 모델의 결정권이 변경됩니다. 반면, 자연 입력은 특성 공간에서 강력합니다.

    An illustration showing two approaches to determining how input values 9,9 becomes misclassified as 9,4.[20]

이러한 접근 방식은 이 2계층 인식 시스템을 속이려면 원래 모델을 공격할 뿐만 아니라 악의적인 예제에 대해 생성된 특성이 원래 예제와 유사하도록 해야 하기 때문에 기계 학습 모델을 적대적 공격에 더 탄력적으로 적용할 수 있습니다. 성공적인 적대적 공격을 위해서는 두 시스템을 동시에 손상시켜야 합니다.

기존의 유사 항목

공격자가 모델을 제어할 수 있게 된 후에 권한을 원격으로 상승

심각도

위험

변형 #1b: 원본/대상 오분류

이는 공격자가 지정된 입력에 대해 원하는 레이블을 반환하는 모델을 가져오는 것으로 특징지어집니다. 그러면 일반적으로 모델이 가양성 또는 가음성을 반환합니다. 최종 결과는 모델의 분류 정확도를 미묘하게 건드려서 이를 통해 공격자가 원하는 특정한 우회를 유도하는 것입니다.

이 공격은 분류 정확도에 상당한 악영향을 미치지만, 악의적 사용자가 원본 데이터를 조작하여 더 이상 올바르게 레이블이 지정되지 않도록 할 뿐만 아니라 원하는 사기성 레이블로 특별히 레이블을 지정해야 한다는 점을 감안할 때 수행하는 데 시간이 더 많이 소요될 수도 있습니다. 이러한 공격에는 종종 오분류를 강제하기 위한 여러 단계/시도가 포함됩니다[3]. 모델이 대상 오분류를 강제하는 학습 공격을 전송하기 쉬운 경우 검색 공격을 오프라인으로 수행할 수 있으므로 눈에 띄는 공격자 트래픽 발자국이 없을 수 있습니다.

예제

무해한 전자 메일을 스팸으로 분류하도록 강요하거나 악의적인 예제가 검색되지 않습니다. 이를 모델 회피 또는 모방 공격이라고도 합니다.

완화 방법

대응적/방어적 감지 동작

  • 분류 결과를 제공하는 API 호출 간에 최소 시간 임계값을 구현합니다. 이렇게 하면 성공 섭동을 찾는 데 필요한 전체 시간을 늘려 다단계 공격 테스트 속도가 느려집니다.

자동 관리/보호 작업

  • 적대적 견고성 향상을 위한 기능 디노이징 [22]: 저자는 기능 비정규화를 수행하여 적대적 견고성을 높이는 새로운 네트워크 아키텍처를 개발합니다. 특히 네트워크에는 로컬이 아닌 수단 또는 기타 필터를 사용하여 기능을 나타내는 블록이 포함되어 있습니다. 전체 네트워크는 엔드 투 엔드로 학습됩니다. 적대적 학습과 결합하면 네트워크를 비정규화하면 화이트박스 및 블랙박스 공격 설정 모두에서 적대적 견고성의 최신 기능이 크게 향상됩니다.

  • 적대적 교육 및 정규화: 알려진 악의적인 샘플을 사용하여 학습하여 악의적인 입력에 대한 복원력과 견고성을 구축합니다. 이는 입력 그라데이션의 규범을 처벌하고 분류자의 예측 함수를 더 매끄럽게 만드는 정규화의 한 형태로 볼 수도 있습니다(입력 여백 증가). 여기에는 신뢰도가 낮은 올바른 분류가 포함됩니다.

A graph showing the change in the slope of the prediction function with adversarial training.

단조 기능 선택을 통해 단조 분류 개발에 투자합니다. 이렇게 하면 악의적 사용자가 부정적 클래스의 특징을 간단히 패딩하는 방법으로 분류자를 회피할 수 없습니다[13].

  • 기능 압착 [18]을 사용하여 악의적인 예제를 검색하여 DNN 모델을 강화할 수 있습니다. 원래 공간의 다양한 기능 벡터에 해당하는 샘플을 단일 샘플로 병합하여 악의적 사용자가 사용할 수 있는 검색 공간을 줄입니다. 원본 입력에 대한 DNN 모델의 예측을 압축된 입력에 대한 DNN 모델의 예측과 비교함으로써 특징 압축은 적대적 예를 감지하는 데 도움이 됩니다. 원래 예제와 압착된 예제가 모델에서 실질적으로 다른 출력을 생성하는 경우 입력은 악의적일 수 있습니다. 시스템은 예측 간의 불일치를 측정하고 임계값을 선택함으로써 적법한 예에 대한 정확한 예측을 출력하고 적대적 입력을 거부할 수 있습니다.

    An illustration showing the result of feature squeezing.

    A diagram showing the flow of input through a feature-squeezing framework.[18]

  • 적대적 예에 대한 인증된 방어 [22]: 작성자는 지정된 네트워크 및 테스트 입력에 대해 어떤 공격도 오류를 강제로 특정 값을 초과할 수 없는 인증서를 출력하는 반 명확한 완화를 기반으로 하는 방법을 제안합니다. 둘째, 이 인증서는 서로 다를 수 있으므로 작성자는 네트워크 매개 변수를 사용하여 공동으로 최적화하여 모든 공격에 대한 견고성을 장려하는 적응형 정규화기를 제공합니다.

응답 작업

  • 특히 단일 사용자 또는 소규모 사용자 그룹의 경우 분류자 간 차이가 높은 분류 결과에 대한 경고를 실행합니다.

기존의 유사 항목

권한의 원격 상승

심각도

위험

변형 #1c: 임의 오분류

공격자의 대상 분류가 합법적인 원본 분류 이외의 무엇이든 될 수 있는 특수한 변형입니다. 공격은 일반적으로 나중에 올바른 분류가 사용될 가능성을 줄이기 위해 분류되는 원본 데이터에 임의로 노이즈를 주입하는 것을 포함합니다[3].

예제

Two photos of a cat. One photo is classified as a tabby cat. After adversarial perturbation, the other photo is classified as guacamole.

완화 방법

변형 1a와 동일합니다.

기존의 유사 항목

비영구 서비스 거부

심각도

Important

변형 #1d: 신뢰도 감소

공격자는 특히 중대한 결과가 발생하는 시나리오에서 올바른 분류의 신뢰도 수준을 저하시키는 입력을 만들 수 있습니다. 이는 합법적인 경고 [3]와 구별할 수 없는 사기성 경고로 관리자 또는 모니터링 시스템을 압도하기 위한 많은 가양성의 형태를 취할 수도 있습니다.

예제

Two photos of a stop sign. The photo on the left shows a confidence level of 96 percent. After adversarial perturbation, the photo on the right shows a confidence level of 13 percent.

완화 방법
  • Variant #1a 적용되는 작업 외에도 이벤트 제한을 사용하여 단일 원본에서 경고 볼륨을 줄일 수 있습니다.
기존의 유사 항목

비영구 서비스 거부

심각도

Important

대상 데이터 중독 #2a

설명

공격자의 목표는 새 데이터에 대한 예측이 테스트 단계[1]에서 수정되도록 학습 단계에서 생성된 컴퓨터 모델을 오염시키는 것입니다. 대상 지정 중독 공격에서 공격자는 특정한 예시를 잘못 분류하여 특정 작업을 수행하거나 생략하도록 만들려고 합니다.

예제

AV 소프트웨어를 맬웨어로 전송하여 오분류를 강제 적용하고 클라이언트 시스템에서 대상 AV 소프트웨어를 사용하지 않도록 합니다.

완화 방법
  • 변칙 센서를 정의하여 매일 데이터 분포를 확인하고 변형에 대한 경고

    -매일 학습 데이터 변형 측정, 기울이기/드리프트에 대한 원격 분석

  • 입력 유효성 검사, 삭제 및 무결성 검사

  • 중독은 외부 학습 샘플을 주입합니다. 이 위협에 대응하기 위한 두 가지 기본 전략:

    -데이터 삭제/유효성 검사: 학습 데이터에서 중독 샘플 제거 -중독 공격 퇴치를 위한 Bagging [14]

    -REJECT-on-Negative-Impact(RONI) 방어 [15]

    -강력한 학습: 중독 샘플이 있는 상태에서 강력한 학습 알고리즘을 선택합니다.

    -이러한 방법 중 하나는 저자가 두 단계로 데이터 중독 문제를 해결하는 [21]에 설명되어 있습니다: 1) 실제 하위 영역을 복구하는 새로운 강력한 매트릭스 팩터리화 방법을 도입하고, 2) 단계에서 복구된 기초에 따라 악의적 인스턴스를 정리하는 새로운 강력한 원칙 구성 요소 회귀(1). 실제 하위 영역을 성공적으로 복구하는 데 필요한 충분한 조건을 특성화하고 지상 진리에 비해 예상된 예측 손실에 대한 경계를 제시합니다.

기존의 유사 항목

공격자가 네트워크에 머무는 데 사용되는 트로이 호스트입니다. 학습 또는 구성 데이터가 손상되고 모델 생성을 위해 수집/신뢰할 수 있습니다.

심각도

위험

무차별 데이터 중독 #2b

설명

목표는 공격받는 데이터 세트의 품질/무결성을 망치는 것입니다. 많은 데이터 세트가 공용/신뢰할 수 없는/동시성이 없으므로 이러한 데이터 무결성 위반을 처음에 발견할 수 있는 기능에 대한 추가적인 문제가 발생합니다. 무의식적으로 손상된 데이터에 대한 학습은 가비지 인/가비지 아웃 상황입니다. 검색되면 심사에서 위반된 데이터의 범위를 확인하고 격리/재학습해야 합니다.

예제

한 회사가 모델을 학습시키기 위해 석유 선물 데이터에 대해 잘 알려져 있고 신뢰할 수 있는 웹 사이트를 긁어냅니다. 그 다음에 데이터 공급자의 웹 사이트가 SQL 삽입 공격을 통해 손상됩니다. 공격자는 의지에 따라 데이터 세트를 포이즌할 수 있으며 학습 중인 모델에는 데이터가 오염되었다는 개념이 없습니다.

완화 방법

variant 2a와 동일합니다.

기존의 유사 항목

높은 가치의 자산에 대해 인증된 서비스 거부

심각도

Important

3위 모델 반전 공격

설명

기계 학습 모델에 사용되는 프라이빗 기능은 [1]을(를) 복구할 수 있습니다. 여기에는 공격자가 액세스할 수 없는 개인 학습 데이터의 재구성이 포함됩니다. 또한 바이오 메트릭 커뮤니티에서 언덕 등반 공격으로 알려진 [16, 17] 이것은 대상 [4]와 일치하는 분류에 따라 반환된 신뢰 수준을 최대화하는 입력을 찾아서 수행됩니다.

예제

Two images of a person. One image is blurry and the other image is clear.[4]

완화 방법
  • 중요한 데이터에서 학습된 모델에 대한 인터페이스에는 강력한 액세스 제어가 필요합니다.

  • 모델에서 허용하는 쿼리를 속도로 제한합니다.

  • 제안된 모든 쿼리에 대해 입력 유효성 검사를 수행하고, 모델의 입력 정확성 정의를 충족하지 않는 경우는 거부하고, 유용성을 위해 필요한 정보는 최소한으로만 반환하여 사용자/호출자와 실제 모델 간에 게이트를 구현합니다.

기존의 유사 항목

대상 지정, 은밀한 정보 공개

심각도

이 기본값은 표준 SDL 버그 표시줄에 따라 중요하지만 추출되는 중요하거나 개인적으로 식별 가능한 데이터는 이를 중요하게 합니다.

#4 멤버 자격 유추 공격

설명

공격자는 지정된 데이터 레코드가 모델의 학습 데이터 세트에 속하는지 여부를 확인할 수 있습니다.[1]. 연구원은 특성 (예: 나이, 성별, 병원) [1]에 근거를 둔 환자의 기본 절차 (예: 환자가 겪은 수술)를 예측할 수 있었습니다.

An illustration showing the complexity of a membership inference attack. Arrows show the flow and relationship between training data prediction data.[12]

완화 방법

이 공격의 생존 가능성을 보여주는 연구 논문은 차등 개인 정보 보호 [4, 9]가 효과적인 완화가 될 것이라고 나타냅니다. 이것은 여전히 Microsoft의 초기 분야이며 AETHER Security Engineering은 이 공간에 대한 연구 투자를 통해 전문 지식을 구축할 것을 권장합니다. 이 연구는 차등 개인 정보 보호 기능을 열거하고 완화로 실질적인 효과를 평가한 다음, Visual Studio에서 코드를 컴파일하면 개발자와 사용자에게 투명한 기본 보안 보호를 제공하는 방법과 유사하게 이러한 방어가 온라인 서비스 플랫폼에서 투명하게 상속될 수 있는 방법을 설계해야 합니다.

뉴런 중퇴 및 모델 스택의 사용은 어느 정도 효과적인 완화가 될 수 있습니다. 뉴런 드롭아웃을 사용하면 이 공격에 대한 신경망의 복원력을 높일 뿐만 아니라 모델 성능 [4]도 향상됩니다.

기존의 유사 항목

데이터 개인 정보 보호. 학습 집합에 데이터 요소의 포함에 대한 유추가 이루어지고 있지만 학습 데이터 자체는 공개되지 않습니다.

심각도

이 경우는 보안 문제가 아니라 개인 정보 문제입니다. 기본 겹치므로 위협 모델링 지침에서 해결되지만 여기에 있는 모든 응답은 보안이 아닌 개인 정보 보호에 의해 구동됩니다.

#5 모델 도용

설명

공격자는 모델을 합법적으로 쿼리하여 기본 모델을 다시 만듭니다. 새 모델의 기능은 기본 모델의 기능과 동일합니다[1]. 모델이 다시 만들어지면 기능 정보를 복구하거나 학습 데이터를 유추하도록 반전할 수 있습니다.

  • 수식 해결 – API 출력을 통해 클래스 확률을 반환하는 모델의 경우 공격자는 쿼리를 작성하여 모델에서 알 수 없는 변수를 확인할 수 있습니다.

  • 경로 찾기 – API의 특이성을 악용하여 입력을 분류할 때 트리에서 수행한 '결정'을 추출하는 공격입니다[7].

  • 전송 가능성 공격 - 악의적 사용자는 대상 모델에 예측 쿼리를 실행하여 로컬 모델을 학습시키고 이를 사용하여 대상 모델 [8]으로 전송하는 악의적인 예제를 만들 수 있습니다. 모델이 추출되고 악의적 입력 유형에 취약한 경우 프로덕션 배포 모델에 대한 새로운 공격은 모델 복사본을 추출한 공격자가 완전히 오프라인으로 개발할 수 있습니다.

예제

ML 모델이 스팸 식별, 맬웨어 분류 및 네트워크 변칙 검색과 같은 악의적인 동작을 검색하는 데 사용되는 설정에서 모델 추출은 회피 공격을 용이하게 할 수 있습니다[7].

완화 방법

자동 관리/보호 작업

  • 예측 API에서 반환된 세부 정보를 최소화하거나 난독 처리하면서 "정직한" 애플리케이션에 대한 유용성을 기본[7].

  • 모델 입력에 대해 올바른 형식의 쿼리를 정의하고 해당 형식과 일치하는 완성된 올바른 형식의 입력에 대한 응답으로만 결과를 반환합니다.

  • 반올림한 신뢰도 값을 반환합니다. 대부분의 합법적인 호출자는 소수 자릿수의 소수 자릿수가 필요하지 않습니다.

기존의 유사 항목

인증되지 않은 시스템 데이터의 읽기 전용 변조, 대상 높은 가치 정보 공개?

심각도

보안에 민감한 모델에서 중요, 그렇지 않으면 보통

#6 신경망 다시 프로그래밍

설명

악의적 사용자가 특별히 만든 쿼리를 통해 기계 학습 시스템을 작성자의 원래 의도에서 벗어나는 작업으로 다시 프로그래밍할 수 있습니다.[1].

예제

얼굴 인식 API에 대한 약한 액세스 제어를 통해 제3자가Microsoft 고객에게 해를 입히도록 설계된 앱(예: 딥 페이크 생성기)에 통합할 수 있는 경우

완화 방법
  • 강력한 클라이언트<->서버 상호 인증 및 모델 인터페이스에 대한 액세스 제어

  • 위반 계정의 제거

  • API에 대한 서비스 수준 계약을 식별하고 적용합니다. 보고된 문제에 허용되는 해결 시간을 결정하고 SLA가 만료되면 더 이상 이 문제가 재현되지 않음을 확인하세요.

기존의 유사 항목

이 경우는 남용 시나리오입니다. 단순히 가해자의 계정을 사용하지 않도록 설정하는 것보다 보안 인시던트를 열 가능성이 적습니다.

심각도

중요~위험

물리적 do기본(bits-atoms>)의 #7 적대적 예

설명

악의적인 예는 기계 학습 시스템을 오도하는 유일한 목적으로 전송된 악의적인 엔터티의 입력/쿼리입니다.[1]

예제

이러한 예시는 실제 도메인의 매니페스트를 만들 수 있습니다. 예를 들어, 정지 표지판에 비춰지는 빛의 특정 색(악의적 입력)으로 인해 이미지 인식 시스템이 더 이상 정지 표지판을 정지 표지판으로 보이지 않게 하여 자율 주행 자동차가 정지 표지판으로 달려가도록 속을 수 있습니다.

기존의 유사 항목

권한 상승, 원격 코드 실행

완화 방법

이러한 공격은 기계 학습 계층(AI 기반 의사 결정 아래의 데이터 및 알고리즘 계층)의 문제가 완화되지 않았기 때문에 나타납니다. 다른 소프트웨어 *또는* 물리적 시스템과 마찬가지로 대상 아래 계층은 항상 기존 벡터를 통해 공격할 수 있습니다. 이 때문에 기존의 보안 관행은 그 어느 때보다 중요하며, 특히 AI와 기존 소프트웨어 간에 완화되지 않은 취약성(데이터/알고 계층) 계층이 사용되고 있습니다.

심각도

위험

학습 데이터를 복구할 수 있는 악의적인 ML 공급자 8위

설명

악의적인 공급자는 프라이빗 학습 데이터가 복구되는 백도어 알고리즘을 제공합니다. 제공된 모델만으로 얼굴과 텍스트를 다시 구성할 수 있었습니다.

기존의 유사 항목

대상 정보 공개

완화 방법

이 공격의 실행 가능성을 보여주는 연구 논문은 동형 암호화가 효과적인 완화가 될 것임을 나타냅니다. 현재 Microsoft에 대한 투자가 거의 없는 영역이며, AETHER Security Engineering은 이 공간에 대한 연구 투자를 통해 전문 지식을 구축할 것을 권장합니다. 이 연구는 동형 암호화 신조를 열거하고 악의적인 ML-as-a-Service 공급자에 직면하여 완화로 실질적인 효과를 평가해야 합니다.

심각도

데이터가 PII이면 중요하고, 그렇지 않으면 보통입니다.

#9 ML 공급망 공격

설명

알고리즘을 학습하는 데 필요한 대규모 리소스(데이터 + 계산)로 인해 현재 방법은 대기업에서 학습한 모델을 다시 사용하고 현재 작업에 맞게 약간 수정하는 것입니다(예: ResNet은 Microsoft에서 인기 있는 이미지 인식 모델임). 이러한 모델은 Model Zoo(Caffe에서 널리 사용되는 이미지 인식 모델을 호스트함)에서 구성됩니다. 이 공격에서 악의적인 사용자는 Caffe에서 호스트되는 모델을 공격하여 다른 사람에게 우물을 중독합니다. [1]

기존의 유사 항목
  • 제3자 비보안 종속성의 손상

  • 무의식적으로 맬웨어를 호스팅하는 앱 스토어

완화 방법
  • 가능한 경우 모델 및 데이터에 대한 타사 종속성을 최소화합니다.

  • 이러한 종속성을 위협 모델링 프로세스에 통합합니다.

  • 1st/3rd-party 시스템 간의 강력한 인증, 액세스 제어 및 암호화를 활용합니다.

심각도

위험

10위 백도어 Machine Learning

설명

학습 프로세스가 학습 데이터를 무단 변경하고, 표적 오분류(예: 특정 바이러스를 비악성으로 분류)를 강제하는 트로이 모델을 제공하는 악의적인 제3자로 아웃소싱됩니다[1]. 이는 ML-as-a-Service 모델 생성 시나리오에서 위험합니다.

An example showing how mis-classifications can adversely affect training data. One photo is a correctly classified stop sign. After poisoning, the second photo is labeled as a speed limit sign.[12]

기존의 유사 항목
  • 제3자 보안 종속성의 손상

  • 손상된 소프트웨어 업데이트 메커니즘

  • 인증 기관 손상

완화 방법
대응적/방어적 감지 동작
  • 이 위협이 발견되면 손상이 이미 수행되었으므로 악의적인 공급자가 제공한 모델 및 학습 데이터를 신뢰할 수 없습니다.
자동 관리/보호 작업
  • 사내에서 모든 중요한 모델 학습

  • 카탈로그 학습 데이터 또는 강력한 보안 사례를 사용하는 신뢰할 수 있는 타사에서 제공되는지 확인

  • MLaaS 공급자와 사용자 고유 시스템 간의 상호 작용을 모델링하는 위협

응답 작업
  • 외부 종속성 손상과 동일합니다.
심각도

위험

#11 ML 시스템의 소프트웨어 종속성 악용

설명

이 공격에서 공격자는 알고리즘을 조작하지 않습니다. 대신 버퍼 오버플로 또는 사이트 간 스크립팅[1]과 같은 소프트웨어 취약성을 악용합니다. 학습 계층을 직접 공격하는 것보다 AI/ML 아래의 소프트웨어 계층을 손상시키기가 더 쉬우므로 보안 개발 수명 주기에 자세히 설명된 기존의 보안 위협 완화 방법을 반드시 따라야 합니다.

기존의 유사 항목
  • 손상된 오픈 소스 소프트웨어 종속성

  • 웹 서버 취약성(XSS, CSRF, API 입력 유효성 검사 실패)

완화 방법

보안 팀과 협력하여 적용 가능한 보안 개발 수명 주기/운영 보안 보장 모범 사례를 따르세요.

심각도

변수; 기존 소프트웨어 취약성의 유형에 따라 위험까지.

참고 문헌

[1] 기계 학습, 람 샨카르 시바 쿠마르, 데이비드 오브라이언, 켄드라 앨버트, 살로메 빌조엔, 제프리 스노버의 실패 모드 https://learn.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER Security Engineering Workstream, Data Provenance/Lineage v-team

[3] 딥 러닝의 악의적 예: 특성화 및 분기, Wei, et al, https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks: 모델 및 데이터 독립 멤버 자격 유추 공격 및 기계 학습 모델에 대한 방어, 살렘, 외, https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson, S. Jha 및 T. Ristenpart, "신뢰 정보 및 기본 대책을 악용하는 모델 반전 공격", 컴퓨터 및 통신 보안에 대한 2015 ACM SIGSAC 컨퍼런스 (CCS)의 절차.

[6] Nicolas Papernot & Patrick McDaniel- Machine Learning AIWTB 2017의 악의적인 예

[7] Stealing Machine Learning Models via Prediction APIs, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, Cornell University; Ari Juels, Cornell Tech; Michael K. Reiter, The University of North Carolina at Chapel Hill; Thomas Ristenpart, Cornell Tech

[8] 이전 가능한 적대적 예의 공간, 플로리안 트라메르, 니콜라스 페이퍼노, 이안 굿펠로우, 댄 본, 패트릭 맥대니얼

[9] 잘 일반화된 학습 모델 Yunhui Long1, Vincent Bindschaedler1, Lei Wang2, Diyue Bu2, Xiaofeng Wang2, Haixu Tang2, Carl A. Gunter1 및 Kai Chen3,4에 대한 멤버 자격 유추 이해

[10] Simon-Gabriel et al., Adversarial vulnerability of neural networks increases with input dimension, ArXiv 2018;

[11] Lyu et al., 악의적 예제를 위한 통합 그라데이션 정규화 제품군, ICDM 2015

[12] 야생 패턴: 적대적 기계 학습이 등장한 지 10년 후 - NeCS 2019 Battista Biggioa, Fa바이오 Roli

[13] 악의적으로 강력한 맬웨어 검색 UsingMonotonic Classification Inigo Incer et al.

[14] 바티스타 비지오, 이지노 코로나, 조르지오 푸메라, 조르지오 지아신토, 파바이오 롤리. 적대적 분류 작업에서 중독 공격 퇴치를 위한 분류자 배깅

[15] 부정적인 영향 방어 홍장 리와 패트릭 P.K. 찬에 대한 개선 된 거부

[16] 애들러. 바이오 메트릭 암호화 시스템의 취약성. 5번째 Int'l Conf. AVBPA, 2005

[17] Galbally, McCool, Fierrez, Marcel, Ortega-Garcia. 언덕 등반 공격에 얼굴 확인 시스템의 취약점에. 패티. Rec., 2010

[18] 웨일린 쉬, 데이비드 에반스, 얀준 치. 기능 압착: 심층 신경망에서 악의적인 예제 검색 2018 네트워크 및 분산 시스템 보안 심포지엄. 2월 18~21일

[19] 적대적 학습에 의해 유도된 모델 신뢰도를 사용하여 적대적 견고성 강화 - Xi Wu, Uyeong Jang, Jiefeng Chen, Lingjiao Chen, Somesh Jha

[20] 적대적 예, 수스미트 자, 써니 라즈, 스티븐 페르난데스, 수미트 쿠마르 자, 서머시 자, 군잔 베르마, 브라이언 할라이언, 아난트람 스와미의 탐지를 위한 특성 기반 인과 분석

[21] 학습 데이터 중독에 대한 강력한 선형 회귀 – Chang Liu 외.

[22] 적대적 견고성 향상을 위한 기능 디노이징, 시항시, 유신 우, 로렌스 반 데르 마테른, 앨런 유일, 카이밍 허

[23] Certified Defenses against Adversarial Examples - Aditi Raghunathan, Jacob Steinhardt, Percy Liang