다음을 통해 공유


Microsoft에서 인공 지능 및 Machine Learning의 미래 보호

작성자: Andrew Marshall, Raul Rojas, Jay Stokes 및 Donald Brinkman

마크 카트라이트와 그레이엄 칼라딘에게 특별한 감사

요약

AI(인공 지능) 및 ML(Machine Learning)은 이미 사람들이 일하고, 사교하고, 생활하는 방식에 큰 영향을 미치고 있습니다. AI/ML을 중심으로 구축된 제품 및 서비스의 소비가 증가함에 따라 고객과 데이터뿐만 아니라 AI 및 알고리즘을 남용, 트롤링 및 추출로부터 보호하기 위해 특수한 조치를 취해야 합니다. 이 문서는 AI를 기반으로 하는 제품 및 운영 온라인 서비스 설계에서 학습한 Microsoft의 보안 레슨을 공유합니다. 이 영역이 어떻게 전개되는지 예측하기는 어렵지만, 우리는 지금 해결해야 할 실행 가능한 문제가 있다는 결론을 내렸습니다. 또한 고객 및 데이터 보안의 장기적인 안전을 보장하기 위해 기술 업계에서 미리 받아야 하는 전략적 문제가 있음을 발견했습니다.

이 문서는 AI 기반 공격이나 인간의 악의적 사용자가 활용하는 AI에 관한 것이 아닙니다. 대신, Microsoft와 업계 파트너는 개별 트롤 또는 전체 늑대 팩에서 수행되었는지 여부에 관계없이 매우 정교하고 창의적이며 악의적인 공격으로부터 AI 기반 제품 및 서비스를 보호하기 위해 해결해야 하는 문제에 초점을 맞춥니다.

이 문서에서는 전적으로 AI/ML 공간 고유의 보안 엔지니어링 문제에 초점을 맞추고 있지만 InfoSec 도메인의 광범위한 특성으로 인해 여기에서 논의된 문제와 결과가 개인 정보 보호 및 윤리 도메인과 어느 정도 겹치는 것으로 이해됩니다. 이 문서에서는 기술 산업에 대한 전략적 중요성의 과제를 강조하므로 이 문서의 대상은 업계 전반의 보안 엔지니어링 리더십입니다.

연구의 초기 결과로, 다음과 같은 점을 알 수 있습니다.

  • 이 문서에서 설명하는 보안 문제의 유형을 완화하려면 기존 보안 사례에 대한 AI/ML 관련 피벗이 필요합니다.

  • Machine Learning 모델은 악의적인 입력과 무해한 비정상 데이터를 구분할 수 없습니다. 학습 데이터의 중요한 원본은 3개의 rd-party 기여에 열려 있는 처리되지 않고 수정되지 않은 공용 데이터 세트에서 파생됩니다. 공격자가 자유롭게 기여할 수 있는 경우 데이터 세트를 손상시킬 필요가 없습니다. 시간이 지남에 따라 데이터 구조/서식이 올바른 상태로 유지되면 신뢰도가 낮은 악성 데이터가 신뢰도가 높은 데이터가 됩니다.

  • 딥 러닝 모델에서 사용할 수 있는 숨겨진 분류자/뉴런 계층의 수가 많기 때문에 이러한 의사 결정에 도달하는 방식에 대한 중요한 이해 없이 AI/ML 의사 결정 프로세스 및 알고리즘의 출력에 너무 많은 신뢰가 배치됩니다. 이 난독 처리는 "작업을 표시"할 수 없게 만들고 의문을 제기 할 때 AI / ML 결과를 입증하기 어렵게 만듭니다.

  • AI/ML은 잘못된 결정으로 인해 심각한 부상이나 사망을 초래할 수 있는 의학 및 기타 산업에서 고부가가치 의사 결정 프로세스를 지원하는 데 점점 더 많이 사용되고 있습니다. AI/ML의 법의학 보고 기능이 부족하여 이러한 고부가가치 결론이 법원과 여론 법원 모두에서 방어될 수 없습니다.

이 문서의 목표는 (1) AI/ML 공간에 고유한 보안 엔지니어링 문제를 강조하고,(2) 새로운 위협에 대한 몇 가지 초기 생각과 관찰을 표시하고 (3) 잠재적인 수정에 대한 초기 생각을 공유하는 것입니다. 이 문서의 몇 가지 과제는 업계가 향후 2년 동안 앞서 나가야 하는 문제이며, 다른 문제는 이미 현재 해결해야 하는 문제입니다. 이 문서에서 다루는 영역에 대한 심층적인 조사 없이는 향후 AI가 수학 수준에서 AI 의사 결정 프로세스를 신뢰하거나 이해하고 수정할 수 없기 때문에 블랙박스가 될 위험이 있습니다.[7]. 보안 관점에서 볼 때 이는 효과적으로 제어를 상실하고 인공 지능에 대한 Microsoft의 지침 원칙에서 벗어나는 것을 의미합니다[3, 7].

새로운 보안 엔지니어링 과제

기존 소프트웨어 공격 벡터는 여전히 해결하는 데 중요하지만 AI/ML 위협 환경에서는 충분한 범위를 제공하지 않습니다. 기술 업계는 새로운 프레임워크를 구축하고 AI/ML 기반 서비스의 설계 및 운영에서 격차를 해결하는 새로운 접근 방식을 채택하여 차세대 솔루션과 싸우는 것을 피해야 합니다.

  1. 아래에서 설명하는 것처럼 보안 개발 및 운영에는 AI와 해당 컨트롤의 데이터를 보호할 때 복원력 및 판단의 개념이 포함되어야 합니다. AI 관련 피벗은 인증, 의무 분리, 입력 유효성 검사 및 서비스 거부 완화 영역에서 필요합니다. 이러한 영역에 대한 투자가 없으면 AI/ML 서비스는 모든 기술 수준의 적과 계속 싸우고 있습니다.

  2. AI는 인간과의 상호 작용에 편향되지 않고 다른 사람의 편견을 인식할 수 있어야 합니다. 이를 위해서는 편견, 고정관념, 언어 및 기타 문화적 구문에 대한 집단적이고 진화하는 이해가 필요합니다. 이러한 이해는 소셜 엔지니어링 및 데이터 세트 변조 공격으로부터 AI를 보호하는 데 도움이 됩니다. 제대로 구현된 시스템은 실제로 이러한 공격으로부터 더 강해지고 확장된 이해를 다른 AIS와 공유할 수 있습니다.

  3. Machine Learning 알고리즘은 결과에 부정적인 영향을 미치는 학습 데이터를 거부하여 양성 "Black Swan" 이벤트 [1]에서 악의적으로 도입된 데이터를 식별할 수 있어야 합니다. 그렇지 않으면 학습 모델은 항상 공격자와 트롤의 게임에 취약합니다.

  4. AI에는 기본 제공 포렌식 기능이 있어야 합니다. 이를 통해 기업은 고객에게 AI의 투명성과 책임을 제공하여 해당 작업이 검증 가능한 정확할 뿐만 아니라 법적으로 방어할 수 있도록 할 수 있습니다. 이러한 기능은 "AI 침입 감지"의 초기 형식으로도 작동하므로 엔지니어가 분류자에 의해 결정된 정확한 시점, 영향을 받는 데이터 및 데이터의 신뢰할 수 있는 시기를 결정할 수 있습니다. 이 영역의 데이터 시각화 기능은 빠르게 발전하고 있으며 엔지니어가 이러한 복잡한 문제의 근본 원인을 식별하고 해결하는 데 도움이 되도록 약속을 보여 줍니다.[10].

  5. AI는 중요한 정보를 인식하여 보호해야 합니다. AI의 풍부한 사용자 환경에는 학습을 위한 방대한 양의 원시 데이터가 필요하므로 고객은 "과도한 공유"를 계획해야 합니다.

위협 및 잠재적 완화를 포함한 이러한 각 영역은 아래에서 자세히 설명합니다.

AI에는 기존의 보안 디자인/보안 운영 모델에 대한 새로운 피벗이 필요합니다. 복원력 및 재량의 도입

AI 디자이너는 중요한 데이터의 기밀성, 무결성 및 가용성을 보장하고, AI 시스템에 알려진 취약성이 없도록 하고, 시스템 또는 사용자의 데이터에 대한 악의적인 동작에 대한 보호, 감지 및 대응을 위한 제어를 제공해야 합니다.

악의적인 공격을 방어하는 기존의 방법은 음성/비디오/이미지 기반 공격이 현재 필터 및 방어를 우회할 수 있는 이 새로운 패러다임에서 동일한 범위를 제공하지 않습니다. 새로운 악용이 AI를 악용하는 것을 방지하기 위해 새로운 위협 모델링 측면을 탐색해야 합니다. 이는 퍼지 또는 입력 조작을 통해 기존의 공격 표면을 식별하는 것 이상입니다(이러한 공격에는 자체 AI 관련 피벗도 있습니다). AI/ML 공간에 고유한 시나리오를 통합해야 합니다. 이 중 핵심은 음성, 비디오 및 제스처와 같은 AI 사용자 환경입니다. 이러한 환경과 관련된 위협은 전통적으로 모델링되지 않았습니다. 예를 들어 비디오 콘텐츠는 이제 물리적 효과를 유도하도록 조정됩니다. 또한 연구에 따르면 오디오 기반 공격 명령을 [9]로 만들 수 있습니다.

범죄자, 결정된 적, 트롤의 예측 불가능성, 창의성 및 악의적인 행위는 복원력재량가치로 우리의 AIS를 심어주도록 요구합니다.

복원력: 시스템은 비정상적인 동작을 식별하고 AI 시스템 및 특정 작업과 관련하여 허용되는 동작의 정상적인 경계를 벗어나는 조작 또는 강제 변환을 방지할 수 있어야 합니다. 이러한 공격은 AI/ML 공간과 관련된 새로운 유형의 공격입니다. 시스템은 지역 법률, 윤리 및 커뮤니티 작성자가 보유하고 있는 값과 충돌하는 입력을 저항하도록 설계되어야 합니다. 즉, 상호 작용이 "스크립트 해제"되는 시기를 결정하는 기능을 AI에 제공합니다. 다음 방법으로 이 작업을 수행할 수 있습니다.

  1. 유사한 사용자의 다양한 대규모 클러스터에 의해 설정된 표준에서 벗어나는 개별 사용자(예: 너무 빨리 입력하거나, 너무 빨리 응답하거나, 절전 모드를 사용하지 않거나, 다른 사용자가 사용하지 않는 시스템의 일부를 트리거하는 사용자)를 정확히 파악합니다.

  2. 악의적인 의도 검색 공격 및 네트워크 침입 킬 체인시작을 나타내는 것으로 알려진 동작 패턴을 식별합니다.

  3. 여러 사용자가 조정된 방식으로 작업할 때 언제든지 인식합니다. 예를 들어 여러 사용자가 모두 동일한 설명할 수 없는 아직 의도적으로 작성된 쿼리를 실행하거나, 사용자 수가 갑자기 급증하거나, AI 시스템의 특정 부분 활성화가 갑자기 급증합니다.

AI가 동일한 트릭에 다시 빠지지 않도록 버그 수정 및 재학습이 필요할 수 있으므로 이 유형의 공격은 서비스 거부 공격과 동등한 것으로 간주되어야 합니다. 중요한 점은 감정 분석 API를 무효화하는 데 사용되는 것과 같은 대책이 있는 상태에서 악의적인 의도를 식별하는 기능입니다[4].

재량: AI는 액세스할 수 있는 모든 정보의 책임 있고 신뢰할 수 있는 보유자여야 합니다. 인간으로서 우리는 의심할 여지 없이 AI 관계에 대한 특정 수준의 신뢰를 할당합니다. 어떤 시점에서, 이러한 에이전트는 우리 대신 다른 에이전트 또는 다른 인간과 이야기 할 것입니다. 우리는 AI 시스템이 다른 에이전트가 대신 작업을 완료할 수 있도록 우리에 대해 공유해야 하는 것을 제한된 형식으로만 공유할 충분한 재량권을 가지고 있다고 신뢰할 수 있어야 합니다. 또한 당사를 대신하여 개인 데이터와 상호 작용하는 여러 에이전트가 각각 글로벌 액세스 권한이 필요하지 않아야 합니다. 여러 AI 또는 봇 에이전트와 관련된 모든 데이터 액세스 시나리오는 필요한 최소 범위에 대한 액세스 수명을 제한해야 합니다. 또한 사용자는 웹 브라우저에서 현재 사이트 차단을 허용하는 것처럼 데이터를 거부하고 특정 회사 또는 로캘의 에이전트 인증을 거부할 수 있어야 합니다. 이 문제를 해결하려면 초기 연도에 클라우드 컴퓨팅을 사용하는 클라우드 기반 사용자 인증 투자와 같은 에이전트 간 인증 및 데이터 액세스 권한에 대해 새로운 사항을 고려해야 합니다.

AI는 자체적으로 편향되지 않고 다른 사람의 편견을 인식할 수 있어야 합니다.

AI는 특정 개인 그룹이나 유효한 결과를 차별하지 않고 공정하고 포괄적이어야 하지만 이를 달성하기 위해서는 편견에 대한 타고난 이해가 필요합니다. 편견, 트롤링 또는 풍자를 인식하도록 훈련되지 않고 AI는 저렴한 웃음을 추구하는 사람들에게 속거나 최악의 고객에게 해를 끼칠 수 있습니다.

이러한 수준의 인식을 달성하려면 문화적 편견에 대한 포괄적이고 진화하는 이해가 효과적으로 필요하기 때문에 "AI 나쁜 것을 가르치는 좋은 사람들"이 필요합니다. AI는 과거에 부정적인 상호 작용을 한 사용자를 인식하고 부모가 자녀에게 낯선 사람에 주의하도록 가르치는 방법과 유사하게 적절한 주의를 기울일 수 있어야 합니다. 이에 접근하는 가장 좋은 방법은 제어/조정/제한된 방식으로 트롤에 AI를 신중하게 노출하는 것입니다. 이러한 방식으로 AI는 양성 사용자 "타이어 발로 차기"와 실제 악성/트롤링 간의 차이를 배울 수 있습니다. 트롤은 AI를 위한 유용한 학습 데이터 스트림을 제공하므로 향후 공격에 대한 복원력이 향상됩니다.

또한 AI는 학습하는 데이터 세트의 바이어스를 인식할 수 있어야 합니다. 특정 그룹의 사람들이 사용 중인 언어를 포함하는 문화권 또는 지역 또는 한 그룹에 대한 특정 관심의 주제/관점일 수 있습니다. 악의적으로 도입된 학습 데이터와 마찬가지로 AI는 이 데이터가 자체 유추 및 추론에 미치는 영향에 대해 복원력이 있어야 합니다. 핵심은 경계 검사와 유사점이 있는 정교한 입력 유효성 검사 문제입니다. 버퍼 길이 및 오프셋을 처리하는 대신 버퍼 및 경계 검사는 광범위한 원본에서 빨간색 플래그가 지정된 단어입니다. 단어가 사용되는 대화 기록 및 컨텍스트도 핵심입니다. 기존 웹 서비스 API 프런트 엔드 위에 보호를 계층화하기 위해 심층 방어 사례를 사용하는 것처럼 바이어스 인식 및 회피 기술에서 여러 보호 계층을 활용해야 합니다.

Machine Learning 알고리즘은 양성 "Black Swan" 이벤트에서 악의적으로 도입된 데이터를 식별할 수 있어야 합니다.

공격자가 학습 데이터 세트와 사용 중인 모델에 대한 정보에 입각한 이해[2, 3, 6, 7] 모두에 액세스할 수 있는 서비스에서 ML 모델/분류자 변조 및 추출/도난의 이론적 잠재력에 대한 수많은 백서가 게시됩니다. 여기서 오버아킹 문제는 학습 집합 데이터를 제어하는 공격자에 의해 모든 ML 분류자를 속일 수 있다는 것입니다. 공격자는 기존 학습 집합 데이터를 수정할 수 있는 기능도 필요하지 않으며, ML 분류자가 정품 비정상적인 데이터로부터 악성 데이터를 식별할 수 없도록 하여 시간이 지남에 따라 입력을 "신뢰할 수" 있어야 합니다.

이 학습 데이터 공급망 문제는 분류자 동작에 부정적인 영향을 미치기 전에 악의적으로 도입된 학습 데이터 또는 사용자 입력을 식별하고 거부하는 "의사 결정 무결성"이라는 개념에 대해 소개합니다. 여기서 근거는 신뢰할 수 있는 학습 데이터가 신뢰할 수 있는 결과/결정을 생성할 확률이 높다는 것입니다. 신뢰할 수 없는 데이터를 학습시키고 복원력 있는 상태로 학습하는 것은 여전히 중요하지만, 해당 데이터의 악의적인 특성은 학습 데이터의 신뢰도가 높은 본문의 일부가 되기 전에 분석해야 합니다. 이러한 측정 값이 없으면 AI가 합법적인 사용자에게 서비스를 전환 하는 데 과도하게 대응하도록 강제 변환할 수 있습니다.

이는 자율 학습 알고리즘이 선별되지 않거나 신뢰할 수 없는 데이터 집합에 대한 학습인 경우에 특히 중요합니다. 즉, 형식이 유효하고 알고리즘이 학습되어 나머지 학습 집합과 동일하게 해당 데이터 지점을 효과적으로 신뢰하는 경우 공격자가 원하는 데이터를 도입할 수 있습니다. 공격자의 충분한 조작된 입력으로 학습 알고리즘은 신뢰도가 높은 데이터에서 노이즈 및 변칙을 식별할 수 없습니다.

이 위협의 예로, 모든 언어로 전 세계에 걸쳐 중지 표지판의 데이터베이스를 상상해보십시오. 관련된 이미지와 언어의 수 때문에 큐레이팅하는 것은 매우 어려울 것입니다. 자율 주행 자동차가 더 이상 정지 표지판을 인식하지 못할 때까지 해당 데이터 세트에 대한 악의적인 기여는 크게 눈에 띄지 않습니다. 데이터 복원력 및 의사 결정 무결성 완화는 악의적인 데이터가 학습 모델의 핵심 부분이 되는 것을 방지하기 위해 악의적인 데이터로 인한 학습 손상을 식별하고 제거하기 위해 여기서 직접 작업해야 합니다.

AI는 투명성과 책임을 제공하기 위해 기본 제공 법의학 및 보안 로깅이 있어야 합니다.

AI는 결국 우리를 대신하여 에이전트로서 전문적인 역량을 발휘하여 영향력이 큰 의사 결정을 지원할 수 있게 될 것입니다. 이 예제는 금융 거래를 처리하는 데 도움이 되는 AI일 수 있습니다. AI가 악용되고 트랜잭션이 어떤 식으로든 조작되면 결과는 개인에서 조직까지 다양할 수 있습니다. 고부가가치 시나리오에서 AI는 무결성, 투명성, 책임성을 제공하기 위해 적절한 법의학 및 보안 로깅이 필요하며, 경우에 따라 민사 또는 형사 책임이 발생할 수 있는 증거가 필요합니다.

필수 AI 서비스는 개발자가 특정 분류자의 기록된 상태를 검사할 수 있는 알고리즘 수준에서 감사/이벤트 추적 기능이 필요하며, 이로 인해 부정확한 결정이 발생할 수 있습니다. 이 기능은 문제가 발생할 때마다 AI 생성 결정의 정확성과 투명성을 증명하기 위해 업계 전반에서 필요합니다.

이벤트 추적 기능은 다음과 같은 기본 의사 결정 정보의 상관 관계로 시작할 수 있습니다.

  1. 마지막 학습 이벤트가 발생한 기간입니다.

  2. 학습된 최신 데이터 세트 항목의 타임스탬프

  3. 높은 영향을 주는 결정에 도달하는 데 사용되는 주요 분류자의 가중치 및 신뢰 수준

  4. 결정에 관련된 분류자 또는 구성 요소

  5. 알고리즘에서 도달한 최종 고가치 결정

이러한 추적은 대부분의 알고리즘 지원 의사 결정에 지나치게 적합합니다. 그러나 특정 결과로 이어지는 데이터 요소 및 알고리즘 메타데이터를 식별하는 기능은 높은 가치의 의사 결정에 큰 도움이 될 수 있습니다. 이러한 기능은 알고리즘의 "작업 표시" 기능을 통해 신뢰성과 무결성을 보여줄 뿐만 아니라 이 데이터를 미세 조정에도 사용할 수 있습니다.

AI/ML에 필요한 또 다른 포렌식 기능은 변조 감지입니다. 편견을 인식하고 이에 취약하지 않도록 하기 위해 AIS가 필요한 것처럼 엔지니어가 이러한 공격을 감지하고 대응하는 데 도움이 되는 법의학 기능을 사용할 수 있어야 합니다. 이러한 포렌식 기능은 보다 효과적인 결과를 위해 알고리즘의 감사, 디버깅 및 튜닝을 허용하는 데이터 시각화 기술 [10]과 쌍을 이루면 엄청난 가치를 지니고 있습니다.

AI는 인간이 그렇지 않더라도 중요한 정보를 보호해야 합니다.

다양한 경험에는 다양한 데이터가 필요합니다. 인간은 이미 ML이 학습할 수 있도록 방대한 양의 데이터를 자원하고 있습니다. 이는 평범한 비디오 스트리밍 큐 콘텐츠부터 사기 감지에 사용되는 신용 카드 구매/거래 기록의 추세에 이르기까지 다양합니다. AI는 사용자 데이터를 처리할 때 재량에 대한 인식이 있어야 하며, 과잉 공유 대중에 의해 자유롭게 자원한 경우에도 항상 이를 보호하기 위해 행동해야 합니다.

AI는 복잡한 작업을 수행하기 위해 대화하는 인증된 "피어" 그룹을 가질 수 있으므로 해당 피어와 공유하는 데이터를 제한해야 하는 필요성도 인식해야 합니다.

AI 보안 문제 해결에 대한 조기 관찰

이 프로젝트의 초기 상태에도 불구하고, 우리는 현재까지 컴파일 된 증거가 아래의 각 영역에 대한 심층 조사를 보여주는 것이 더 신뢰할 수 있고 안전한 AI / ML 제품 / 서비스로 업계를 이동하는 데 핵심이라고 믿습니다. 다음은 이 공간에서 우리가 보고 싶은 것에 대한 초기 관찰과 생각입니다.

  1. AI/ML 중심 침투 테스트 및 보안 검토 기관을 설정하여 향후 AI가 우리의 가치를 공유하고 Asilomar AI 원칙에 부합하도록 할 수 있습니다.

    1. 이러한 그룹은 AI/ML 기반 서비스 보안을 지원하기 위해 업계 전반에서 사용할 수 있는 도구와 프레임워크를 개발할 수도 있습니다.
    2. 시간이 지남에 따라 이 전문성은 지난 10년 동안의 기존 보안 전문성과 마찬가지로 엔지니어링 그룹 내에 유기적으로 구축됩니다.
  2. 이 문서에서 설명한 과제를 완화하면서 AI 민주화와 같은 목표를 달성할 수 있도록 하는 교육을 개발할 수 있습니다.

    1. AI 관련 보안 교육을 통해 엔지니어는 자신의 AI 및 리소스에 발생할 수 있는 위험을 파악할 수 있습니다. 이 자료는 고객 데이터 보호에 대한 현재 교육을 통해 전달되어야 합니다.
    2. 모든 데이터 과학자가 보안 전문가가 되도록 요구하지 않고도 이 작업을 수행할 수 있습니다. 대신 AI 사용 사례에 적용되는 복원력 및 재량에 대해 개발자를 교육하는 데 초점을 맞춥니다.
    3. 개발자는 엔터프라이즈에서 다시 사용되는 AI 서비스의 보안 "구성 요소"를 이해해야 합니다. 하위 시스템을 사용하는 내결함성 디자인에 중점을 두어야 하며, 이를 쉽게 끌 수 있습니다(예: 이미지 프로세서, 텍스트 파서).
  3. ML 분류자와 해당 기본 알고리즘은 현재 사용 중인 유효한 학습 데이터를 오염하거나 결과를 왜곡하지 않고도 악의적인 학습 데이터를 탐지할 수 있도록 강화될 수 있습니다.

    1. 부정 입력 거부 [5]와 같은 기술은 조사할 연구원 주기가 필요합니다.

    2. 이 작업에는 수학적 확인, 코드의 개념 증명 및 악성 및 양성 비정상 데이터에 대한 테스트가 포함됩니다.

    3. 특히 통계적 변칙이 있는 경우 인간의 스폿 검사/조정이 도움이 될 수 있습니다.

    4. "감독자 분류자"는 여러 AIS에서 위협에 대한 보다 보편적인 이해를 갖도록 빌드될 수 있습니다. 공격자가 특정 모델을 더 이상 탈취할 수 없기 때문에 시스템 보안이 크게 향상됩니다.

    5. AIS를 함께 연결하여 서로의 시스템에서 위협을 식별할 수 있습니다.

  4. AI의 투명성과 신뢰성에 대한 표준을 설정하는 중앙 집중식 ML 감사/포렌식 라이브러리를 빌드할 수 있습니다.

    1. AI를 통한 높은 비즈니스 영향 결정의 감사 및 재구성을 위해 쿼리 기능을 빌드할 수도 있습니다.
  5. 다양한 문화 그룹과 소셜 미디어에서 악의적 사용자가 사용하는 언어는 트롤링, 풍자 등을 감지하고 대응하기 위해 AI에 의해 지속적으로 인벤토리화되고 분석될 수 있습니다.

    1. AIS는 기술, 지역 또는 포럼별이든 관계없이 모든 종류의 언어에 대해 복원력이 있어야 합니다.

    2. 이 지식 본문은 중재자 확장성 문제를 해결하기 위해 콘텐츠 필터링/레이블 지정/차단 자동화에도 사용할 수 있습니다.

    3. 이러한 글로벌 용어 데이터베이스는 개발 라이브러리에서 호스트되거나 다른 AI에서 다시 사용할 수 있도록 클라우드 서비스 API를 통해 노출될 수도 있습니다. 이는 이전 버전의 결합된 지혜를 통해 새로운 AI의 이점을 얻을 수 있습니다.

  6. AI가 평가할 테스트 학습 집합에 다양한 유형의 공격을 삽입할 수 있는 기능을 엔지니어에게 제공하는 "Machine Learning 유사 프레임워크"를 만들 수 있습니다.

    1. 이렇게 하면 텍스트 언어뿐만 아니라 이미지, 음성 및 제스처 데이터 및 해당 데이터 형식의 순열에 초점을 맞출 수 있습니다.

결론

Asilomar AI 원칙은 지속적으로 인류에게 혜택을 주는 방식으로 AI를 제공하는 복잡성을 보여 줍니다. 향후 AIS는 풍부하고 매력적인 사용자 환경을 제공하기 위해 다른 AIS와 상호 작용해야 합니다. 즉, Microsoft가 보안 관점에서 "AI를 올바르게 얻기"에 충분하지 않다는 것을 의미합니다. 우리는 디지털 제네바 협약에 대한 우리의 세계적인 추진과 유사한 방식으로이 문서의 문제에 가져 더 큰 가시성과 업계 정렬 및 협력이 필요합니다 [8]. 여기에 제시된 문제를 해결함으로써, 우리는 AI가 진정으로 민주화되고 모든 인류의 지능을 보강하는 길로 고객과 업계 파트너를 안내하기 시작할 수 있습니다.

참고 문헌

[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512

[2] 플로리안 트라메르, 팬 장, 아리 Juels, 마이클 K. Reiter, 토마스 리스텐 파트, 예측 API를 통해 기계 학습 모델을 훔치는

[3] 사티야 나델라: 미래의 파트너십

[4] 클라번, 토마스: 구글의 트롤 파괴 AI는 오타에 대처할 수 없다

[5] 마르코 바레노, 블레인 넬슨, 앤서니 디 조셉, J.D. 타이가: 기계 학습의 보안

[6] 울오버, 나탈리: 이 인공 지능 개척자는 몇 가지 우려를 가지고

[7] Conn, Ariel: 인공 지능을 인간의 가치에 맞추려면 어떻게 해야 할까요?

[8] 스미스, 브래드: 온라인에서 사람들을 안전하게 지키기 위한 긴급한 집단 행동의 필요성: 지난 주 사이버 공격의 교훈

[9] 니콜라스 칼리니, 프라티우스 미쉬라, 타비시 바이다, 위안카이 장, 미카 셰르, 클레이 쉴즈, 데이비드 바그너, 웬차오 저우: 숨겨진 음성 명령

[10] 페르난다 비에가스, 마틴 와텐버그, 다니엘 스밀코프, 제임스 벡슬러, 짐보 윌슨, 니킬 토라트, 찰스 니콜슨, 구글 리서치: 빅 픽처