Protección del futuro de la inteligencia artificial y el aprendizaje automático en Microsoft

2025-03-12

Por Andrew Marshall, Raul Rojas, Jay Stokes y Donald Brinkman

Un agradecimiento especial a Mark Cartwright y Graham Calladine

Resumen ejecutivo

La inteligencia artificial (IA) y el aprendizaje automático (ML) ya tienen un enorme efecto en la forma en que las personas trabajan, sociabilizan y viven. A medida que aumenta el consumo de productos y servicios creados en torno a la inteligencia artificial y el aprendizaje automático, se deben emprender acciones especializadas para proteger no solo a los clientes y sus datos, sino también para proteger la inteligencia artificial y sus algoritmos de abuso, trolling y extracción. En este documento se comparten algunas de las lecciones sobre seguridad que Microsoft ha aprendido de diseñar productos y ofrecer servicios en línea basados en inteligencia artificial. Aunque es difícil predecir cómo evolucionará esta área, hemos concluido que hay problemas que se deben abordar en este momento. Además, descubrimos que hay problemas estratégicos para los que el sector tecnológico debe prepararse a fin de garantizar la protección a largo plazo de los clientes y la seguridad de sus datos.

En este documento no se tratan los ataques basados en inteligencia artificial ni el aprovechamiento de la inteligencia artificial por parte de adversarios humanos. En su lugar, nos centramos en los problemas que Microsoft y los asociados del sector tienen que abordar para proteger los productos y servicios basados en inteligencia artificial de ataques de gran sofisticación, creativos y malintencionados, tanto si se llevan a cabo por trols individuales como por manadas enteras.

Este documento se centra totalmente en los problemas de ingeniería de seguridad exclusivos del espacio de la inteligencia artificial y el aprendizaje automático, pero debido a la naturaleza expansiva del dominio de seguridad de la información, se entiende que los problemas y las conclusiones que se describen aquí se superponen hasta cierto punto con los dominios de la privacidad y la ética. Dado que el presente documento destaca los desafíos de importancia estratégica para el sector tecnológico, el público de destino de este documento son los líderes de todo el sector de ingeniería de seguridad.

Nuestras primeras conclusiones sugieren lo siguiente:

Para mitigar los tipos de problemas de seguridad que se describen en este documento, se necesitan apartados específicos para la inteligencia artificial y el aprendizaje automático en relación con las prácticas de seguridad existentes.
En gran medida, los modelos de Machine Learning no pueden distinguir entre entradas malintencionadas y datos anómalos inofensivos. Un origen importante de los datos de entrenamiento se obtiene de conjuntos de datos públicos, sin moderación y ni mantenimiento, que están abiertos a contribuciones de terceros. Los atacantes no necesitan poner en peligro los conjuntos de datos cuando tienen la libertad de colaborar en ellos. Con el tiempo, los datos malintencionados de baja confianza se convierten en datos de gran confianza, si la estructura o el formato de los datos siguen siendo correctos.
Debido al gran número de capas de neuronas o clasificadores ocultos que se pueden usar en un modelo de aprendizaje profundo, se pone demasiada confianza en la salida de los procesos y algoritmos de toma de decisiones de la inteligencia artificial y el aprendizaje automático, sin una comprensión crítica de cómo se ha llegado a estas decisiones. Esta ofuscación crea una imposibilidad de "mostrar su trabajo" y dificulta defender de manera probada las conclusiones de inteligencia artificial o aprendizaje automático cuando se ponen en duda.
La inteligencia artificial y el aprendizaje automático se usan cada vez más para asistir en procesos de toma de decisiones de alto valor en medicina y otros sectores donde la decisión equivocada puede dar lugar a lesiones graves o fallecimientos. La falta de funcionalidades de informes forenses en inteligencia artificial y aprendizaje automático impide que estas conclusiones de alto valor se puedan defender tanto en un tribunal de justicia como en el tribunal de la opinión pública.

Los objetivos de este documento son: (1) destacar los problemas de ingeniería de seguridad que son exclusivos del espacio de la inteligencia artificial y el aprendizaje automático, (2) mostrar algunas ideas y observaciones iniciales sobre las amenazas emergentes y (3) compartir las primeras reflexiones sobre posibles correcciones. Algunos de los desafíos que se tratan en este documento son los problemas en los que el sector tiene que avanzar en los próximos dos años, otros son problemas que ya nos hemos visto obligados a abordar en la actualidad. Sin una investigación más profunda en las áreas que se describen en este documento, nos arriesgamos a que la inteligencia artificial del futuro se conviertan en una caja negra debido a nuestra incapacidad de confiar o comprender (y modificar si es necesario) los procesos de toma de decisiones de la inteligencia artificial en un nivel matemático [7]. Desde una perspectiva de la seguridad, esto se traduce en una pérdida de control y en un alejamiento de los principios rectores de Microsoft con respecto a la inteligencia artificial [3, 7].

Nuevos desafíos de la ingeniería de seguridad

El abordaje de los vectores de ataque de software tradicionales sigue siendo crítico, pero estos no proporcionan cobertura suficiente en el contexto de las amenazas de la inteligencia artificial y el aprendizaje automático. El sector tecnológico debe evitar combatir los problemas de próxima generación con soluciones de última generación, y debe crear nuevos marcos y adoptar nuevos enfoques que aborden las brechas en el diseño y el funcionamiento de los servicios basados en inteligencia artificial y aprendizaje automático:

Como se describe más adelante, las bases seguras del desarrollo y de las operaciones deben incorporar los conceptos de "resistencia" y "discreción" al proteger la inteligencia artificial y los datos bajo su control. Son necesarios apartados específicos para la inteligencia artificial en las áreas de autenticación, separación de tareas, validación de entradas y mitigación de denegación de servicio. Sin inversiones en estas áreas, los servicios de inteligencia artificial y aprendizaje automático seguirán lidiando una batalla cuesta arriba contra adversarios de todos los niveles de aptitud.
La inteligencia artificial debe ser capaz de reconocer el sesgo en los demás, sin padecer el sesgo en sus propias interacciones con las personas. Para ello, se requiere una comprensión colectiva y en constante evolución de los sesgos, estereotipos, jergas y otras construcciones culturales. Una comprensión tal ayuda a proteger la inteligencia artificial frente a ataques de ingeniería social y manipulación de conjuntos de datos. En realidad, un sistema implementado de forma correcta se hace más robusto a partir de estos ataques y puede compartir su conocimiento ampliado con otras inteligencias artificiales.
Los algoritmos de aprendizaje automático deben ser capaces de distinguir los datos introducidos de forma malintencionada de eventos inofensivos de "cisne negro" [1] al rechazar los datos de entrenamiento con un impacto negativo en los resultados. De lo contrario, los modelos de aprendizaje siempre son susceptibles de ser presa de atacantes y trols.
La inteligencia artificial debe tener funcionalidades forenses integradas. Esto permite a las empresas ofrecer a los clientes la transparencia y responsabilidad de su inteligencia artificial, para asegurar que sus acciones no solo sean correctas, sino que también se puedan defender judicialmente. Estas funcionalidades también sirven de forma precoz de "detección de intrusiones en la inteligencia artificial", lo que permite a los ingenieros establecer el punto exacto en el que un clasificador tomó una decisión, qué datos influyeron en ella y si esos datos eran de confianza o no. Las funcionalidades de visualización de datos en esta área avanzan rápidamente y muestran el compromiso de ayudar a los ingenieros a detectar y resolver las causas principales de estos problemas complejos [10].
La inteligencia artificial debe reconocer y proteger la información confidencial, incluso si las personas no la reconocen como tal. Las experiencias de usuario enriquecidas en la inteligencia artificial exigen grandes cantidades de datos sin procesar con los cuales entrenar, por lo que se debe planificar el "uso compartido excesivo" por parte de los clientes.

Cada una de estas áreas, incluidas las amenazas y las posibles mitigaciones, se describe en detalle a continuación.

La inteligencia artificial requiere nuevos apartados frente a los modelos tradicionales de diseño seguro y operaciones seguras: la introducción de resistencia y discreción

Los diseñadores de inteligencia artificial deben garantizar siempre la confidencialidad, integridad y disponibilidad de los datos confidenciales, que el sistema de inteligencia artificial está libre de vulnerabilidades conocidas, y proporcionar controles para la protección, la detección y la respuesta ante comportamientos malintencionados en el sistema o los datos del usuario.

Las formas tradicionales de defenderse frente a ataques malintencionados no ofrecen la misma cobertura en este nuevo paradigma, donde los ataques basados en voz, vídeo o imagen pueden eludir los filtros y las defensas actuales. Deben explorarse nuevos aspectos del modelado de amenazas con el fin de evitar que los nuevos abusos se aprovechen de nuestra inteligencia artificial. Esto va mucho más allá de la identificación de la superficie tradicional expuesta a ataques a través de pruebas de vulnerabilidad ante datos aleatorios o inesperados y la manipulación de entradas (esos ataques tienen también sus propios apartados específicos de inteligencia artificial). Exige incorporar escenarios exclusivos del espacio de inteligencia artificial y aprendizaje automático. Entre estos, la clave está en las experiencias de usuario de inteligencia artificial, como voz, vídeo y gestos. Las amenazas asociadas a estas experiencias tradicionalmente no se han modelado. Por ejemplo, el contenido de vídeo ahora se está adaptando para inducir efectos físicos. Además, la investigación demuestra que se pueden elaborar comandos de ataque basados en audio [9].

La impredecibilidad, la creatividad y la malintencionalidad de delincuentes, adversarios decididos y trols nos exigen inculcar a nuestras inteligencias artificiales resistencia y discreción:

Resistencia: el sistema debe ser capaz de identificar comportamientos anómalos y evitar la manipulación o la coerción fuera de los límites normales del comportamiento aceptable en relación con el sistema de IA y la tarea específica. Estos son nuevos tipos de ataques específicos del espacio de la inteligencia artificial y el aprendizaje automático. Los sistemas deben diseñarse para resistir las entradas que, de lo contrario, entrarían en conflicto con las leyes locales, la ética y los valores de la comunidad y de sus creadores. Esto significa dotar a inteligencia artificial con capacidad para decidir si una interacción "se aparta del libreto". Esto puede lograrse con los métodos siguientes:

Reconozca a los usuarios individuales que se desvían de las normas fijadas por los diversos grandes grupos de usuarios similares, por ejemplo, los usuarios que parecen escribir demasiado rápido, responder demasiado rápido, no dormir o desencadenar partes del sistema que otros usuarios no hacen.
Identifique patrones de comportamiento que se sabe son indicadores de ataques de sondeo con intenciones malintencionadas y del inicio de la cadena de exterminio de intrusiones de red.
Reconozca cada vez que varios usuarios actúen de manera coordinada; por ejemplo, varios usuarios emiten la misma consulta inexplicable, pero deliberada, picos repentinos en la cantidad de usuarios o en la activación de partes específicas de un sistema de inteligencia artificial.

Los ataques de este tipo deben considerarse a la par de los ataques por denegación de servicio, ya que la inteligencia artificial puede necesitar correcciones y un nuevo entrenamiento para no volver a tropezar con la misma piedra. Es fundamental la capacidad de identificar la intención malintencionada en presencia de contramedidas, como las que se usan para derrotar a las API de análisis de sentimiento [4].

Discreción: la IA debe ser un custodio responsable y confiable de toda la información a la que tenga acceso. Como seres humanos, sin duda asignamos un cierto grado de confianza a nuestras relaciones con la inteligencia artificial. En algún momento, estos agentes se comunicarán con otros agentes u otros usuarios en nuestro nombre. Debemos ser capaces de confiar en que un sistema de inteligencia artificial tendrá la suficiente discreción para compartir de manera restringida solo lo que deba compartirse sobre nosotros de modo que otros agentes puedan completar tareas en su nombre. Además, cuando varios agentes interactúen con datos personales en nuestro nombre, no es necesario que cada uno tenga acceso global a ellos. Cualquier escenario de acceso a datos que involucre a varios agentes bot o de inteligencia artificial debe limitar la duración del acceso a la extensión mínima necesaria. Además, los usuarios deben poder denegar los datos y rechazar la autenticación de los agentes de empresas o configuraciones regionales específicas, al igual que los exploradores web permiten bloquear sitios en la actualidad. Resolver este problema requiere un nuevo pensamiento sobre la autenticación entre agentes y los privilegios de acceso a datos, como las inversiones en autenticación de usuario basadas en la nube hechas en los primeros años de la informática en la nube.

La inteligencia artificial debe ser capaz de reconocer el sesgo en los demás, sin padecer el sesgo propio

Si bien la inteligencia artificial debe ser equitativa e inclusiva sin discriminar respecto a un grupo concreto de personas o resultados válidos, debe tener una comprensión innata del sesgo para poder lograrlo. Si contar con entrenamiento para reconocer sesgos, trolling o sarcasmo, la inteligencia artificial puede ser engañada por los que buscan una risa fácil, en el mejor de los casos, o bien causar daños a los clientes, en el peor de ellos.

Lograr este nivel de conciencia exige que "buenas personas enseñen cosas malas a la inteligencia artificial", ya que requiere un conocimiento completo y en constante evolución de los sesgos culturales. La inteligencia artificial debe ser capaz de reconocer a un usuario con el que ha tenido interacciones negativas en el pasado y a tener un cuidado adecuado, así como los padres enseñan a sus hijos a tener cuidado con los extraños. La mejor manera de abordar esto es exponer a la inteligencia artificial a troles de manera controlada, moderada o limitada. De este modo, la inteligencia artificial puede aprender la diferencia entre un usuario inofensivo que está "probando el producto" y una conducta malintencionada o trolling reales. Los trols proporcionan un valioso flujo de datos de entrenamiento para la inteligencia artificial, lo que la hace más resistente frente a ataques futuros.

La inteligencia artificial también debe ser capaz de reconocer el sesgo en los conjuntos de datos con los que se entrena. Esto podría ser cultural o regional, con la jerga en uso por parte de un grupo determinado de personas, o temas o puntos de vista de interés específico para un grupo. Como sucede con los datos de entrenamiento introducidos de forma malintencionada, la inteligencia artificial debe ser resistente a los efectos de estos datos en sus propias inferencias y deducciones. En esencia, se trata de un tema de validación de entradas sofisticado con similitudes con la comprobación de límites. En lugar de tratar con longitudes y desplazamientos del búfer, las comprobaciones de búferes y límites son palabras de alerta de una amplia gama de orígenes. El historial de conversaciones y el contexto en el que se usan las palabras también son claves. Así como se usan prácticas de defensa en profundidad para incluir protecciones en capas sobre un front-end tradicional de API de servicios web, las técnicas de reconocimiento y prevención de sesgos deben aprovechar varias capas de protección.

Los algoritmos de aprendizaje automático deben ser capaces de distinguir los datos introducidos de forma malintencionada de los eventos inofensivos de "cisne negro"

Se han publicado numerosos artículos académicos sobre el potencial teórico de la manipulación de modelos y clasificadores de aprendizaje automático, y la extracción y robo de servicios en los que los atacantes tienen acceso tanto al conjunto de datos de aprendizaje como a un conocimiento informado del modelo usado [2, 3, 6, 7]. Aquí, el problema que sobrevuela es que todos los clasificadores de aprendizaje automático pueden ser engañados por un atacante que tenga control sobre los datos del conjunto de entrenamiento. Los atacantes ni siquiera necesitan la capacidad de modificar los datos del conjunto de entrenamiento existentes, solo tienen que poder agregarles datos y lograr que sus entradas se vuelvan "de confianza" con el tiempo, gracias a la incapacidad del clasificador de aprendizaje automático de diferenciar datos malintencionados de datos anómalos auténticos.

Este problema de la cadena de suministro de datos de entrenamiento nos presenta el concepto de "integridad de la decisión": la capacidad de detectar y rechazar datos de entrenamiento o entradas del usuario introducidos de forma malintencionada, antes de que tenga un impacto negativo en el comportamiento del clasificador. La razón es que los datos de aprendizaje de confianza tienen una mayor probabilidad de generar resultados y decisiones de confianza. Si bien todavía es fundamental entrenar con datos de confianza y ser resistentes a estos, la naturaleza malintencionada de los datos se debe analizar antes de que se vuelvan parte de un cuerpo de datos de entrenamiento de alta confianza. Sin estas medidas, la inteligencia artificial podría verse forzada a reaccionar en exceso ante actos de trolling y denegar el servicio a usuarios legítimos.

Esto genera una especial preocupación en los casos en que los algoritmos de aprendizaje sin supervisión se entrenan en conjuntos de datos sin mantener o que no son de confianza. Esto significa que los atacantes pueden introducir los datos que deseen, siempre que el formato sea válido y que el algoritmo se entrene con ellos, con lo que confiará en ese punto de datos de la misma manera que lo hace con el resto del conjunto de entrenamiento. Con una cantidad suficiente de entradas elaboradas por el atacante, el algoritmo de entrenamiento pierde la capacidad de discernir el ruido y las anomalías de los datos de alta confianza.

Como ejemplo de esta amenaza, imagine una base de datos de señales de alto en todo el mundo, en todos los idiomas. Esto sería sumamente difícil de mantener debido al número de imágenes e idiomas involucrados. La contribución malintencionada a ese conjunto de datos pasaría desapercibida en gran medida hasta que los coches autónomos ya no reconozcan las señales de alto. Las mitigaciones de integridad de las decisiones y resistencia de los datos se deben trabajar en conjunto para detectar y eliminar el daño de entrenamiento causado por los datos malintencionados a fin de evitar que se conviertan en una parte fundamental del modelo de aprendizaje.

La inteligencia artificial debe tener integrado un registro forense y de seguridad para brindar transparencia y responsabilidad

En definitiva, la inteligencia artificial podrá actuar en calidad profesional como agente en nuestro nombre y ayudarnos con la toma de decisiones de alto impacto. Un ejemplo de esto podría ser una inteligencia artificial que ayude en el procesamiento de operaciones financieras. Si alguien se aprovechara de la inteligencia artificial y manipulara las operaciones en alguna medida, las consecuencias podrían ir de una persona a todo el sistema. En escenarios de valor alto, la inteligencia artificial necesita un registro forense y de seguridad adecuado para proporcionar integridad, transparencia, responsabilidad y, en algunos casos, evidencia, cuando puedan surgir responsabilidades civiles o penales.

Los servicios de inteligencia artificial esenciales necesitan funciones de auditoría y seguimiento de eventos a nivel del algoritmo, de modo que los desarrolladores puedan examinar el estado registrado de clasificadores específicos que puedan haber llevado a una decisión imprecisa. Esta funcionalidad es necesaria en todo el sector con el fin de demostrar la corrección y la transparencia de las decisiones generadas mediante inteligencia artificial siempre que se pongan en duda.

Las funciones de seguimiento de eventos podrían comenzar con la correlación de información básica de toma de decisiones, por ejemplo:

El período de tiempo en el que tuvo lugar el último evento de entrenamiento
La marca de tiempo de la entrada del conjunto de datos más reciente con el que se entrenó
Las ponderaciones y niveles de confianza de los clasificadores clave usados para llegar a decisiones de alto impacto
Los clasificadores o componentes involucrados en la decisión
La decisión de alto valor final alcanzada por el algoritmo

Este seguimiento es excesivo para la mayoría de las tomas de decisiones asistidas por algoritmos. Pero tener la capacidad de detectar los puntos de datos y los metadatos del algoritmo que conducen a resultados específicos será una gran ventaja en la toma de decisiones de alto valor. Estas funcionalidades no solo demuestran la confiabilidad e integridad en la capacidad del algoritmo de "mostrar su trabajo", sino que estos datos también se pueden usar para realizar optimizaciones.

Otra funcionalidad forense necesaria en la inteligencia artificial y el aprendizaje automático es la detección de alteraciones. Del mismo modo que necesitamos que las inteligencias artificiales reconozcan los sesgos y no sean susceptibles a ellos, deberíamos tener disponibles funcionalidades forenses para ayudar a nuestros ingenieros a detectar y responder a tales ataques. Estas funcionalidades forenses son de enorme valor cuando se combinan con técnicas de visualización de datos [10] que permitan la auditoría, la depuración y la optimización de los algoritmos para obtener resultados más eficaces.

La inteligencia artificial debe proteger la información confidencial, incluso si los usuarios no lo hacen

Las experiencias enriquecidas exigen datos enriquecidos. Los seres humanos ya entregan enormes cantidades de datos con los cuales entrenar el aprendizaje automático. Esto abarca desde el contenido cotidiano de las colas de streaming de vídeos hasta las tendencias en compras con tarjetas de crédito e historiales de transacciones que se usan para detectar fraudes. La inteligencia artificial debe tener arraigada una sensación de discreción en cuanto al manejo de los datos de los usuarios, y actuar siempre para protegerlos, incluso cuando provengan de manera libre de un público que los comparte en exceso.

Dado que una inteligencia artificial puede tener un grupo autenticado de "compañeros" con los que se comunique para realizar tareas complejas, también debe reconocer la necesidad de restringir los datos que comparte con esos pares.

Observaciones tempranas sobre el abordaje de los problemas de seguridad de IA

A pesar del estado incipiente de este proyecto, creemos que la evidencia compilada hasta la fecha muestra que una investigación más profunda en cada una de las áreas siguientes resulta clave para que nuestro sector avance hacia productos y servicios de inteligencia artificial y aprendizaje automático más confiables y seguros. A continuación se muestran nuestras primeras observaciones y opiniones sobre lo que nos gustaría ver al respecto.

Podrían definirse pruebas de penetración y organismos de revisión de seguridad centrados en inteligencia artificial y aprendizaje automático con el fin de asegurar que la inteligencia artificial futura comparta nuestros valores y se alinee con los Principios de Asilomar sobre inteligencia artificial.
1. Este grupo también podría desarrollar herramientas y marcos que puedan consumirse en todo el sector para apoyar la protección de sus servicios basados en inteligencia artificial y aprendizaje automático.
2. Con el tiempo, los grupos de ingeniería acumularán esta experiencia de manera orgánica, como ha sucedido con la experiencia en seguridad tradicional en los últimos 10 años.
El entrenamiento podría desarrollarse de manera que permita a las empresas cumplir con los objetivos, como la democratización de la inteligencia artificial, a la vez que se mitigan los desafíos descritos en este documento.
1. El entrenamiento en seguridad específico de la inteligencia artificial garantiza que los ingenieros conozcan los riesgos que corre su inteligencia artificial y los recursos a su disposición. Este material se debe entregar junto con el entrenamiento actual sobre la protección de los datos de los clientes.
2. Esto puede lograrse sin necesidad de que cada científico de datos se convierta en experto en seguridad; en su lugar, el foco se pone en educar a los desarrolladores en resistencia y discreción según se aplique a sus casos de uso de inteligencia artificial.
3. Los desarrolladores tendrán que conocer los "bloques básicos" seguros de los servicios de inteligencia artificial que se reutilizarán en su empresa. Será necesario hacer hincapié en el diseño tolerante a errores mediante subsistemas que se puedan desactivar fácilmente (por ejemplo, procesadores de imágenes, analizadores de texto).
Los clasificadores de aprendizaje automático y sus algoritmos subyacentes se podrían fortalecer y hacerse capaces de detectar datos de entrenamiento malintencionados sin que se contaminen los datos de entrenamiento válidos actualmente en uso ni se sesguen los resultados.
1. Las técnicas como el rechazo ante entrada negativa (RONI) [5] necesitan ciclos de análisis para investigar.
2. Este trabajo implica la comprobación matemática, la prueba de concepto en el código y las pruebas de datos malintencionados y anómalos inofensivos.
3. La comprobación o moderación humanas podrían ser beneficiosas en este sentido, en especial cuando existan anomalías estadísticas.
4. Se podrían crear "clasificadores supervisores" para lograr una comprensión más universal de las amenazas entre varias inteligencias artificiales. Esto mejora enormemente la seguridad del sistema, ya que el atacante ya no podrá filtrar ningún modelo en particular.
5. Las inteligencias artificiales se podrían vincular para detectar las amenazas en los sistemas entre sí.
Se podría crear una biblioteca centralizada de auditoría/análisis forense de aprendizaje automático que estableciera una norma para la transparencia y la confiabilidad de la inteligencia artificial.
1. También se podrían crear funcionalidades de consulta para la auditoría y reconstrucción de decisiones de gran impacto empresarial por parte de la inteligencia artificial.
La jerga en uso por los adversarios entre los distintos grupos culturales y medios sociales se podría inventariar y analizar continuamente mediante inteligencia artificial para detectar y responder ante trolling, sarcasmos, etc.
1. Las inteligencias artificiales deben ser resistentes a todos los tipos de jergas, ya sean técnicas, regionales o específicas de un foro.
2. Este cuerpo de conocimientos también se podría aprovechar en la automatización del filtrado, etiquetado y bloqueo del contenido para abordar los problemas de escalabilidad de los moderadores.
3. Esta base de datos global de términos podría hospedarse en bibliotecas de desarrollo o, incluso, exponerse a través de API de servicios en la nube para su reutilización por parte de distintas inteligencias artificiales, para garantizar que las nuevas inteligencias artificiales se beneficien de la sabiduría combinada de las más antiguas.
Se puede crear un "marco de pruebas de vulnerabilidad ante datos aleatorios o inesperados para el aprendizaje automático", que ofrezca a los ingenieros la capacidad de insertar varios tipos de ataques en los conjuntos de entrenamiento de prueba para su evaluación por parte de la inteligencia artificial.
1. Esto se podría centrar no solo en la jerga de texto, sino también en los datos de imágenes, voz y gestos, así como en las permutaciones de esos tipos de datos.

Conclusión

Los Principios de Asilomar sobre inteligencia artificial ilustran la complejidad de alcanzar una inteligencia artificial que resulte beneficiosa para la humanidad de manera constante. Las inteligencias artificiales del futuro tendrán que interactuar con otras para ofrecer experiencias de usuario enriquecidas y atractivas. Esto sencillamente se traduce en que no basta con que Microsoft "logre una buena inteligencia artificial" desde una perspectiva de la seguridad: el mundo tiene que hacerlo. Se necesita la alineación y la colaboración del sector con una mayor visibilidad sobre los problemas abordados en este documento, de forma similar a nuestro empuje mundial por una Convención de Ginebra Digital [8]. Al abordar los problemas que se presentan aquí, podremos empezar a guiar a nuestros clientes y socios del sector por una ruta en la que la inteligencia artificial esté verdaderamente democratizada y aumente la inteligencia de toda la humanidad.

Bibliografía

[1] Taleb, Nassim Nicholas (2007), The Black Swan: The Impact of the Highly Improbable, Random House, ISBN 978-1400063512

[2] Florian Tramèr, Fan Zhang, Ari Juels, Michael K. Reiter, Thomas Ristenpart, Stealing Machine Learning Models via Prediction APIs

[3] Satya Nadella: The Partnership of the Future

[4] Claburn, Thomas: Google's troll-destroying AI can't cope with typos

[5] Marco Barreno, Blaine Nelson, Anthony D. Joseph, J.D. Tygar: The security of machine learning

[6] Wolchover, Natalie: This Artificial Intelligence Pioneer Has a Few Concerns

[7] Conn, Ariel: How Do We Align Artificial Intelligence with Human Values?

[8] Smith, Brad: The need for urgent collective action to keep people safe online: Lessons from last week’s cyberattack

[9] Nicholas Carlini, Pratyush Mishra, Tavish Vaidya, Yuankai Zhang, Micah Sherr, Clay Shields, David Wagner, Wenchao Zhou: Hidden Voice Commands

[10] Fernanda Viégas, Martin Wattenberg, Daniel Smilkov, James Wexler, Jimbo Wilson, Nikhil Thorat, Charles Nicholson, Google Research: Big Picture