Cleanroom y Análisis de datos de varios fabricantes
La computación confidencial de Azure (ACC) proporciona una base para las soluciones que permiten a varias partes colaborar en los datos. Hay varios enfoques para las soluciones y un ecosistema creciente de asociados para ayudar a permitir que los clientes, investigadores, científicos de datos y proveedores de datos de Azure colaboren en los datos a la vez que conservan la privacidad. En esta introducción se describen algunos de los enfoques y las soluciones existentes que se pueden usar, todas ellas en ejecución en ACC.
¿Cuáles son las protecciones de datos y modelos?
Las soluciones de sala limpia de datos suelen ofrecer un medio para que uno o varios proveedores de datos combinen datos para su procesamiento. Normalmente hay un código, consultas o modelos acordados por uno de los proveedores u otro participante, como un investigador o proveedor de soluciones. En muchos casos, los datos se pueden considerar confidenciales y no deseados para compartir directamente a otros participantes, ya sea otro proveedor de datos, un investigador o proveedor de soluciones. Para ayudar a garantizar la seguridad y la privacidad de los datos y los modelos usados en los cuartos limpios de datos, la computación confidencial se puede usar para comprobar criptográficamente que los participantes no tienen acceso a los datos o modelos, incluido durante el procesamiento. Mediante el uso de ACC, las soluciones pueden aportar protecciones a los datos y la dirección IP del modelo del operador en la nube, el proveedor de soluciones y los participantes de colaboración de datos.
¿Qué son ejemplos de casos de uso del sector?
Con ACC, los clientes y asociados crean la privacidad conservando soluciones de análisis de datos de varias partes, a veces denominadas "salas limpias confidenciales", tanto las nuevas soluciones netas como confidenciales, y las soluciones de sala limpia existentes se convierten en confidenciales con ACC.
- Solución de sala limpia virtual royal Bank of Canada - que combina datos comerciales con datos bancarios con el fin de proporcionar ofertas personalizadas, mediante máquinas virtuales de computación confidencial de Azure y Azure SQL AE en enclaves seguros.
- Scotiabank : demostró el uso de inteligencia artificial en flujos de dinero entre bancos para identificar el blanqueo de dinero para marcar instancias de trata de personas, mediante la computación confidencial de Azure y un asociado de solución, opaco.
- Novartis Biome : utiliza una solución asociada de BeeKeeperAI que se ejecuta en ACC para encontrar candidatos para ensayos clínicos para enfermedades raras.
- Proveedores de pago líderes que conectan datos a través de bancos para la detección de fraudes y anomalías.
- Servicios analíticos de datos y soluciones de sala limpia que usan ACC para aumentar la protección de datos y satisfacer las necesidades de cumplimiento de los clientes de la UE y la regulación de privacidad.
¿Por qué la computación confidencial?
Los espacios limpios de datos no son un concepto nuevo, pero con avances en la computación confidencial, hay más oportunidades para aprovechar la escala de la nube con conjuntos de datos más amplios, proteger la dirección IP de los modelos de inteligencia artificial y la capacidad de cumplir mejor las normativas de privacidad de los datos. En casos anteriores, es posible que algunos datos no sean accesibles por motivos como
- Desventajas competitivas o normativas que impiden el uso compartido de datos en empresas del sector.
- Anonimización que reduce la calidad de la información sobre los datos o es demasiado costoso y lento.
- Los datos que se enlazan a determinadas ubicaciones y se abstienen del procesamiento en la nube debido a problemas de seguridad.
- Los procesos legales costosos o largos cubren la responsabilidad si los datos se exponen o se abusan
Estas realidades podrían dar lugar a conjuntos de datos incompletos o ineficaces que dan lugar a información más débil o más tiempo necesario en el entrenamiento y el uso de modelos de IA.
¿Cuáles son las consideraciones al crear una solución de sala limpia?
Análisis por lotes frente a canalizaciones de datos en tiempo real: el tamaño de los conjuntos de datos y la velocidad de información se deben tener en cuenta al diseñar o usar una solución de espacio limpio. Cuando los datos están disponibles "sin conexión", se pueden cargar en un entorno de proceso comprobado y protegido para el procesamiento analítico de datos en grandes partes de datos, si no en todo el conjunto de datos. Este análisis por lotes permite evaluar grandes conjuntos de datos con modelos y algoritmos que no se espera que proporcionen un resultado inmediato. Por ejemplo, el análisis por lotes funciona bien al realizar la inferencia de ML en millones de registros de salud para encontrar los mejores candidatos para un ensayo clínico. Otras soluciones requieren información en tiempo real sobre los datos, como cuando los algoritmos y los modelos tienen como objetivo identificar el fraude en transacciones casi en tiempo real entre varias entidades.
Participación de confianza cero: un diferenciador importante en las salas de limpieza confidenciales es la capacidad de no tener ninguna parte implicada en confianza, de todos los proveedores de datos, desarrolladores de código y modelos, proveedores de soluciones y administradores de operadores de infraestructura. Se pueden proporcionar soluciones en las que tanto los datos como la dirección IP del modelo se pueden proteger de todas las partes. Al incorporar o compilar una solución, los participantes deben tener en cuenta lo que se desea proteger y de quién proteger cada uno de los datos, modelos y código.
Aprendizaje federado: el aprendizaje federado implica la creación o el uso de una solución, mientras que los modelos procesan en el inquilino del propietario de los datos y la información se agregan en un inquilino central. En algunos casos, los modelos se pueden ejecutar incluso en datos fuera de Azure, con la agregación de modelos que todavía se produce en Azure. Muchas veces, el aprendizaje federado recorre en iteración los datos muchas veces a medida que los parámetros del modelo mejoran una vez agregada la información. Los costos de iteración y la calidad del modelo deben tenerse en cuenta en la solución y los resultados esperados.
Residencia y orígenes de datos: los clientes tienen datos almacenados en varias nubes y locales. La colaboración puede incluir datos y modelos de diferentes orígenes. Las soluciones cleanroom pueden facilitar los datos y los modelos procedentes de Azure desde estas otras ubicaciones. Cuando los datos no se pueden mover a Azure desde un almacén de datos local, algunas soluciones de espacio limpio se pueden ejecutar en el sitio donde residen los datos. La administración y las directivas se pueden usar mediante un proveedor de soluciones común, siempre que esté disponible.
Integridad de código y libros de contabilidad confidenciales: con la tecnología de libro de contabilidad distribuida (DLT) que se ejecuta en la computación confidencial de Azure, se pueden crear soluciones que se ejecutan en una red entre organizaciones. La lógica de código y las reglas analíticas solo se pueden agregar cuando hay consenso entre los distintos participantes. Todas las actualizaciones del código se registran para la auditoría mediante el registro de prueba de alteraciones habilitado con la computación confidencial de Azure.
¿Cuáles son las opciones para empezar?
Ofertas de plataforma ACC que ayudan a habilitar salas limpias confidenciales
Acumula tus mangas y crea una solución de sala limpia de datos directamente en estas ofertas de servicio de computación confidencial.
Los contenedores confidenciales en Azure Container Instances (ACI) y las máquinas virtuales Intel SGX con enclaves de aplicación proporcionan una solución de contenedor para crear soluciones de espacio limpio confidencial.
Las máquinas virtuales (VM) confidenciales proporcionan una plataforma de máquina virtual para soluciones de espacio limpio confidencial.
Azure SQL AE en enclaves seguros proporciona un servicio de plataforma para cifrar datos y consultas en SQL que se pueden usar en análisis de datos de varias partes y salas limpias confidenciales.
Confidential Consortium Framework es un marco de código abierto para crear servicios con estado de alta disponibilidad que usan un proceso centralizado para facilitar el uso y el rendimiento, al tiempo que proporciona confianza descentralizada. Permite que varias partes ejecuten un proceso auditable a través de datos confidenciales sin confiar entre sí ni en un operador con privilegios.
Soluciones de asociados de ACC que habilitan salas limpias confidenciales
Use un asociado que haya creado una solución de análisis de datos de varias partes sobre la plataforma informática confidencial de Azure.
- Anjuna proporciona una plataforma de computación confidencial para habilitar varios casos de uso, como salas limpias seguras, para que las organizaciones compartan datos para el análisis conjunto, como calcular puntuaciones de riesgo de crédito o desarrollar modelos de aprendizaje automático, sin exponer información confidencial.
- BeeKeeperAI permite la inteligencia artificial sanitaria a través de una plataforma de colaboración segura para propietarios de algoritmos y administradores de datos. BeeKeeperAI™ usa análisis que conservan la privacidad en orígenes multiinstitucionales de datos protegidos en un entorno informático confidencial. La solución admite el cifrado de un extremo a otro, los enclaves informáticos seguros y los procesadores habilitados para SGX más recientes de Intel para proteger los datos y la dirección IP del algoritmo.
- Decentriq proporciona salas limpias de datos SaaS basadas en la computación confidencial que permiten la colaboración segura de datos sin compartir datos. Las salas limpias de ciencia de datos permiten análisis flexibles de varias partes y salas limpias sin código para medios y publicidad permiten la activación y el análisis de audiencias compatibles en función de los datos de usuario de primera entidad. Las salas limpias confidenciales se describen con más detalle en este artículo en el blog de Microsoft.
- Fortanix proporciona una plataforma de computación confidencial que puede habilitar la inteligencia artificial confidencial, incluidas varias organizaciones que colaboran conjuntamente para el análisis de varias partes.
- Habu ofrece una plataforma de sala limpia de datos interoperable que permite a las empresas desbloquear la inteligencia colaborativa de una manera inteligente, segura, escalable y sencilla. Habu conecta datos descentralizados entre departamentos, asociados, clientes y proveedores para mejorar la colaboración, la toma de decisiones y los resultados.
- Mithril Security proporciona herramientas para ayudar a los proveedores de SaaS a proporcionar modelos de inteligencia artificial dentro de enclaves seguros y proporcionar un nivel local de seguridad y control a los propietarios de datos. Los propietarios de datos pueden usar sus soluciones de IA de SaaS mientras permanecen conformes y controlan sus datos.
- Opaco proporciona una plataforma de computación confidencial para el análisis colaborativo y la inteligencia artificial, lo que ofrece la capacidad de realizar análisis escalables de colaboración al tiempo que protege los datos de un extremo a otro y permite a las organizaciones cumplir con los mandatos legales y normativos.
- Caja fuerte LiShare proporciona salas limpias de datos cifradas controladas por directivas en las que el acceso a los datos es auditable, rastreable y visible, al tiempo que mantiene los datos protegidos durante el uso compartido de datos de varias partes.