banner
Hogar / Noticias / Uso de IA para protegerse contra la manipulación de imágenes por IA
Noticias

Uso de IA para protegerse contra la manipulación de imágenes por IA

Jan 14, 2024Jan 14, 2024

Imagen anterior Imagen siguiente

A medida que entramos en una nueva era en la que las tecnologías impulsadas por inteligencia artificial pueden crear y manipular imágenes con una precisión que desdibuja la línea entre la realidad y la fabricación, el espectro del mal uso cobra gran importancia. Recientemente, modelos generativos avanzados como DALL-E y Midjourney, famosos por su impresionante precisión e interfaces fáciles de usar, han hecho que la producción de imágenes hiperrealistas sea relativamente sencilla. Con las barreras de entrada reducidas, incluso los usuarios sin experiencia pueden generar y manipular imágenes de alta calidad a partir de simples descripciones de texto, desde alteraciones inocentes de imágenes hasta cambios maliciosos. Técnicas como las marcas de agua representan una solución prometedora, pero el mal uso requiere una medida preventiva (en lugar de sólo post hoc).

En la búsqueda de crear una medida tan nueva, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT desarrollaron "PhotoGuard", una técnica que utiliza perturbaciones (alteraciones minúsculas en los valores de los píxeles invisibles al ojo humano pero detectables por modelos de computadora) que alterar efectivamente la capacidad del modelo para manipular la imagen.

PhotoGuard utiliza dos métodos de "ataque" diferentes para generar estas perturbaciones. El ataque de "codificador" más sencillo tiene como objetivo la representación latente de la imagen en el modelo de IA, lo que hace que el modelo perciba la imagen como una entidad aleatoria. La "difusión" más sofisticada define una imagen objetivo y optimiza las perturbaciones para hacer que la imagen final se parezca lo más posible al objetivo.

“Consideremos la posibilidad de propagación fraudulenta de eventos catastróficos falsos, como una explosión en un lugar importante. Este engaño puede manipular las tendencias del mercado y el sentimiento público, pero los riesgos no se limitan a la esfera pública. Las imágenes personales pueden alterarse de forma inapropiada y usarse para chantajear, lo que tiene importantes implicaciones financieras cuando se ejecutan a gran escala”, dice Hadi Salman, estudiante de posgrado en ingeniería eléctrica e informática del MIT (EECS), afiliado de MIT CSAIL y autor principal. de un nuevo artículo sobre PhotoGuard.

“En escenarios más extremos, estos modelos podrían simular voces e imágenes para escenificar crímenes falsos, infligiendo angustia psicológica y pérdidas financieras. La naturaleza rápida de estas acciones agrava el problema. Incluso cuando finalmente se descubre el engaño, el daño (ya sea reputacional, emocional o financiero) a menudo ya se ha producido. Esta es una realidad para las víctimas en todos los niveles, desde los individuos acosados ​​en la escuela hasta la manipulación en toda la sociedad”.

FotoGuard en la práctica

Los modelos de IA ven una imagen de manera diferente a como lo hacen los humanos. Ve una imagen como un conjunto complejo de puntos de datos matemáticos que describen el color y la posición de cada píxel; esta es la representación latente de la imagen. El ataque del codificador introduce ajustes menores en esta representación matemática, lo que hace que el modelo de IA perciba la imagen como una entidad aleatoria. Como resultado, cualquier intento de manipular la imagen utilizando el modelo se vuelve casi imposible. Los cambios introducidos son tan mínimos que resultan invisibles al ojo humano, preservando así la integridad visual de la imagen garantizando al mismo tiempo su protección.

El segundo ataque de “difusión”, decididamente más complejo, apunta estratégicamente a todo el modelo de difusión de un extremo a otro. Esto implica determinar una imagen objetivo deseada y luego iniciar un proceso de optimización con la intención de alinear estrechamente la imagen generada con este objetivo preseleccionado.

Al implementarlo, el equipo creó perturbaciones dentro del espacio de entrada de la imagen original. Luego, estas perturbaciones se utilizan durante la etapa de inferencia y se aplican a las imágenes, ofreciendo una sólida defensa contra la manipulación no autorizada.

"El progreso en IA que estamos presenciando es realmente impresionante, pero permite usos beneficiosos y maliciosos de la IA por igual", dice el profesor de EECS del MIT e investigador principal de CSAIL, Aleksander Madry, quien también es autor del artículo. “Por tanto, es urgente que trabajemos para identificar y mitigar este último. Considero que PhotoGuard es nuestra pequeña contribución a ese importante esfuerzo”.

El ataque de difusión es más intensivo desde el punto de vista computacional que su hermano más simple y requiere una cantidad significativa de memoria GPU. El equipo dice que aproximar el proceso de difusión con menos pasos mitiga el problema, haciendo así que la técnica sea más práctica.

Para ilustrar mejor el ataque, consideremos un proyecto de arte, por ejemplo. La imagen original es un dibujo y la imagen de destino es otro dibujo completamente diferente. El ataque de difusión es como hacer cambios pequeños e invisibles en el primer dibujo para que, para un modelo de IA, comience a parecerse al segundo dibujo. Sin embargo, para el ojo humano, el dibujo original permanece inalterado.

Al hacer esto, cualquier modelo de IA que intente modificar la imagen original ahora realizará cambios sin darse cuenta como si tratara de la imagen de destino, protegiendo así la imagen original de la manipulación intencionada. El resultado es una imagen que permanece visualmente inalterada para los observadores humanos, pero que protege contra ediciones no autorizadas por parte de modelos de IA.

En cuanto a un ejemplo real con PhotoGuard, considere una imagen con múltiples caras. Puedes enmascarar cualquier rostro que no quieras modificar y luego preguntar con "dos hombres asistiendo a una boda". Tras el envío, el sistema ajustará la imagen en consecuencia, creando una representación plausible de dos hombres participando en una ceremonia de boda.

Ahora, considere proteger la imagen para que no sea editada; agregar perturbaciones a la imagen antes de cargarla puede inmunizarla contra modificaciones. En este caso, el resultado final carecerá de realismo en comparación con la imagen original no inmunizada.

Todas las manos en el mazo

Los aliados clave en la lucha contra la manipulación de imágenes son los creadores de los modelos de edición de imágenes, afirma el equipo. Para que PhotoGuard sea eficaz, es necesaria una respuesta integrada de todas las partes interesadas. “Los formuladores de políticas deberían considerar implementar regulaciones que obliguen a las empresas a proteger los datos de los usuarios de tales manipulaciones. Los desarrolladores de estos modelos de IA podrían diseñar API que agreguen automáticamente perturbaciones a las imágenes de los usuarios, proporcionando una capa adicional de protección contra ediciones no autorizadas”, afirma Salman.

A pesar de la promesa de PhotoGuard, no es una panacea. Una vez que una imagen está en línea, personas con intenciones maliciosas podrían intentar aplicar ingeniería inversa a las medidas de protección aplicando ruido, recortando o rotando la imagen. Sin embargo, hay muchos trabajos previos de la literatura de ejemplos contradictorios que se pueden utilizar aquí para implementar perturbaciones robustas que resistan manipulaciones de imágenes comunes.

“Un enfoque colaborativo que involucre a desarrolladores de modelos, plataformas de redes sociales y formuladores de políticas presenta una defensa sólida contra la manipulación de imágenes no autorizada. Hoy en día es de suma importancia trabajar en esta cuestión apremiante”, afirma Salman. “Y si bien me complace contribuir a esta solución, se necesita mucho trabajo para que esta protección sea práctica. Las empresas que desarrollan estos modelos deben invertir en diseñar inmunizaciones sólidas contra las posibles amenazas que plantean estas herramientas de inteligencia artificial. A medida que avanzamos hacia esta nueva era de modelos generativos, luchemos por el potencial y la protección en medidas iguales”.

"La perspectiva de utilizar ataques al aprendizaje automático para protegernos de usos abusivos de esta tecnología es muy convincente", afirma Florian Tramèr, profesor asistente en ETH Zürich. “El artículo tiene una buena idea de que los desarrolladores de modelos generativos de IA tienen fuertes incentivos para brindar dicha protección de inmunización a sus usuarios, lo que incluso podría ser un requisito legal en el futuro. Sin embargo, diseñar protecciones de imágenes que resistan eficazmente los intentos de elusión es un problema desafiante: una vez que la empresa de IA generativa se comprometa con un mecanismo de inmunización y la gente comience a aplicarlo a sus imágenes en línea, debemos asegurarnos de que esta protección funcione contra adversarios motivados que incluso podrían utilizar mejores modelos de IA generativa desarrollados en un futuro próximo. Diseñar protecciones tan sólidas es un problema difícil y abierto, y este documento presenta argumentos convincentes para que las empresas de IA generativa deberían trabajar para resolverlo”.

Salman escribió el artículo junto con sus compañeros autores principales Alaa Khaddaj y Guillaume Leclerc MS '18, así como con Andrew Ilyas '18, MEng '18; los tres son estudiantes de posgrado de EECS y afiliados de MIT CSAIL. El trabajo del equipo se realizó parcialmente en el clúster de computación MIT Supercloud, respaldado por subvenciones de la Fundación Nacional de Ciencias de EE. UU. y Open Philanthropy, y basado en el trabajo respaldado por la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. Se presentó en la Conferencia Internacional sobre Aprendizaje Automático en julio de este año.

Artículo anterior Artículo siguiente

FotoGuard en la prácticaTodas las manos en el mazo