Concepto de Ataques Adversarios

Los ataques adversarios (Adversarial Attacks) son técnicas en las que se manipulan los datos de entrada a un modelo de aprendizaje automático para provocar errores específicos en las predicciones del modelo. Estos ataques son realizados de manera intencional por individuos malintencionados que buscan explotar las vulnerabilidades de los modelos de IA.

Tipos de Ataques Adversarios

Ataques de Evasión

  • Propósito: Engañar al modelo para que clasifique incorrectamente una entrada de adversario durante su uso en producción.
  • Ejemplo: Modificar una imagen de un perro con ruido sutil y específico para que el modelo lo clasifique erróneamente como un gato. Las modificaciones son tan pequeñas que son imperceptibles para el ojo humano.

Un ataque jailbreak a un modelo LLM, se define como un intento de manipular o “engañar” al modelo para que realice acciones que van en contra de sus políticas o restricciones de uso. Estas acciones pueden incluir revelar información sensible, generar contenido prohibido, o realizar tareas que han sido explícitamente limitadas por sus desarrolladores.

Ataques de Envenenamiento

  • Propósito: Corromper el conjunto de datos de entrenamiento para influir en el modelo de manera que haga predicciones incorrectas en el futuro.
  • Ejemplo: Introducir datos maliciosos en el conjunto de entrenamiento para que un modelo de detección de spam no identifique ciertos correos electrónicos de spam.

Ataques de Extracción de Modelo

  • Propósito: Recuperar información sobre el modelo, incluyendo sus parámetros, arquitectura, o incluso el conjunto de datos de entrenamiento.
  • Ejemplo: Realizar numerosas consultas a un modelo de API pública y utilizar las respuestas para reconstruir un modelo similar.

Ataques de Inferencia de Membresía

  • Propósito: Determinar si un dato específico fue parte del conjunto de datos de entrenamiento del modelo.
  • Ejemplo: Evaluar un modelo con ejemplos sospechosos y analizar las salidas para inferir si esos ejemplos estaban en el conjunto de datos de entrenamiento.

Los ataques de inferencia de membresía ocurren cuando un atacante manipula los datos de entrenamiento del modelo para hacer que se comporte de una manera que exponga información confidencial.

Técnicas Comunes en Ataques Adversarios

Generación de Ejemplos de ataques adversarios

Utilizar algoritmos como el método de gradiente de signo rápido (FGSM) para generar ejemplos de ataques de adversarios. Este método ajusta los píxeles de una imagen en la dirección del gradiente de la pérdida para maximizar la probabilidad de una clasificación incorrecta.

Perturbaciones Sutiles

Introducir pequeñas perturbaciones en los datos de entrada que son imperceptibles para los humanos pero que causan errores en el modelo. Estas perturbaciones se diseñan específicamente para explotar las vulnerabilidades del modelo.

Ataques de Caja Negra y Caja Blanca

  • Caja Negra: El atacante no tiene conocimiento interno del modelo y realiza ataques basados únicamente en la observación de las entradas y salidas del modelo.
  • Caja Blanca: El atacante tiene pleno conocimiento del modelo, incluyendo su arquitectura y parámetros, lo que facilita la creación de ejemplos de ataques adversarios más efectivos.

Impacto y Mitigación

Impacto:

Los ataques adversarios pueden tener serias implicaciones en la seguridad y la confianza de los sistemas de IA. Por ejemplo, en sistemas de reconocimiento facial, un ataque exitoso podría permitir el acceso no autorizado.

En aplicaciones médicas, un ataque adversario podría llevar a diagnósticos erróneos y poner en riesgo la salud de los pacientes.

Mitigación:

  • Entrenamiento Adversario: Incluir ejemplos adversariales en el conjunto de datos de entrenamiento para aumentar la robustez del modelo frente a estos ataques.
  • Detección y Filtrado: Implementar mecanismos para detectar y filtrar entradas de ataques adversarios antes de que lleguen al modelo.
  • Verificación y Validación: Utilizar técnicas de verificación formal para asegurar que el modelo se comporta de manera segura frente a perturbaciones adversariales.
  • Defensas Basadas en Redundancia: Implementar múltiples modelos y comparar sus salidas para detectar posibles ataques adversarios.

Ejemplo Práctico de Ataque Adversario

Reconocimiento de Imágenes en un Sistema de Seguridad

  • Contexto: Un sistema de seguridad utiliza un modelo de visión por computadora para reconocer caras autorizadas y permitir el acceso.
  • Ataque de Evasión: Un atacante utiliza una técnica de perturbación adversarial para modificar una foto de su rostro de manera que el sistema lo identifique incorrectamente como una persona autorizada.
  • Mitigación: El sistema se actualiza para incluir ejemplos de ataques adversarios en el conjunto de entrenamiento, aumentando así la robustez del modelo. Además, se implementa un segundo modelo que verifica las entradas sospechosas antes de conceder el acceso.

Fuente de inspiración:

  • ISTQB CTAI
  • telefonicatech.com

Gus Terrera

Apasionado por el agile testing y la ia.