Seleccione su idioma

Revelan que DeepSeek es vulnerable al jailbreak

Revelan que DeepSeek es vulnerable al jailbreak

Internacional. Investigadores de la Unit 42 de Palo Alto Networks evaluaron tres técnicas de jealbreaking contra DeepSeek probando su capacidad para eludir las restricciones de la IA en varias categorías de contenido prohibido.

El jailbreaking es una técnica que se utiliza para eludir las restricciones implementadas en los modelos lingüístico de gran tamaño (LLM) y evitar que generen contenido malicioso o prohibido. Estas restricciones se conocen comúnmente como barandillas. Si se utiliza una solicitud directa en un mensaje de LLM, sus medidas de seguridad evitarán que el LLM proporcione contenido dañino. El jailbreaking es un desafío de seguridad para los modelos de IA, especialmente los LLM. Implica crear indicaciones específicas o explotar debilidades para eludir las medidas de seguridad integradas y obtener resultados dañinos, sesgados o inapropiados que el modelo está entrenado para evitar.

Los resultados de la investigación revelan altas tasas de elusión y fuga de información, lo que pone de relieve los riesgos potenciales de estos vectores de ataque emergentes. Si bien la información sobre la creación de bombas molotov, herramientas de exfiltración de datos y registradores de pulsaciones de teclas está fácilmente disponible en línea, los LLM con restricciones de seguridad insuficientes podrían reducir la barrera de entrada para los actores maliciosos al recopilar y presentar resultados fácilmente utilizables y procesables. Esta asistencia podría acelerar enormemente sus operaciones.

"Los resultados de nuestra investigación muestran que estos métodos de jailbreak pueden generar instrucciones explícitas para actividades maliciosas, como herramientas de exfiltración de datos, creación de keyloggers e incluso instrucciones para dispositivos incendiarios, lo que demuestra los riesgos de seguridad tangibles que plantea esta clase emergente de ataque. Si bien puede resultar complicado garantizar una protección completa contra todas las técnicas de jailbreaking para un LLM específico, las organizaciones pueden implementar medidas de seguridad que ayuden a monitorear cuándo y cómo los empleados usan los LLM. Esto se vuelve crucial cuando los empleados usan LLM de terceros no autorizados", señalaron los encargados de la investigación.

- Publicidad -

Los jailbreaks exitosos tienen implicaciones de largo alcance. Potencialmente, permiten a los actores maliciosos utilizar los LLM como arma para difundir información errónea, generar material ofensivo o incluso facilitar actividades maliciosas como estafas o manipulación. A medida que continúa el rápido crecimiento de nuevos LLM, es probable que sigamos viendo LLM vulnerables que carecen de sólidas barreras de seguridad. Ya hemos visto esto en otros jailbreaks utilizados contra otros modelos. La carrera armamentista en curso entre LLM cada vez más sofisticados y técnicas de jailbreak cada vez más intrincadas hace que este sea un problema persistente en el panorama de la seguridad.

La técnica de jailbreaking Bad Likert Judge manipula a los LLM al hacer que evalúen la nocividad de las respuestas utilizando una escala Likert, que es una medida de acuerdo o desacuerdo con respecto a una afirmación. Luego, se le pide al LLM que genere ejemplos alineados con estas calificaciones, y los ejemplos con la calificación más alta pueden contener el contenido nocivo deseado.

"En este caso, realizamos un intento de jailbreak de Bad Likert Judge para generar una herramienta de exfiltración de datos como uno de nuestros ejemplos principales. Con cualquier jailbreak de Bad Likert Judge, le pedimos al modelo que califique las respuestas mezclando temas benignos con maliciosos en los criterios de calificación. Comenzamos pidiendo al modelo que interprete algunas pautas y evalúe las respuestas utilizando una escala de Likert. Solicitamos información sobre la generación de malware, específicamente sobre las herramientas de exfiltración de datos. La Figura 2 muestra el intento de Bad Likert Judge en un mensaje de DeepSeek", precisaron los investigadores.

Si bien es preocupante, la respuesta inicial de DeepSeek al intento de jailbreak no fue alarmante de inmediato. Proporcionó una descripción general de las técnicas de creación de malware, pero la respuesta carecía de los detalles específicos y los pasos necesarios para que alguien realmente cree un malware funcional. Esta información de alto nivel, si bien puede resultar útil para fines educativos, no sería directamente utilizable por un actor malicioso. Básicamente, el LLM demostró un conocimiento de los conceptos relacionados con la creación de malware, pero no llegó a proporcionar una guía clara de "cómo hacerlo".

Sin embargo, esta respuesta inicial no demostró definitivamente el fracaso del jailbreak. Planteó la posibilidad de que los mecanismos de seguridad del LLM fueran parcialmente efectivos, bloqueando la información más explícita y dañina, pero aun así brindando algo de conocimiento general. Para determinar el verdadero alcance de la efectividad del jailbreak, se necesitában más pruebas.

Una prueba adicional implicó la creación de indicaciones adicionales diseñadas para obtener información más específica y procesable del LLM. Esto amplió los límites de sus restricciones de seguridad y exploró si se lo podía manipular para que brindara detalles verdaderamente útiles y procesables sobre la creación de malware. Como sucede con la mayoría de los jailbreaks, el objetivo es evaluar si la respuesta vaga inicial fue una barrera genuina o simplemente una defensa superficial que se puede sortear con indicaciones más detalladas.

Con más indicaciones, el modelo proporcionó detalles adicionales, como el código de script de exfiltración de datos. A través de estas indicaciones adicionales, las respuestas de LLM pueden abarcar desde la generación de código de keylogger hasta cómo exfiltrar datos correctamente y cubrir sus huellas. El modelo es lo suficientemente flexible como para incluir consideraciones para configurar un entorno de desarrollo para crear sus propios keyloggers personalizados (por ejemplo, qué bibliotecas de Python necesita instalar en el entorno en el que está desarrollando).

- Publicidad -

Las pruebas de Bad Likert Judge realizadas una vez más revelaron una mayor susceptibilidad de DeepSeek a la manipulación. Más allá de la información inicial de alto nivel, las indicaciones cuidadosamente elaboradas demostraron una variedad detallada de resultados maliciosos. Aunque algunas de las respuestas de DeepSeek indicaban que se proporcionaban solo con fines ilustrativos y que nunca debían utilizarse para actividades maliciosas, el LLM proporcionó una guía específica y completa sobre diversas técnicas de ataque. Esta guía incluía lo siguiente:

  • Exfiltración de datos: se describen diversos métodos para robar datos confidenciales y se detalla cómo eludir las medidas de seguridad y transferir datos de forma encubierta. Se incluyen explicaciones sobre diferentes canales de exfiltración, técnicas de ofuscación y estrategias para evitar la detección.
  • Spear phishing: generó plantillas de correo electrónico de spear phishing muy convincentes, con líneas de asunto personalizadas, pretextos convincentes y llamadas urgentes a la acción. Incluso ofreció consejos sobre cómo crear señuelos específicos para el contexto y adaptar el mensaje a los intereses de la víctima objetivo para maximizar las posibilidades de éxito.
  • Optimización de la ingeniería social: además de proporcionar plantillas, DeepSeek ofrecía recomendaciones sofisticadas para optimizar los ataques de ingeniería social. Esto incluía orientación sobre tácticas de manipulación psicológica, lenguaje persuasivo y estrategias para establecer una relación con las víctimas y aumentar su susceptibilidad a la manipulación.

El nivel de detalle proporcionado por DeepSeek al realizar jailbreaks de Bad Likert Judge fue más allá de los conceptos teóricos y ofreció instrucciones prácticas, paso a paso, que los actores maliciosos podían usar y adoptar fácilmente.

Fuga de la cárcel de Crescendo
Crescendo es una técnica de jailbreaking notablemente simple pero efectiva para los LLM. Los jailbreakings de Crescendo aprovechan el conocimiento propio del LLM al impulsarlo progresivamente con contenido relacionado, guiando sutilmente la conversación hacia temas prohibidos hasta que los mecanismos de seguridad del modelo se anulan de manera efectiva. Esta escalada gradual, que a menudo se logra en menos de cinco interacciones, hace que los jailbreakings de Crescendo sean altamente efectivos y difíciles de detectar con las contramedidas de jailbreaking tradicionales.

"Al probar el ataque Crescendo en DeepSeek, no intentamos crear códigos maliciosos ni plantillas de phishing. En cambio, nos centramos en otros resultados prohibidos y peligrosos. Como en cualquier ataque Crescendo, comenzamos por pedirle al modelo que nos brinde un historial genérico de un tema elegido. El tema fue de naturaleza dañina; le pedimos que nos brinde un historial del cóctel molotov. Si bien las respuestas iniciales de DeepSeek a nuestras solicitudes no fueron abiertamente maliciosas, insinuaron la posibilidad de obtener más resultados. Luego, empleamos una serie de solicitudes encadenadas y relacionadas, centrándonos en comparar la historia con los hechos actuales, basándonos en respuestas anteriores y aumentando gradualmente la naturaleza de las consultas", explicó el equipo investigador.

DeepSeek comenzó a brindar instrucciones cada vez más detalladas y explícitas, que culminaron en una guía completa para construir un cóctel molotov. Esta información no solo parecía ser dañina por naturaleza, ya que brindaba instrucciones paso a paso para crear un dispositivo incendiario peligroso, sino que también era fácil de usar. Las instrucciones no requerían conocimientos ni equipos especializados.

Pruebas adicionales sobre diversos temas prohibidos, como la producción de drogas, la desinformación, el discurso de odio y la violencia, dieron como resultado la obtención exitosa de información restringida sobre todos los tipos de temas.

- Publicidad -

Deleite engañoso Jailbreak
Deceptive Delight es una técnica sencilla de jailbreaking de múltiples turnos para LLM. Evita las medidas de seguridad al incorporar temas inseguros entre otros benignos dentro de una narrativa positiva. El atacante primero le pide al LLM que cree una historia que conecte estos temas y luego le pide que explique cada uno de ellos, lo que a menudo desencadena la generación de contenido inseguro incluso cuando se habla de los elementos benignos. Una tercera indicación opcional centrada en el tema inseguro puede amplificar aún más el resultado peligroso.

"Probamos DeepSeek con la técnica de jailbreak Deceptive Delight usando un indicador de tres turnos, como se describe en nuestro artículo anterior. En este caso, intentamos generar un script que se basa en el Modelo de objetos de componentes distribuidos (DCOM) para ejecutar comandos de forma remota en máquinas Windows. Este mensaje le pide al modelo que conecte tres eventos que involucran un programa de informática de la Ivy League, el script que utiliza DCOM y un evento de captura de bandera (CTF). Luego, DeepSeek proporcionó un análisis detallado del indicador de tres turnos y proporcionó un script semi-rudimentario que usa DCOM para ejecutar comandos de forma remota en máquinas Windows. Las pruebas iniciales de los mensajes que utilizamos en nuestras pruebas demostraron su eficacia contra DeepSeek con modificaciones mínimas. La técnica de jailbreak Deceptive Delight eludió los mecanismos de seguridad de LLM en una variedad de escenarios de ataque", manifestaron miembros de Unit 42.

El éxito de Deceptive Delight en estos diversos escenarios de ataque demuestra la facilidad de jailbreaking y el potencial de uso indebido para generar código malicioso. El hecho de que DeepSeek pudiera ser engañado para generar código tanto para el ataque inicial (inyección SQL) como para la postexplotación (movimiento lateral) resalta el potencial de los atacantes para usar esta técnica en múltiples etapas de un ciberataque.

Evaluaciones
La evaluación de DeepSeek se centró en su susceptibilidad a generar contenido dañino en varias áreas clave, incluida la creación de malware, scripts maliciosos e instrucciones para actividades peligrosas. Se diseñaron pruebas específicamente para explorar la amplitud del posible uso indebido, empleando técnicas de jailbreaking de un solo turno y de varios turnos.

La metodología de pruebas involucró algunos de los siguientes escenarios:

  • Bad Likert Judge (generación de keylogger): se intentó obtener instrucciones para crear una herramienta de exfiltración de datos y un código keylogger, que es un tipo de malware que registra las pulsaciones de teclas.
  • Mal juez de Likert (exfiltración de datos): se empleó la técnica de Mal juez de Likert, esta vez centrándonos en los métodos de exfiltración de datos.
  • Bad Likert Judge (generación de correos electrónicos de phishing): esta prueba utilizó Bad Likert Judge para intentar generar correos electrónicos de phishing, una táctica común de ingeniería social.
  • Crescendo (construcción de un cóctel Molotov): mediante la técnica Crescendo se aumentaron gradualmente las indicaciones hasta convertirlas en instrucciones para construir un cóctel molotov.
  • Crescendo (producción de metanfetamina): de manera similar a la prueba del cóctel Molotov, utilizamos Crescendo para intentar obtener instrucciones para producir metanfetamina.
  • Deceptive Delight (inyección SQL): Se probó la campaña Deceptive Delight para crear comandos de inyección SQL para habilitar parte del conjunto de herramientas de un atacante.
  • Deceptive Delight (creación de objetos DCOM): esta prueba buscó generar un script que se basa en DCOM para ejecutar comandos de forma remota en máquinas Windows.

Estos diversos escenarios de prueba permitieron evaluar la resistencia de DeepSeek frente a una variedad de técnicas de jailbreaking y en varias categorías de contenido prohibido. Al centrarse tanto en la generación de código como en el contenido instructivo, se buscó obtener una comprensión integral de las vulnerabilidades de LLM y los riesgos potenciales asociados con su uso indebido.

Conclusión
La investigación de Unit 42 sobre la vulnerabilidad de DeepSeek a las técnicas de jailbreaking reveló una susceptibilidad a la manipulación. Los jailbreaks Bad Likert Judge, Crescendo y Deceptive Delight lograron eludir con éxito los mecanismos de seguridad de LLM. Obtuvieron una variedad de resultados dañinos, desde instrucciones detalladas para crear elementos peligrosos como cócteles molotov hasta generar código malicioso para ataques como inyección SQL y movimiento lateral.

Si bien las respuestas iniciales de DeepSeek a menudo parecían benignas, en muchos casos, las instrucciones cuidadosamente elaboradas a continuación expusieron la debilidad de estas salvaguardas iniciales. El LLM proporcionó instrucciones maliciosas muy detalladas, demostrando el potencial de que estos modelos aparentemente inofensivos se utilizaran como armas para fines maliciosos. El éxito de estas tres técnicas de jailbreaking distintas sugiere la posible eficacia de otros métodos de jailbreaking aún no descubiertos, lo que pone de relieve el desafío permanente de proteger los LLM contra los ataques en constante evolución.

"A medida que los LLM se integran cada vez más en diversas aplicaciones, abordar estos métodos de jailbreak es importante para prevenir su uso indebido y garantizar el desarrollo y la implementación responsables de esta tecnología transformadora", concluyeron los investigadores.


No hay comentarios

• Si ya estás registrado, favor ingresar primero al sistema.

Deje su comentario

En respuesta a Some User
El desafío de la inestabilidad global: Hacia una respuesta integral en seguridad y defensa

El desafío de la inestabilidad global: Hacia una respuesta integral en seguridad y defensa

La creciente convergencia entre amenazas físicas y digitales está obligando a las organizaciones a replantear sus estrategias de seguridad. Frente a este escenario, surge la necesidad de enfoques...

IA aplicada a la seguridad médica

IA aplicada a la seguridad médica

La Dirección del Sistema de Emergencias Médicas (SEM), adscrita al Ministerio de Salud de El Salvador, fortaleció su infraestructura tecnológica con la modernización de su sistema de...

Ocho premios Red Dot destacan la innovación en diseño tecnológico

Ocho premios Red Dot destacan la innovación en diseño tecnológico

Internacional. La empresa de tecnología Ajax Systems anunció la obtención de ocho galardones en los Red Dot Design Award, uno de los reconocimientos más prestigiosos a nivel global en materia de...

Villa María del Triunfo refuerza su seguridad con videovigilancia inteligente

Villa María del Triunfo refuerza su seguridad con videovigilancia inteligente

Perú. El distrito de Villa María del Triunfo ha puesto en marcha un sistema de videovigilancia inteligente que ya muestra resultados en materia de seguridad ciudadana y que será ampliado en una...

Milestone Systems crece 10 % en 2025 y refuerza su apuesta por la inteligencia artificial y el video inteligente

Milestone Systems crece 10 % en 2025 y refuerza su apuesta por la inteligencia artificial y el video inteligente

Dinamarca. La compañía reportó ingresos netos por 340 millones de dólares en 2025, lo que representa un crecimiento del 10 % frente al año anterior. La empresa destinó cerca de un tercio de estos...

Micro Key Solutions refuerza su estrategia en América Latina con nuevos nombramientos clave

Micro Key Solutions refuerza su estrategia en América Latina con nuevos nombramientos clave

Estados Unidos. En respuesta al crecimiento de la demanda de soluciones de software para monitoreo y gestión en la industria de la seguridad, Micro Key Solutions anunció la expansión de sus...

Grupo Multisistemas fortalece su presencia en México con nueva oficina en Morelia

Grupo Multisistemas fortalece su presencia en México con nueva oficina en Morelia

México. Grupo Multisistemas de Seguridad Industrial (GMSI) avanza en su estrategia de crecimiento nacional con la inauguración de nuevas oficinas en Morelia, Michoacán, con el objetivo de ampliar su...

Caso de éxito: Modernización de sistema de seguridad con inteligencia artificial y monitoreo centralizado

Caso de éxito: Modernización de sistema de seguridad con inteligencia artificial y monitoreo centralizado

Ciudad de México. La Auditoría Superior de la Federación (ASF) implementó un ambicioso proyecto de renovación tecnológica en sus cinco sedes ubicadas en la Ciudad de México, con el objetivo de...

Gestión automatizada de llaves y equipos fortalece la seguridad en operaciones mineras

Gestión automatizada de llaves y equipos fortalece la seguridad en operaciones mineras

Internacional. La administración de accesos y equipos en la industria minera está evolucionando hacia modelos cada vez más automatizados, en respuesta a la complejidad operativa y a las exigencias...

La seguridad se convierte en una plataforma tecnológica

La seguridad se convierte en una plataforma tecnológica

México. La seguridad está dejando de ser un conjunto de sistemas independientes para convertirse en una plataforma tecnológica integrada que combina inteligencia artificial, analítica de video,...

Suscribase Gratis
Recuérdeme
SUSCRÍBASE AL INFO-BOLETIN
¿REQUIERE UNA COTIZACIÓN?
ENTREVISTAS DESTACADAS
PATROCINADORES










ULTIMO BOLETIN
Ultimo Info-Boletin