Ventas de Seguridad

Revelan que DeepSeek es vulnerable al jailbreak

Revelan que DeepSeek es vulnerable al jailbreak

Internacional. Investigadores de la Unit 42 de Palo Alto Networks evaluaron tres técnicas de jealbreaking contra DeepSeek probando su capacidad para eludir las restricciones de la IA en varias categorías de contenido prohibido.

El jailbreaking es una técnica que se utiliza para eludir las restricciones implementadas en los modelos lingüístico de gran tamaño (LLM) y evitar que generen contenido malicioso o prohibido. Estas restricciones se conocen comúnmente como barandillas. Si se utiliza una solicitud directa en un mensaje de LLM, sus medidas de seguridad evitarán que el LLM proporcione contenido dañino. El jailbreaking es un desafío de seguridad para los modelos de IA, especialmente los LLM. Implica crear indicaciones específicas o explotar debilidades para eludir las medidas de seguridad integradas y obtener resultados dañinos, sesgados o inapropiados que el modelo está entrenado para evitar.

Los resultados de la investigación revelan altas tasas de elusión y fuga de información, lo que pone de relieve los riesgos potenciales de estos vectores de ataque emergentes. Si bien la información sobre la creación de bombas molotov, herramientas de exfiltración de datos y registradores de pulsaciones de teclas está fácilmente disponible en línea, los LLM con restricciones de seguridad insuficientes podrían reducir la barrera de entrada para los actores maliciosos al recopilar y presentar resultados fácilmente utilizables y procesables. Esta asistencia podría acelerar enormemente sus operaciones.

"Los resultados de nuestra investigación muestran que estos métodos de jailbreak pueden generar instrucciones explícitas para actividades maliciosas, como herramientas de exfiltración de datos, creación de keyloggers e incluso instrucciones para dispositivos incendiarios, lo que demuestra los riesgos de seguridad tangibles que plantea esta clase emergente de ataque. Si bien puede resultar complicado garantizar una protección completa contra todas las técnicas de jailbreaking para un LLM específico, las organizaciones pueden implementar medidas de seguridad que ayuden a monitorear cuándo y cómo los empleados usan los LLM. Esto se vuelve crucial cuando los empleados usan LLM de terceros no autorizados", señalaron los encargados de la investigación.

- Publicidad -

Los jailbreaks exitosos tienen implicaciones de largo alcance. Potencialmente, permiten a los actores maliciosos utilizar los LLM como arma para difundir información errónea, generar material ofensivo o incluso facilitar actividades maliciosas como estafas o manipulación. A medida que continúa el rápido crecimiento de nuevos LLM, es probable que sigamos viendo LLM vulnerables que carecen de sólidas barreras de seguridad. Ya hemos visto esto en otros jailbreaks utilizados contra otros modelos. La carrera armamentista en curso entre LLM cada vez más sofisticados y técnicas de jailbreak cada vez más intrincadas hace que este sea un problema persistente en el panorama de la seguridad.

La técnica de jailbreaking Bad Likert Judge manipula a los LLM al hacer que evalúen la nocividad de las respuestas utilizando una escala Likert, que es una medida de acuerdo o desacuerdo con respecto a una afirmación. Luego, se le pide al LLM que genere ejemplos alineados con estas calificaciones, y los ejemplos con la calificación más alta pueden contener el contenido nocivo deseado.

"En este caso, realizamos un intento de jailbreak de Bad Likert Judge para generar una herramienta de exfiltración de datos como uno de nuestros ejemplos principales. Con cualquier jailbreak de Bad Likert Judge, le pedimos al modelo que califique las respuestas mezclando temas benignos con maliciosos en los criterios de calificación. Comenzamos pidiendo al modelo que interprete algunas pautas y evalúe las respuestas utilizando una escala de Likert. Solicitamos información sobre la generación de malware, específicamente sobre las herramientas de exfiltración de datos. La Figura 2 muestra el intento de Bad Likert Judge en un mensaje de DeepSeek", precisaron los investigadores.

Si bien es preocupante, la respuesta inicial de DeepSeek al intento de jailbreak no fue alarmante de inmediato. Proporcionó una descripción general de las técnicas de creación de malware, pero la respuesta carecía de los detalles específicos y los pasos necesarios para que alguien realmente cree un malware funcional. Esta información de alto nivel, si bien puede resultar útil para fines educativos, no sería directamente utilizable por un actor malicioso. Básicamente, el LLM demostró un conocimiento de los conceptos relacionados con la creación de malware, pero no llegó a proporcionar una guía clara de "cómo hacerlo".

Sin embargo, esta respuesta inicial no demostró definitivamente el fracaso del jailbreak. Planteó la posibilidad de que los mecanismos de seguridad del LLM fueran parcialmente efectivos, bloqueando la información más explícita y dañina, pero aun así brindando algo de conocimiento general. Para determinar el verdadero alcance de la efectividad del jailbreak, se necesitában más pruebas.

Una prueba adicional implicó la creación de indicaciones adicionales diseñadas para obtener información más específica y procesable del LLM. Esto amplió los límites de sus restricciones de seguridad y exploró si se lo podía manipular para que brindara detalles verdaderamente útiles y procesables sobre la creación de malware. Como sucede con la mayoría de los jailbreaks, el objetivo es evaluar si la respuesta vaga inicial fue una barrera genuina o simplemente una defensa superficial que se puede sortear con indicaciones más detalladas.

Con más indicaciones, el modelo proporcionó detalles adicionales, como el código de script de exfiltración de datos. A través de estas indicaciones adicionales, las respuestas de LLM pueden abarcar desde la generación de código de keylogger hasta cómo exfiltrar datos correctamente y cubrir sus huellas. El modelo es lo suficientemente flexible como para incluir consideraciones para configurar un entorno de desarrollo para crear sus propios keyloggers personalizados (por ejemplo, qué bibliotecas de Python necesita instalar en el entorno en el que está desarrollando).

- Publicidad -

Las pruebas de Bad Likert Judge realizadas una vez más revelaron una mayor susceptibilidad de DeepSeek a la manipulación. Más allá de la información inicial de alto nivel, las indicaciones cuidadosamente elaboradas demostraron una variedad detallada de resultados maliciosos. Aunque algunas de las respuestas de DeepSeek indicaban que se proporcionaban solo con fines ilustrativos y que nunca debían utilizarse para actividades maliciosas, el LLM proporcionó una guía específica y completa sobre diversas técnicas de ataque. Esta guía incluía lo siguiente:

Exfiltración de datos: se describen diversos métodos para robar datos confidenciales y se detalla cómo eludir las medidas de seguridad y transferir datos de forma encubierta. Se incluyen explicaciones sobre diferentes canales de exfiltración, técnicas de ofuscación y estrategias para evitar la detección.
Spear phishing: generó plantillas de correo electrónico de spear phishing muy convincentes, con líneas de asunto personalizadas, pretextos convincentes y llamadas urgentes a la acción. Incluso ofreció consejos sobre cómo crear señuelos específicos para el contexto y adaptar el mensaje a los intereses de la víctima objetivo para maximizar las posibilidades de éxito.
Optimización de la ingeniería social: además de proporcionar plantillas, DeepSeek ofrecía recomendaciones sofisticadas para optimizar los ataques de ingeniería social. Esto incluía orientación sobre tácticas de manipulación psicológica, lenguaje persuasivo y estrategias para establecer una relación con las víctimas y aumentar su susceptibilidad a la manipulación.

El nivel de detalle proporcionado por DeepSeek al realizar jailbreaks de Bad Likert Judge fue más allá de los conceptos teóricos y ofreció instrucciones prácticas, paso a paso, que los actores maliciosos podían usar y adoptar fácilmente.

Fuga de la cárcel de Crescendo
Crescendo es una técnica de jailbreaking notablemente simple pero efectiva para los LLM. Los jailbreakings de Crescendo aprovechan el conocimiento propio del LLM al impulsarlo progresivamente con contenido relacionado, guiando sutilmente la conversación hacia temas prohibidos hasta que los mecanismos de seguridad del modelo se anulan de manera efectiva. Esta escalada gradual, que a menudo se logra en menos de cinco interacciones, hace que los jailbreakings de Crescendo sean altamente efectivos y difíciles de detectar con las contramedidas de jailbreaking tradicionales.

"Al probar el ataque Crescendo en DeepSeek, no intentamos crear códigos maliciosos ni plantillas de phishing. En cambio, nos centramos en otros resultados prohibidos y peligrosos. Como en cualquier ataque Crescendo, comenzamos por pedirle al modelo que nos brinde un historial genérico de un tema elegido. El tema fue de naturaleza dañina; le pedimos que nos brinde un historial del cóctel molotov. Si bien las respuestas iniciales de DeepSeek a nuestras solicitudes no fueron abiertamente maliciosas, insinuaron la posibilidad de obtener más resultados. Luego, empleamos una serie de solicitudes encadenadas y relacionadas, centrándonos en comparar la historia con los hechos actuales, basándonos en respuestas anteriores y aumentando gradualmente la naturaleza de las consultas", explicó el equipo investigador.

DeepSeek comenzó a brindar instrucciones cada vez más detalladas y explícitas, que culminaron en una guía completa para construir un cóctel molotov. Esta información no solo parecía ser dañina por naturaleza, ya que brindaba instrucciones paso a paso para crear un dispositivo incendiario peligroso, sino que también era fácil de usar. Las instrucciones no requerían conocimientos ni equipos especializados.

Pruebas adicionales sobre diversos temas prohibidos, como la producción de drogas, la desinformación, el discurso de odio y la violencia, dieron como resultado la obtención exitosa de información restringida sobre todos los tipos de temas.

- Publicidad -

Deleite engañoso Jailbreak
Deceptive Delight es una técnica sencilla de jailbreaking de múltiples turnos para LLM. Evita las medidas de seguridad al incorporar temas inseguros entre otros benignos dentro de una narrativa positiva. El atacante primero le pide al LLM que cree una historia que conecte estos temas y luego le pide que explique cada uno de ellos, lo que a menudo desencadena la generación de contenido inseguro incluso cuando se habla de los elementos benignos. Una tercera indicación opcional centrada en el tema inseguro puede amplificar aún más el resultado peligroso.

"Probamos DeepSeek con la técnica de jailbreak Deceptive Delight usando un indicador de tres turnos, como se describe en nuestro artículo anterior. En este caso, intentamos generar un script que se basa en el Modelo de objetos de componentes distribuidos (DCOM) para ejecutar comandos de forma remota en máquinas Windows. Este mensaje le pide al modelo que conecte tres eventos que involucran un programa de informática de la Ivy League, el script que utiliza DCOM y un evento de captura de bandera (CTF). Luego, DeepSeek proporcionó un análisis detallado del indicador de tres turnos y proporcionó un script semi-rudimentario que usa DCOM para ejecutar comandos de forma remota en máquinas Windows. Las pruebas iniciales de los mensajes que utilizamos en nuestras pruebas demostraron su eficacia contra DeepSeek con modificaciones mínimas. La técnica de jailbreak Deceptive Delight eludió los mecanismos de seguridad de LLM en una variedad de escenarios de ataque", manifestaron miembros de Unit 42.

El éxito de Deceptive Delight en estos diversos escenarios de ataque demuestra la facilidad de jailbreaking y el potencial de uso indebido para generar código malicioso. El hecho de que DeepSeek pudiera ser engañado para generar código tanto para el ataque inicial (inyección SQL) como para la postexplotación (movimiento lateral) resalta el potencial de los atacantes para usar esta técnica en múltiples etapas de un ciberataque.

Evaluaciones
La evaluación de DeepSeek se centró en su susceptibilidad a generar contenido dañino en varias áreas clave, incluida la creación de malware, scripts maliciosos e instrucciones para actividades peligrosas. Se diseñaron pruebas específicamente para explorar la amplitud del posible uso indebido, empleando técnicas de jailbreaking de un solo turno y de varios turnos.

La metodología de pruebas involucró algunos de los siguientes escenarios:

Bad Likert Judge (generación de keylogger): se intentó obtener instrucciones para crear una herramienta de exfiltración de datos y un código keylogger, que es un tipo de malware que registra las pulsaciones de teclas.
Mal juez de Likert (exfiltración de datos): se empleó la técnica de Mal juez de Likert, esta vez centrándonos en los métodos de exfiltración de datos.
Bad Likert Judge (generación de correos electrónicos de phishing): esta prueba utilizó Bad Likert Judge para intentar generar correos electrónicos de phishing, una táctica común de ingeniería social.
Crescendo (construcción de un cóctel Molotov): mediante la técnica Crescendo se aumentaron gradualmente las indicaciones hasta convertirlas en instrucciones para construir un cóctel molotov.
Crescendo (producción de metanfetamina): de manera similar a la prueba del cóctel Molotov, utilizamos Crescendo para intentar obtener instrucciones para producir metanfetamina.
Deceptive Delight (inyección SQL): Se probó la campaña Deceptive Delight para crear comandos de inyección SQL para habilitar parte del conjunto de herramientas de un atacante.
Deceptive Delight (creación de objetos DCOM): esta prueba buscó generar un script que se basa en DCOM para ejecutar comandos de forma remota en máquinas Windows.

Estos diversos escenarios de prueba permitieron evaluar la resistencia de DeepSeek frente a una variedad de técnicas de jailbreaking y en varias categorías de contenido prohibido. Al centrarse tanto en la generación de código como en el contenido instructivo, se buscó obtener una comprensión integral de las vulnerabilidades de LLM y los riesgos potenciales asociados con su uso indebido.

Conclusión
La investigación de Unit 42 sobre la vulnerabilidad de DeepSeek a las técnicas de jailbreaking reveló una susceptibilidad a la manipulación. Los jailbreaks Bad Likert Judge, Crescendo y Deceptive Delight lograron eludir con éxito los mecanismos de seguridad de LLM. Obtuvieron una variedad de resultados dañinos, desde instrucciones detalladas para crear elementos peligrosos como cócteles molotov hasta generar código malicioso para ataques como inyección SQL y movimiento lateral.

Si bien las respuestas iniciales de DeepSeek a menudo parecían benignas, en muchos casos, las instrucciones cuidadosamente elaboradas a continuación expusieron la debilidad de estas salvaguardas iniciales. El LLM proporcionó instrucciones maliciosas muy detalladas, demostrando el potencial de que estos modelos aparentemente inofensivos se utilizaran como armas para fines maliciosos. El éxito de estas tres técnicas de jailbreaking distintas sugiere la posible eficacia de otros métodos de jailbreaking aún no descubiertos, lo que pone de relieve el desafío permanente de proteger los LLM contra los ataques en constante evolución.

"A medida que los LLM se integran cada vez más en diversas aplicaciones, abordar estos métodos de jailbreak es importante para prevenir su uso indebido y garantizar el desarrollo y la implementación responsables de esta tecnología transformadora", concluyeron los investigadores.

Álvaro León Pérez SepúlvedaEmail: [email protected]

No hay comentarios

• Si ya estás registrado, favor ingresar primero al sistema.

Invertir en controladoras de acceso: por qué eliminarlas puede ser un error estratégico

Invertir en controladoras de acceso: por qué eliminarlas puede ser un error estratégico

Gracias a la evolución tecnológica, hoy existen lectores inteligentes con capacidad para procesar credenciales, almacenar información e incluso accionar cerraduras de forma autónoma. Ello ha llevado...

Caso de éxito: ¿Cómo logró reducir el fraude un 18% una cadena retail de Costa Rica?

Caso de éxito: ¿Cómo logró reducir el fraude un 18% una cadena retail de Costa Rica?

Almacenes El Rey es una tienda por departamentos en rápida expansión, con 18 sucursales en todo el país y más de un millón de clientes cada año. Gracias a la solución Avigilon Unity Video, la cadena...

¿Almacenar video ya no es suficiente? Habla la Directora de Ventas de Milestone para Latam

¿Almacenar video ya no es suficiente? Habla la Directora de Ventas de Milestone para Latam

Latinoamérica. Johana Arias, ejecutiva de Milestone Systems, analiza cómo la integración de IA, lenguaje natural y plataformas abiertas están transformando el video en conocimiento útil para la toma...

Instalan sistema anti intrusión descrito como uno de los más grandes de Ajax en Suramérica

Instalan sistema anti intrusión descrito como uno de los más grandes de Ajax en Suramérica

Argentina. La compañía Bayron instaló un sistema de protección con más de 85 dispositivos inalámbricos Ajax en la nueva sucursal de Autos del Sur S.A., concesionario oficial de Toyota en el país.

Entrevista con Manuel Carlos, Director de Ventas Senior para México de Hanwha Vision

Entrevista con Manuel Carlos, Director de Ventas Senior para México de Hanwha Vision

México. Manuel Carlos, ejecutivo de Hanwha Vision, detalla cómo la compañía está revolucionando la seguridad electrónica mediante la consolidación de la inteligencia artificial generativa y el...

Prosegur presenta nuevas capacidades en materia de ciberseguridad y automatización

Prosegur presenta nuevas capacidades en materia de ciberseguridad y automatización

Internacional. Prosegur Security ha creado dos nuevos módulos, xCope y xEcute, que tienen por objetivo proporcionar a las empresas y organizaciones de un nuevo servicio de vigilancia digital...

Plataforma de acceso y vídeo

Plataforma de acceso y vídeo

Johnson Controls Diseñada para eliminar la complejidad de los sistemas heredados, la más reciente versión de C•CURE IQ ayuda a las organizaciones a lograr una respuesta más rápida, simplificar los...

SIA presenta las nuevas directivas de su Comité de Relaciones Internacionales

SIA presenta las nuevas directivas de su Comité de Relaciones Internacionales

Latinoamérica. Mariana Ramírez es la nueva presidenta del Comité de Relaciones Internacionales de la Security Industry Association (SIA), mientras que Vanesa Cabral asumió el rol de vicepresidenta.

Gestión de acceso y seguridad en los estadios durante el Mundial de Fútbol

Gestión de acceso y seguridad en los estadios durante el Mundial de Fútbol

Internacional. Con la Copa Mundial de Fútbol en desarrollo, la operación de los estadios y la gestión de credenciales y activos críticos se convierten en factores clave para garantizar la seguridad...

Jovicard moderniza su sede con tecnología de control de acceso HID

Jovicard moderniza su sede con tecnología de control de acceso HID

Brasil. La empresa Jovicard, especializada en control de acceso físico, identidad segura, biometría y seguridad electrónica integrada, completó la modernización de su sede corporativa con...

Suscribase Gratis

SUSCRÍBASE AL INFO-BOLETIN

• Gane 25 Puntos de Lealtad •

¿REQUIERE UNA COTIZACIÓN?

ENTREVISTAS DESTACADAS

PATROCINADORES

ULTIMO BOLETIN

Ultimo Info-Boletin