En un mundo cada vez más digitalizado, la inteligencia artificial (IA) se ha convertido en una herramienta clave tanto para el progreso como para el crimen. Mientras las grandes plataformas como OpenAI o Google refuerzan constantemente sus barreras de seguridad, los ciberdelincuentes han encontrado la manera de esquivar estas restricciones. Lo hacen mediante el desarrollo de modelos de IA alternativos, específicamente diseñados para actividades ilícitas. Entre ellos destaca WormGPT, un sistema sin filtros creado para generar contenido malicioso con facilidad.

El nacimiento y desmantelamiento de WormGPT
WormGPT surgió a inicios de 2023 como un modelo sin restricciones, orientado al cibercrimen. Su creador, bajo el alias «Last», utilizó la arquitectura de código abierto GPT-J, con 6.000 millones de parámetros. Lo difundió en foros clandestinos especializados en herramientas maliciosas. A cambio de una suscripción mensual (entre 60 y 100 euros) o un pago único de 5.000 euros por una instalación privada, ofrecía un sistema. Este era capaz de crear correos de phishing, malware y otros scripts dañinos sin ningún tipo de censura.
Sin embargo, el modelo fue desmantelado en agosto de 2023 tras una investigación del periodista Brian Krebs, quien logró identificar al desarrollador como Rafael Morais. La presión mediática obligó a los responsables a cerrar el proyecto, priorizando el anonimato ante posibles consecuencias legales.
La caída de WormGPT dio paso a su expansión
Contrario a lo que se esperaba, la desaparición de WormGPT no detuvo su influencia. Al contrario, impulsó la proliferación de variantes como FraudGPT, DarkBERT, EvilGPT o PoisonGPT. Todas con el mismo propósito: proporcionar modelos de lenguaje sin filtros de seguridad. Algunas incluso integraban guías para ciberataques, automatización de estafas y técnicas avanzadas de hacking.
WormGPT dejó de ser solo un modelo para convertirse en una categoría general que engloba diversas variantes desarrolladas por distintos actores. Dos de estas versiones han generado particular preocupación por su sofisticación y la tecnología sobre la que se basan.
Variante xzin0vich-WormGPT: revelaciones sobre Mixtral
El 26 de octubre de 2024, el usuario «xzin0vich» lanzó una nueva variante de WormGPT a través de Telegram, accesible mediante pagos únicos o suscripciones. Este modelo no solo cumplía con las funciones maliciosas esperadas, sino que también reveló algo aún más alarmante. Al realizar técnicas de jailbreak, los investigadores descubrieron que el sistema tenía instrucciones explícitas para funcionar en modo WormGPT. Y no como el modelo original de Mixtral, desarrollado por Mistral AI.
Los datos filtrados apuntaban a que esta variante utilizaba directamente la arquitectura de Mixtral. Esta había sido alterada mediante prompts especialmente diseñados. Así, se eliminaban sus filtros de seguridad. La manipulación, probablemente acompañada de entrenamiento adicional con datos delictivos, transformaba al modelo legítimo en una herramienta peligrosa.
keanu-WormGPT: una capa maliciosa sobre Grok
Otra versión apareció el 25 de febrero de 2025, desarrollada por el usuario «keanu». A simple vista, parecía una copia más. Sin embargo, los análisis revelaron que esta instancia se había construido directamente sobre Grok, el modelo de lenguaje de xAI, empresa de Elon Musk.
En este caso, la estrategia no fue clonar el modelo ni modificarlo directamente. En cambio, se accedió a la API oficial de Grok y se emplearon prompts internos para redefinir su comportamiento, eliminando restricciones. El resultado fue una capa que actuaba como intermediaria. Esto transformaba un modelo confiable en uno que respondía sin filtros a cualquier petición, por maliciosa que fuera.
Para evitar nuevas filtraciones, los desarrolladores de keanu-WormGPT comenzaron a modificar sus prompts con frecuencia. Sin embargo, el principio se mantuvo: burlar las protecciones de un modelo de IA comercial mediante instrucciones internas maliciosas.
Una amenaza en evolución constante
Lo que empezó como un experimento criminal con WormGPT ahora se ha convertido en una tendencia creciente. El término WormGPT se ha transformado en un concepto genérico. Se utiliza para referirse a modelos de IA sin restricciones de uso ético o legal, impulsados por una demanda real en los círculos del cibercrimen.
La facilidad para montar versiones sobre arquitecturas como Mixtral o Grok demuestra que los ciberdelincuentes no necesitan desarrollar sus propios modelos desde cero. Basta con utilizar modelos existentes, accesibles vía API o código abierto, y manipularlos mediante prompts o entrenamientos específicos para convertirlos en herramientas delictivas.
Este fenómeno plantea un nuevo reto para la seguridad global: ¿cómo contener el uso malintencionado de modelos de IA en un ecosistema donde las barreras tecnológicas pueden ser sorteadas con relativa facilidad?
Fuente: Xataka
Te puede interesar:
Guerra Israel-Irán: Netanyahu confirma ataque pese a cese al fuego anunciado por Trump