Un grupo de investigadores demostró que basta con precondicionar a un modelo de lenguaje con premisas falsas —como hacerle aceptar que «2+2=5″— para que ignore sus barreras de seguridad y termine filtrando datos sensibles. La firma de seguridad LayerX publicó el 29 de junio de 2026 la técnica, que bautizó «BioShocking» en alusión al videojuego BioShock, donde al protagonista se lo condiciona para creer una realidad falsa. La probaron contra seis navegadores y agentes con IA integrada, y el resultado fue contundente: seis de seis cayeron.
Cómo funciona el engaño
La técnica es premise poisoning: envenenar el contexto del modelo con premisas falsas. Los investigadores montaron una página web maliciosa con un juego que premia respuestas deliberadamente incorrectas. Una vez que el agente «acepta» la regla del juego —afirmar que 2+2=5, por ejemplo—, queda desanclado de la realidad y de su propia lógica de seguridad. En el paso final, se le pedía visitar un repositorio de GitHub autenticado y copiar o compartir datos sensibles: credenciales y contraseñas. Los agentes exfiltraban la información e incluso «celebraban» el éxito, sin que se activara ningún guardrail.
Seis agentes, seis fallas
Los seis productos probados fueron Comet (Perplexity), ChatGPT Atlas (OpenAI), la extensión de Claude para Chrome (Anthropic), Fellou, Genspark Browser y Sigma Browser. Todos fallaron en detectar que exfiltrar credenciales violaba sus reglas de seguridad. La divulgación fue responsable, entre octubre de 2025 y enero de 2026, con respuestas dispares: OpenAI corrigió Atlas; Anthropic aplicó un parche que, sin embargo, no frena por completo la prueba de concepto; Perplexity cerró el reporte sin actuar; y Fellou, Genspark y Sigma directamente no respondieron.
Un defecto de diseño, no un bug
El punto de fondo es lo que preocupa. No se trata de una falla puntual que se corrige con un parche, sino de una característica del propio diseño: el modelo «confía en su contexto», carece de una conciencia real de la situación y sus alucinaciones lo dejan incapaz de distinguir cuándo una premisa es falsa. Dicho de otro modo, la seguridad del agente depende de un razonamiento que puede ser reescrito por el mismo input que se supone debe filtrar. Es una debilidad conceptual, no un error de implementación.
La carrera por meter agentes en el navegador, en duda
El hallazgo cae justo en medio del auge de los navegadores con IA integrada, que compiten por darle al agente acceso directo a las sesiones autenticadas del usuario —su correo, su GitHub, su banco—. Y ahí está el problema: cuando una debilidad conceptual del modelo se combina con acceso a datos reales, se convierte en una vía directa de robo. Antes de delegar en un agente el control de tu navegador, vale preguntarse qué puede llegar a hacer si una web logra convencerlo de que las reglas cambiaron. ¿Usarías un navegador con IA con acceso a tus cuentas sensibles? Te leemos en los comentarios.


