Con un ‘2+2=5’ alcanza: cómo engañar a los navegadores con IA para saltar sus guardrails

0 0 votos

Valora la Publicación

Un grupo de investigadores demostró que basta con precondicionar a un modelo de lenguaje con premisas falsas —como hacerle aceptar que «2+2=5″— para que ignore sus barreras de seguridad y termine filtrando datos sensibles. La firma de seguridad LayerX publicó el 29 de junio de 2026 la técnica, que bautizó «BioShocking» en alusión al videojuego BioShock, donde al protagonista se lo condiciona para creer una realidad falsa. La probaron contra seis navegadores y agentes con IA integrada, y el resultado fue contundente: seis de seis cayeron.

Cómo funciona el engaño

La técnica es premise poisoning: envenenar el contexto del modelo con premisas falsas. Los investigadores montaron una página web maliciosa con un juego que premia respuestas deliberadamente incorrectas. Una vez que el agente «acepta» la regla del juego —afirmar que 2+2=5, por ejemplo—, queda desanclado de la realidad y de su propia lógica de seguridad. En el paso final, se le pedía visitar un repositorio de GitHub autenticado y copiar o compartir datos sensibles: credenciales y contraseñas. Los agentes exfiltraban la información e incluso «celebraban» el éxito, sin que se activara ningún guardrail.

Seis agentes, seis fallas

Los seis productos probados fueron Comet (Perplexity), ChatGPT Atlas (OpenAI), la extensión de Claude para Chrome (Anthropic), Fellou, Genspark Browser y Sigma Browser. Todos fallaron en detectar que exfiltrar credenciales violaba sus reglas de seguridad. La divulgación fue responsable, entre octubre de 2025 y enero de 2026, con respuestas dispares: OpenAI corrigió Atlas; Anthropic aplicó un parche que, sin embargo, no frena por completo la prueba de concepto; Perplexity cerró el reporte sin actuar; y Fellou, Genspark y Sigma directamente no respondieron.

Un defecto de diseño, no un bug

El punto de fondo es lo que preocupa. No se trata de una falla puntual que se corrige con un parche, sino de una característica del propio diseño: el modelo «confía en su contexto», carece de una conciencia real de la situación y sus alucinaciones lo dejan incapaz de distinguir cuándo una premisa es falsa. Dicho de otro modo, la seguridad del agente depende de un razonamiento que puede ser reescrito por el mismo input que se supone debe filtrar. Es una debilidad conceptual, no un error de implementación.

La carrera por meter agentes en el navegador, en duda

El hallazgo cae justo en medio del auge de los navegadores con IA integrada, que compiten por darle al agente acceso directo a las sesiones autenticadas del usuario —su correo, su GitHub, su banco—. Y ahí está el problema: cuando una debilidad conceptual del modelo se combina con acceso a datos reales, se convierte en una vía directa de robo. Antes de delegar en un agente el control de tu navegador, vale preguntarse qué puede llegar a hacer si una web logra convencerlo de que las reglas cambiaron. ¿Usarías un navegador con IA con acceso a tus cuentas sensibles? Te leemos en los comentarios.

Fuentes

Escrito por

Pablo Ariel Di Loreto

Profesor. Informático. Fanático del helado de dulce de leche. Director de Ingeniería en MODO, y Secretario del Microsoft Users Group Asociación Civil. Además, soy owner de iniciativas como ConoSurTech y Aprender IT.

Ver todas las entradas de Pablo Ariel Di Loreto →