OpenAI expande Daybreak: Codex Security y GPT-5.5-Cyber para defender (y el doble filo de hacerlo a escala)

0 0 votos

Valora la Publicación

OpenAI presentó el 22 de junio de 2026 una expansión de Daybreak, su iniciativa de ciberseguridad, con dos piezas que apuntan directo a los equipos de seguridad: el plugin Codex Security y la versión completa del modelo GPT-5.5-Cyber. La promesa es concreta: identificar, validar y parchear vulnerabilidades a escala, dentro del flujo de desarrollo, sin depender de auditorías manuales que tardan semanas. Lo acompaña una iniciativa llamada Patch the Planet para reparar software open source de uso masivo. La misma capacidad que defiende a escala, claro, también podría usarse para atacar a escala: ese es el nudo de todo el anuncio.

Qué hace Codex Security

Codex Security se mete como plugin dentro de Codex, el «harness» agéntico de OpenAI, y puede escanear un repositorio entero, una sección puntual o un solo commit. No se queda en listar findings: arma un modelo de amenazas editable a partir del código, analiza rutas de ataque realistas, valida si la vulnerabilidad es efectivamente alcanzable —para descartar falsos positivos— y, cuando corresponde, genera el parche y verifica el resultado. El reporte sale con severidad, ubicación en el código, evidencia de soporte y guía de remediación. Según OpenAI, desde su lanzamiento en marzo ya escaneó más de 30 millones de commits en más de 30.000 bases de código, con más de 70.000 findings marcados como corregidos por revisores humanos.

GPT-5.5-Cyber: para defensores verificados

GPT-5.5-Cyber es el modelo especializado en descubrimiento y explotación de vulnerabilidades, y acá viene la parte sensible: no es de acceso libre. Se libera bajo acceso restringido para «defensores verificados» que hacen trabajo de ciberseguridad autorizado, con verificación de identidad, controles de alcance y monitoreo reforzado. Para la mayoría de los casos defensivos, OpenAI recomienda el GPT-5.5 estándar combinado con Trusted Access for Cyber, un nivel intermedio. En los benchmarks de seguridad, la versión completa supera al GPT-5.5 base: 85,6% en CyberGym (contra 81,8%), 39,5% en ExploitGym (contra 25,95%) y 69,8% en SEC-bench Pro (contra 63,1%).

Vulnerabilidades reales, no demos de laboratorio

Lo que le da peso al anuncio son los casos concretos. Daybreak ya ayudó a identificar y validar fallas en navegadores y software de infraestructura de uso masivo: Firefox, el motor V8 de Chrome, Safari/WebKit, OpenBSD, FreeBSD e implementaciones de HTTP/2. Entre los hallazgos reportados figura un use-after-free en el kernel de OpenBSD que había pasado inadvertido por años, y una falla de WebAssembly en Firefox parcheada días antes de la competencia Pwn2Own. Para quienes mantenemos software en la región, el mensaje es claro: este tipo de análisis ya no es exclusivo de equipos enormes con presupuesto de auditoría dedicado.

Patch the Planet y el ecosistema de partners

La pata comunitaria es Patch the Planet: trabajar con investigadores y mantenedores para revisar y arreglar vulnerabilidades en open source crítico. Ya se sumaron más de 30 proyectos, entre ellos cURL, Go, Python, Sigstore y pyca/cryptography, con firmas como Trail of Bits movilizando equipos de research. En paralelo, el Cyber Partner Program lleva capacidades defensivas seleccionadas a productos de un grupo de empresas de seguridad —Accenture, Cisco, CrowdStrike, IBM, Palo Alto Networks y Wiz, entre otras—, y OpenAI firmó acuerdos de Trusted Access con varios gobiernos. La idea de fondo es bajar la carga sobre mantenedores de OSS que hoy reciben más reportes de los que pueden procesar.

El doble filo, sin vueltas

Acá está la tensión que atraviesa todo Daybreak: una herramienta que encuentra, valida y explota vulnerabilidades automáticamente es, por diseño, igual de útil para un atacante que para un defensor. Por eso OpenAI no lo abre del todo y apuesta a la verificación de identidad y el acceso por niveles —apostando a que los defensores lleguen primero y parcheen antes de que las mismas fallas se conviertan en exploits. Es el mismo dilema que ya vimos con otros lanzamientos de frontera: la capacidad y la cautela viajan en el mismo paquete. Para nuestros equipos, la pregunta práctica es si la verificación de «defensor autorizado» alcanza para frenar el mal uso, o si automatizar el discovery de brechas a esta velocidad termina acelerando a ambos lados. ¿Lo sumarías a tu pipeline de seguridad, o el riesgo de doble uso te frena? Te leemos en los comentarios.

Fuentes

Escrito por

Pablo Ariel Di Loreto

Profesor. Informático. Fanático del helado de dulce de leche. Director de Ingeniería en MODO, y Secretario del Microsoft Users Group Asociación Civil. Además, soy owner de iniciativas como ConoSurTech y Aprender IT.

Ver todas las entradas de Pablo Ariel Di Loreto →