Hay poca gente en el mundo de los LLMs que valga la pena leer sin filtro, y Simon Willison es una de ellas. Co-creador de Django, bloguero incansable y —sobre todo— alguien que prueba todo con sus propias manos antes de opinar: nada de humo. Cada tantos meses arma una charla relámpago que ya es tradición: resumir lo que pasó con los modelos en cinco minutos. La última la dio en la PyCon US 2026 y se llama “The last six months in LLMs in five minutes”. Te la cuento, con mi mirada arriba.
Por qué le presto atención
Willison tiene un don para separar la señal del ruido. Mientras medio Twitter se vuelve loco con cada anuncio, él baja a tierra qué cambió de verdad para los que programamos. Hasta tiene un benchmark propio medio absurdo y genial: pedirle a cada modelo que dibuje un pelícano andando en bicicleta en SVG. Suena a chiste, pero es una forma rápida y honesta de ver cuánto “entiende” un modelo. (Spoiler: en esta tanda, Gemini 3.1 Pro dibujó un pelícano sorprendentemente decente.)
Los agentes de coding cruzaron la línea
El cambio más grande de estos seis meses, según Simon —y coincido—, es que los agentes de coding pasaron de “a veces zafan” a “los uso todos los días”. ¿Qué los empujó? Una técnica de entrenamiento que se volvió mainstream: RLVR (refuerzo con recompensas verificables). En castellano: en vez de premiar al modelo por sonar bien, lo premiás por resolver tareas que se pueden verificar objetivamente —que pasen los tests, que compile, que corra—. Ese cambio chiquito en cómo se entrena los hizo mucho más confiables para trabajo real.
“Los agentes de coding pasaron de ‘funcionan a veces’ a ‘funcionan casi siempre’, cruzando una barrera de calidad donde ya podés usarlos como driver diario para hacer trabajo real.”
Simon Willison
Lo que no veíamos venir: el modelo en tu laptop
El otro temblor fue el de los modelos open-weight (los que te podés descargar y correr vos mismo, sin pedirle permiso a nadie). Los chinos —Qwen y GLM— y la familia Gemma de Google demostraron que hoy una laptop puede correr modelos sorprendentemente capaces, sin pagar API ni mandar tus datos a un servidor ajeno. Eso abre una conversación enorme sobre costos, privacidad y soberanía del dato que recién empieza —y que para nuestra región no es un detalle menor.
El baile de la corona (y la fiebre del Mac Mini)
Para que dimensiones la velocidad de todo esto: el título de “mejor modelo” cambió de manos cinco veces en semanas entre Anthropic, OpenAI y Google, hasta que Claude Opus 4.5 se quedó con la corona. Y mi anécdota favorita: el fenómeno “OpenClaw” —un proyecto que arrancó under y se volvió viral como asistente personal— generó tanta gente queriendo correr agentes locales que hubo faltante de Mac Mini. Si eso no te pinta el momento que estamos viviendo, no sé qué.
Desde mi punto de vista
Lo que más rescato del recap de Simon es el foco: no se trata del modelo más grande ni del benchmark más alto, sino del momento exacto en que una herramienta cruza de “demo linda” a “la uso todos los días”. Eso ya lo estoy viviendo en mi propio trabajo y lo veo en la comunidad: hace seis meses los agentes eran un juguete impredecible; hoy son parte del flujo de cualquiera que programe en serio. Y lo del open-weight corriendo local me parece la semilla de algo grande para Latinoamérica, donde el costo y la soberanía del dato pesan distinto que en Silicon Valley. Por algo en el MUG venimos empujando tanto la formación en estos temas.
Para leer (y ver) la fuente
The last six months in LLMs in five minutes (Simon Willison). Son cinco minutos; te los recomiendo enteros.


