Los modelos chicos le pelean a los grandes: 3B que razonan, GLM-5.2 local y la carrera por la eficiencia

0 0 votos

Valora la Publicación

Hay una tendencia de junio de 2026 que me parece la más interesante para los que construimos software en LATAM, y no tiene que ver con un modelo frontera nuevo: los modelos chicos le están peleando a los grandes. En las últimas semanas se juntaron tres hitos que apuntan al mismo lado. Weibo AI publicó VibeThinker-3B, un modelo de apenas 3.000 millones de parámetros que dice razonar al nivel de modelos cientos de veces más grandes. Unsloth sacó la documentación para correr GLM-5.2 (de Z.ai) localmente, sin depender de la nube, y prendió fuego Hacker News. Y Sakana AI presentó Fugu, que ataca el mismo problema —capacidad frontera sin atarse a un solo proveedor— pero por un camino distinto. El tamaño, de a poco, deja de ser el único factor que importa.

VibeThinker: 3B que dice razonar como los grandes

VibeThinker-3B está construido sobre Qwen2.5-Coder-3B de Alibaba y se entrenó con una receta de post-entrenamiento que llaman Spectrum-to-Signal: fine-tuning supervisado por currículum, aprendizaje por refuerzo multi-dominio y self-distillation offline. En criollo: no metieron más parámetros, metieron mejor entrenamiento. Los números del paper son fuertes —94,3 en AIME 2026 (97,1 con test-time scaling) y 80,2 Pass@1 en LiveCodeBench v6—, valores que el reporte ubica a la par de DeepSeek V3.2, GLM-5 y Gemini 3 Pro, modelos órdenes de magnitud más grandes. Entra en unos 6,7 GB de VRAM y corre en una GPU de consumidor.

Ahora, escepticismo sano: el paper se centra en razonamiento verificable (matemática y código), no en conocimiento general. Los mismos autores muestran que en GPQA-Diamond, un test de conocimiento, baja a 70,2. Y los benchmarks todavía están pendientes de replicación independiente. La propia hipótesis del equipo —que el razonamiento verificable se puede comprimir en pocos parámetros pero el conocimiento de dominio abierto necesita más cobertura— ya te dice dónde brilla y dónde no.

GLM-5.2 corriendo en tu máquina

El segundo hito no es un modelo chico, es algo casi más loco: correr un modelo grande en hardware tuyo. GLM-5.2 es un MoE de 744.000 millones de parámetros (40B activos, contexto de 1M) que la documentación de Unsloth ubica a la par de Claude Opus 4.8, GPT-5.5 y Gemini 3.1 Pro en razonamiento. Unsloth recibió acceso day-zero de Z.ai y publicó GGUFs con cuantización dinámica: dejan en alta precisión las capas que importan y bajan a pocos bits las que no. ¿El resultado? La versión 2-bit entra en 239 GB de RAM+VRAM combinada y corre en una Mac de 256 GB de memoria unificada, o incluso en una GPU de 24 GB con 256 GB de RAM de sistema haciendo offloading.

Acá también hay que poner el freno: Unsloth reporta que el 2-bit conserva ~82% de top-1 accuracy (84% más chico que el full de 1,5 TB), y en Hacker News hubo entusiasmo pero también quienes calificaron de tramposos los números de accuracy y de poco realistas los requisitos de hardware para la mayoría. 256 GB de RAM no es lo que tenés en el escritorio. Pero la dirección es clara: la frontera de «esto solo corre en la nube» se está moviendo.

Sakana Fugu: el otro camino a la eficiencia

El tercer hito conviene aclararlo bien, porque es fácil malinterpretarlo. Fugu, que Sakana AI lanzó en disponibilidad general el 22 de junio de 2026, no es un modelo chico destilado: es un modelo de orquestación. Detrás de una sola API coordina un pool intercambiable de modelos frontera (GPT-5.5, Claude Opus, Gemini 3.1 Pro) usando un «conductor» entrenado de 7B —apoyado en dos papers de ICLR 2026, TRINITY y Conductor— que aprende a qué modelo activar y cómo combinar el trabajo. La eficiencia no viene de comprimir, viene de rutear inteligentemente la tarea al modelo adecuado.

Lo incluyo en esta nota porque apunta a la misma idea desde otro ángulo: no necesitás el modelo más grande para todo, necesitás el adecuado para cada tarea. Entre VibeThinker (comprimir el razonamiento), GLM-5.2 local (acercar lo grande a tu hardware) y Fugu (rutear según la tarea), se dibuja un mismo mensaje: la era de «siempre el modelo más caro y más grande» se está terminando.

Por qué a los que trabajamos en LATAM nos importa

Acá está el punto que me interesa de verdad. Un modelo que razona bien en pocos parámetros, o uno grande que podés cuantizar y correr en infraestructura propia, te cambia tres números que en la región pesan: costo (no pagás por token a un proveedor en dólares), latencia (la inferencia local no cruza el Atlántico) y, sobre todo, privacidad y compliance. Para muchos equipos de acá —banca, salud, gobierno— el problema nunca fue solo la plata: era que los datos no podían salir de la organización. Un modelo que corre on-prem o en una máquina del equipo resuelve eso de una forma que ningún SLA de nube termina de cerrar.

Dicho todo esto, mantengo el escepticismo: un benchmark no es producción. Que un 3B clave AIME no significa que te resuelva el caso de negocio real, con datos sucios y prompts ambiguos. Y «corre local» en la práctica todavía pide hardware que no es trivial. Pero la tendencia me parece sana y va para el lado correcto: más opciones, menos dependencia de un solo proveedor, y la posibilidad concreta de elegir según el problema. ¿Ya estás probando modelos chicos o corriendo algo localmente en tu equipo? ¿Para qué casos te cierra y para cuáles seguís yendo a la nube? Te leemos en los comentarios.

Fuentes

Escrito por

Pablo Ariel Di Loreto

Profesor. Informático. Fanático del helado de dulce de leche. Director de Ingeniería en MODO, y Secretario del Microsoft Users Group Asociación Civil. Además, soy owner de iniciativas como ConoSurTech y Aprender IT.

Ver todas las entradas de Pablo Ariel Di Loreto →