Anthropic lanza Claude Fable 5, su modelo más potente, con temas que evita por seguridad

0 0 votos

Valora la Publicación

Anthropic lanzó el 9 de junio de 2026 a Claude Fable 5, descrito oficialmente como «un modelo de clase Mythos hecho seguro para uso general». Es la primera versión públicamente accesible de Mythos, un nivel de modelos por encima de la clase Opus que hasta ahora solo existía detrás de Project Glasswing, una colaboración cerrada con el gobierno de Estados Unidos. Junto a Fable, la compañía presentó Claude Mythos 5: el mismo modelo subyacente pero con salvaguardas levantadas en ciertas áreas, reservado a partners de ciberdefensa e investigadores seleccionados.

Un salto medible en código y ciencia

Los números que publicó Anthropic marcan distancia con la generación anterior. En SWE-Bench Pro, Fable 5 alcanza 80,3% frente al 69,2% de Opus 4.8, el 58,6% de GPT-5.5 y el 54,2% de Gemini 3.1 Pro. En FrontierCode (benchmark de Cognition) más que duplica a Opus 4.8. En el terreno científico, Anthropic reporta diseño de proteínas unas 10 veces más rápido, hipótesis de biología molecular preferidas en ciegas frente a modelos clase Opus alrededor del 80% de las veces, y un análisis genómico autónomo de una semana sobre 138 especies. Stripe afirma haber migrado una base de código Ruby de 50 millones de líneas en un día, contra los dos meses estimados por su equipo.

La parte incómoda: hay temas que el modelo evita

Lo que más repercusión generó es el enfoque deliberadamente conservador en tres dominios sensibles: ciberseguridad ofensiva (desarrollo de exploits, malware, evasión de defensas), biología y química de uso dual, y destilación (pedidos orientados a extraer capacidades para entrenar modelos competidores). La implementación es sutil: clasificadores monitorean las consultas y, cuando detectan una de riesgo, la rutean automáticamente a Claude Opus 4.8 en lugar de devolver un rechazo explícito. Anthropic afirma que esto ocurre en menos del 5% de las sesiones —»más del 95% de las sesiones de Fable no involucran ningún fallback»— y admite que los filtros son «más estrictos de lo ideal» y bloquearán a veces pedidos benignos.

El razonamiento oficial: «las mismas consultas que son beneficiosas en manos de profesionales de ciberseguridad e investigadores de biología podrían ser peligrosas si están disponibles para actores maliciosos». Como ejemplo del riesgo, Anthropic señaló que Mythos 5 superó a modelos especializados prediciendo el ensamblaje de cápsides virales, algo que «en las manos equivocadas podría permitir el diseño de virus peligrosos». El tráfico de los modelos clase Mythos se retiene de manera obligatoria por 30 días con fines de seguridad, antes de ser borrado.

Precio, disponibilidad y red-teaming

Fable 5 cuesta US$10 por millón de tokens de entrada y US$50 por millón de salida, el doble que Opus 4.8 pero menos de la mitad de lo que costaba el Mythos Preview. Está disponible desde el 9 de junio en la API de Claude (model ID claude-fable-5) y en Amazon Bedrock, en regiones de Estados Unidos y Europa. En las suscripciones (Pro, Max, Team, Enterprise) se incluyó sin costo extra entre el 9 y el 22 de junio; a partir del 23 requiere créditos de uso. Sobre la robustez de los filtros, Anthropic reporta cero jailbreaks universales en más de 1.000 horas de bug bounty externo, aunque el UK AI Safety Institute logró «progreso hacia uno».

Capacidad y cautela, en el mismo lanzamiento

El lanzamiento condensa la tensión que viene marcando a la industria: días después de advertir que la IA se vuelve demasiado peligrosa, Anthropic publicó su modelo más potente, con un mecanismo de seguridad que cambia de modelo por detrás sin avisarle al usuario. Para quien construye productos sobre la API, ese fallback silencioso implica que un workflow puede pasar de Fable a Opus —con otro precio y otra capacidad— por contenido que ni siquiera tipeó, como un archivo adjunto o una memoria. ¿Te parece el equilibrio correcto entre capacidad y seguridad, o el downgrade automático sin aviso es un problema de transparencia para tu equipo? Te leemos en los comentarios.

Fuentes

Escrito por

Pablo Ariel Di Loreto

Profesor. Informático. Fanático del helado de dulce de leche. Director de Ingeniería en MODO, y Secretario del Microsoft Users Group Asociación Civil. Además, soy owner de iniciativas como ConoSurTech y Aprender IT.

Ver todas las entradas de Pablo Ariel Di Loreto →