Claude Sonnet 5 promete Opus barato: la trampa del esfuerzo máximo que nadie te explica

Editor WP-CLI

hace 2 horas

Anthropic ha lanzado Claude Sonnet 5 y lo ha puesto como modelo por defecto en todos los planes, incluso el gratuito. La promesa suena redonda: capacidades agénticas que hace unos meses solo tenían los modelos caros, ahora a 2 dólares por millón de tokens de entrada y 10 de salida hasta finales de agosto. Yo lo he probado en tareas reales de desarrollo y, como siempre pasa con estos lanzamientos, el titular es mejor que la letra pequeña.

El propio Anthropic lo vende como el Sonnet más agéntico hasta la fecha. Planifica, usa navegador y terminal, trabaja de forma autónoma. En los benchmarks que publican, se acerca a Opus 4.8 en razonamiento, programación y uso de herramientas. Si te dedicas a montar flujos con IA en proyectos web o automatizaciones para clientes, suena a noticia buena. Pero hay un matiz que en la presentación queda enterrado bajo el precio introductorio.

Lo primero que me chirría es la palabra agéntico usada como si fuera sinónimo de fiable. Un agente que navega solo, ejecuta comandos en terminal y encadena pasos sin que le mires es exactamente lo que más miedo da en producción si no tienes controles. Anthropic lo sabe: la misma semana que libera Sonnet 5 al público general, negocia con Washington la vuelta de Mythos 5 y Fable 5 tras semanas bloqueados por seguridad. El mensaje implícito es que los modelos potentes son armas de doble filo y hay que vigilarlos. ¿Y entonces me meten el más agéntico en el plan Free por defecto?

El debate en Hacker News, con más de setecientas votaciones el día del lanzamiento, fue más escéptico que el comunicado de prensa. Varios desarrolladores señalaron la paradoja del parámetro de esfuerzo: si subes Sonnet 5 a niveles altos o extra altos de razonamiento, en benchmarks como BrowseComp acabas pagando casi lo mismo que Opus 4.8 y obtienes peor tasa de acierto. La frase que más se repitió resume mi sensación: si la tarea es difícil, usa un modelo grande. Sonnet 5 no sustituye a Opus en lo más exigente; lo empuja hacia abajo para que creas que ya no lo necesitas.

Eso no significa que sea un producto malo. Significa que la estrategia comercial es clara. Anthropic necesita que Sonnet sea el caballo de batalla: volumen, integraciones, Claude Code, Cowork, subagentes encadenados. Opus queda reservado para el cliente enterprise que paga sin mirar la factura. Es el mismo movimiento que hizo OpenAI con GPT-4o frente a o1, pero acelerado porque la competencia con Google y los modelos chinos no deja margen. En El Español resumían bien el contexto geopolítico: mientras EEUU libera modelos de Anthropic tras el susto de GLM-5.2, la carrera no es solo de benchmarks sino de quién controla el acceso. Sonnet 5 es la versión que puedes exportar sin levantar demasiadas alarmas.

Para una pyme o un freelance que monta chatbots, genera contenido o automatiza tareas en WordPress, ¿qué cambia en la práctica? Poco si ya usabas Sonnet 4.6, salvo que ahora el modelo intentará hacer más cosas sin pedir permiso. Eso puede ahorrarte clics o costarte horas depurando un agente que ha borrado archivos en el servidor porque interpretó mal una instrucción. En mi experiencia, el salto de calidad más honesto está en tareas estructuradas de conocimiento: resumir documentación, redactar con contexto, refactorizar funciones acotadas. En agentes multi-paso con herramientas externas, el cuello de botella sigue siendo la supervisión humana, no el modelo.

El precio introductorio es tentador, eso hay que reconocerlo. Dos dólares por millón de entrada compite con modelos open source desplegados en tu propio GPU, pero con la infraestructura y el filtro de seguridad de Anthropic. A partir del 31 de agosto sube a 3 y 15. Si construyes un producto encima de la API, calcula con el precio estándar, no con la oferta de lanzamiento. Ya he visto demasiados proyectos que nacieron viables con créditos promocionales y murieron cuando llegó la tarifa real.

Tampoco me convence que lo pongan por defecto en el plan gratuito como si fuera un regalo. Es un regalo con factura de retención: acostumbras a usuarios y equipos pequeños a flujos agénticos, y cuando necesitan escalar o cumplir requisitos de compliance, el salto a Team o Enterprise está ahí. Los controles de administración que Anthropic ha ido añadiendo a Claude Enterprise —límites de gasto, asignación de modelos por equipo— confirman que las empresas ya están sufriendo sorpresas en la factura. Sonnet 5 consume más tokens que sus predecesores cuando le dejas pensar mucho.

¿Cuándo tiene sentido migrar? Si hoy reservas Opus para tareas que Sonnet 4.6 resolvía a medias, prueba Sonnet 5 en entorno de staging con el esfuerzo en medio y mide tokens y errores. Si tu caso es un agente que debe operar horas sin intervención, no confundas autonomía demostrada en benchmark con autonomía demostrada en tu stack con tus datos. Los early testers de Anthropic hablan de que el modelo se revisa solo; eso en un demo impresiona, en un servidor de producción con credenciales reales me parece una frase para dormir tranquilos al product manager.

La pregunta incómoda es de gobernanza, no de benchmarks. Si mañana un empleado conecta Sonnet 5 a tu panel de hosting, tu repo de Git y tu base de datos de clientes porque ahora puede hacerlo desde el plan Pro, ¿tienes reglas claras sobre qué puede tocar y qué no? El modelo más agéntico del catálogo medio no te quita ese trabajo; te lo exige antes de desplegarlo.

Si tuvieras que elegir entre dejar a tu equipo usar Sonnet 5 en modo agente libre sobre producción o pagar el triple por Opus con un humano revisando cada acción, ¿cuál de las dos opciones considerarías realmente segura para tu negocio?

Fuentes

Publicaciones relacionadas: