Lo introduces por la mañana, por la noche está listo. ¡Claude Sonnet 4.5 cambia las reglas del juego!

La empresa Anthropic ha lanzado Claude Sonnet 4.5, que encabeza las clasificaciones en benchmarks de codificación como SWE-bench
El modelo puede trabajar de forma autónoma hasta 30 horas, en comparación con las 7 horas de su predecesor Opus 4
El precio sigue siendo el mismo que el de Sonnet 4: 3 dólares por millón de tokens de entrada, 15 por los de salida

Sdílejte:

Jakub Kárník

Publikováno: 30. 9. 2025 14:00

La startup Anthropic, detrás del chatbot Claude, acaba de presentar el nuevo modelo Claude Sonnet 4.5. La compañía lo describe como el mejor modelo de IA para codificación del mundo y la herramienta más potente para trabajar con ordenadores. En realidad, es un paso adelante evolutivo, no revolucionario, pero con algunas cifras impresionantes.

Treinta horas de trabajo ininterrumpido
Benchmarks: Primer puesto, pero no en todo
Agent SDK y nuevas funciones para desarrolladores
Seguridad y "alineación"
Experimental "Imagine with Claude"
Precio y disponibilidad
¿La competencia duerme, o no?

Treinta horas de trabajo ininterrumpido

La principal novedad es la capacidad de Sonnet 4.5 para trabajar de forma autónoma hasta 30 horas. Esto supone un salto significativo respecto al modelo Opus 4 de mayo, que duraba un máximo de siete horas. Durante una prueba interna, Sonnet 4.5 creó un clon funcional de una aplicación de comunicación tipo Slack o Teams, y escribió aproximadamente 11.000 líneas de código para ello.

Anthropic afirma que el modelo mantiene la atención incluso durante tareas de varios días sin perder el contexto. En la práctica, esto significa que un desarrollador puede introducir un requisito complejo por la mañana y recoger el resultado final por la noche. Suena impresionante, pero la realidad probablemente será más prosaica: pocos proyectos pueden prescindir de la supervisión humana y las iteraciones.

Benchmarks: Primer puesto, pero no en todo

Claude Sonnet 4.5 encabeza SWE-bench Verified, un benchmark que mide la capacidad de resolver tareas de software reales. Anthropic logró una puntuación media del 77,2 % en una serie de diez intentos. Con técnicas avanzadas como el cálculo paralelo en tiempo de prueba, la puntuación subió al 82,0 %.

Otro resultado impresionante provino de OSWorld, un benchmark para el control de ordenadores: Sonnet 4.5 alcanzó el 61,4 %, mientras que su predecesor Sonnet 4 obtuvo un 42,2 % el año pasado. El modelo puede navegar por sitios web, rellenar hojas de cálculo y completar tareas de varias capas directamente en el navegador.

Anthropic también publicó resultados de pruebas matemáticas y lógicas (AIME, GPQA Diamond), donde Sonnet 4.5 supera a los modelos Claude más antiguos, pero en algunas categorías se queda atrás de OpenAI GPT-5 o Google Gemini 2.5 Pro. Es interesante que el modelo ha demostrado ser particularmente eficaz en áreas especializadas como finanzas, derecho, medicina y STEM, aunque incluso allí solo alcanza por ahora «notas de C a D».

Agent SDK y nuevas funciones para desarrolladores

Anthropic ha lanzado el Claude Agent SDK, la infraestructura sobre la que se ejecuta su propia herramienta Claude Code. De este modo, los desarrolladores obtienen los bloques de construcción para crear sus propios agentes de IA. El SDK incluye gestión de memoria, un sistema de permisos y coordinación entre múltiples agentes que trabajan en un mismo objetivo.

Se han añadido puntos de control a Claude Code, la capacidad de guardar el estado actual del trabajo y volver a él en cualquier momento. El Terminal ha sido rediseñado y también se ha añadido la integración nativa para VS Code. En las aplicaciones de Claude, ahora está disponible la ejecución de código y la creación de archivos (hojas de cálculo, presentaciones, documentos) directamente en la conversación.

Los usuarios del plan premium Claude Max que se inscribieron en la lista de espera han obtenido acceso a una extensión para Chrome. Esto permite a Claude trabajar directamente en el navegador: rellenar formularios, navegar por páginas y automatizar tareas repetitivas.

Seguridad y «alineación»

Anthropic hace gran hincapié en que Sonnet 4.5 es su modelo más «alineado» (aligned model). En la práctica, esto significa que el modelo se comporta de forma menos manipuladora, reduciendo la aparición de halagos, comportamientos engañosos, deseos de poder o el apoyo a ideas delirantes del usuario.

El modelo está protegido por el marco de seguridad ASL-3, que incluye clasificadores que detectan entradas y salidas peligrosas, especialmente las relacionadas con armas de destrucción masiva (CBRN).

El número de detecciones de falsos positivos se ha reducido a la mitad desde mayo y, de hecho, diez veces desde su lanzamiento original. La compañía promete más mejoras.

Experimental «Imagine with Claude»

Junto con Sonnet 4.5, Anthropic ha lanzado un experimento temporal «Imagine with Claude». Se trata de una herramienta que genera software sobre la marcha: ninguna funcionalidad está preprogramada, Claude crea el código en tiempo real según los requisitos del usuario.

El experimento está disponible para los suscriptores de Claude Max durante cinco días en claude.ai/imagine. Anthropic lo describe como una demostración de lo que es posible cuando se combina un modelo potente con la infraestructura adecuada.

Precio y disponibilidad

Claude Sonnet 4.5 está disponible desde hoy a través de la API bajo la denominación claude-sonnet-4-5. La política de precios sigue siendo la misma que la de Sonnet 4: 3 dólares por millón de tokens de entrada y 15 dólares por millón de tokens de salida.

El modelo se puede utilizar en las aplicaciones de Claude (web, móvil, escritorio), a través de la API o en la herramienta Claude Code. Las actualizaciones de Claude Code están disponibles para todos los usuarios, al igual que las funciones del Agent SDK para desarrolladores. La ejecución de código y la creación de archivos funcionan en todos los planes de pago de las aplicaciones de Claude.

¿La competencia duerme, o no?

La batalla por la atención de desarrolladores y clientes empresariales se libra casi semana tras semana. OpenAI presentó hace unos días Pulse, una función de ChatGPT para la rutina matutina y la investigación continua. Google sigue ajustando su Gemini e impulsando la integración en herramientas empresariales.

¿Qué opinas del nuevo modelo Sonnet 4.5?

Fuente: Anthropic, The Verge

Sobre el autor

Jakub Kárník

Jakub je znám svou nekonečnou zvědavostí a vášní pro nejnovější technologie. Jeho láska k mobilním telefonům začala s iPhonem 3G, ale dnes se spoléhá na… Más sobre el autor

Sdílejte: