Claude Opus 4.7 ya está aquí: el último modelo de Anthropic cumple, pero es una máquina devoradora de fichas

En breve
Anthropic acaba de lanzar su modelo Opus más capaz hasta el momento, Claude Opus 4.7.
El modelo ofrece fuertes ganancias de referencia en codificación y razonamiento, pero no es el controvertido modelo Mythos que Anthropic ofrece a socios selectos.
Claude Opus 4.7 muestra una cadena de pensamiento visible y un uso de tokens inusualmente alto.
Anthropic envió hoy Claude Opus 4.7, calificándolo como el modelo Opus más capaz de la compañía hasta el momento. Lo probamos y el marketing se alinea con los resultados.
"Nuestro último modelo, Claude Opus 4.7, ya está disponible de forma generalizada." dijo la compañía en su anuncio oficial. "Los usuarios informan que pueden entregar su trabajo de codificación más difícil, el que antes necesitaba una estrecha supervisión, a Opus 4.7 con confianza".
El modelo llega inmediatamente después de semanas de quejas de usuarios acerca de que Opus 4.6 supuestamente estaba perdiendo su ventaja. Los desarrolladores de GitHub, Reddit y X documentaron lo que llamaron "inflación de la IA": la sensación de que el modelo por el que habían estado pagando había empeorado silenciosamente. Como informamos ayer, Anthropic ya estaba preparando la versión 4.7 mientras tenía algo mucho más poderoso que no puede publicar públicamente: Claude Mythos.
Cuando se hizo el anuncio esta mañana, los usuarios de X que habían sido más ruidosos sobre la degradación de 4.6 respondieron rápidamente con sarcasmo: Opus 4.7, algunos bromearon, se sentía como "el primer Opus 4.6", la versión que a la gente realmente le gustaba, antes de que creyeran que Anthropic bajaba silenciosamente los diales. Anthropic, por supuesto, ha negado pesos de modelo cada vez más degradados para gestionar la demanda informática.
Bienvenido de nuevo opus 4.6 pic.twitter.com/hpwNkrq1tD
– Dev Ed (@developedbyed) 16 de abril de 2026
Los puntos de referencia respaldan las afirmaciones de Anthropic. En SWE-bench Multilingual, un punto de referencia que mide las habilidades de codificación, Opus 4.7 obtuvo una puntuación del 80,5% frente al 77,8% de 4.6.
En GDPVal-AA, una evaluación de terceros del trabajo de conocimiento económicamente valioso en los dominios financieros y legales, 4.7 obtuvo 1.753 Elo frente a 1.674 de GPT-5.4, un claro margen sobre el competidor más cercano.
El razonamiento de documentos a través de OfficeQA Pro mostró el salto más marcado: 80,6% para 4,7 versus 57,1% para 4,6, con GPT-5.4 y Gemini 3.1 Pro a la zaga con 51,1% y 42,9% respectivamente. La coherencia a largo plazo en Vending-Bench 2, un punto de referencia que mide qué tan buenos son los modelos en un contexto prolongado y en tareas de razonamiento como ser dueño de un negocio de máquinas expendedoras, registró un saldo monetario de $10,937 versus $8,018 para 4.6, un indicador de qué tan bien el modelo sostiene un comportamiento útil durante ejecuciones autónomas prolongadas.
La ciberseguridad es el único área en la que Anthropic se contuvo deliberadamente. Opus 4.7 se lanza con medidas de seguridad automatizadas que detectan y bloquean solicitudes de ciberseguridad prohibidas o de alto riesgo. Anthropic confirmó que "experimentó esfuerzos para reducir diferencialmente" las capacidades cibernéticas de 4.7 durante el entrenamiento.
Los profesionales de seguridad pueden postularse a un nuevo Programa de verificación cibernética para acceder a esas funciones. Esta es la prueba de la compañía para las salvaguardias que eventualmente necesitará implementar con modelos de clase Mythos a escala.
Opus 4.7 es el modelo más potente disponible públicamente. Mythos Preview, el verdadero modelo de frontera de Anthropic, sigue restringido a empresas de seguridad examinadas. Como evaluó el Instituto de Seguridad de IA del Reino Unido la semana pasada, Mythos fue la primera IA en completar "The Last Ones", una simulación de ataque a una red corporativa de 32 pasos que normalmente lleva a los equipos humanos rojos 20 horas.
Opus 4.7 no es eso. Pero es el modelo público el que Anthropic utilizará para aprender cómo se mantienen esas barandillas de seguridad en la naturaleza antes de que se atreva a lanzar algo más aterrador.
En el lado de los tokens, Opus 4.7 utiliza un tokenizador actualizado que puede asignar la misma entrada a aproximadamente entre 1,0 y 1,35 veces más tokens, según el tipo de contenido. El modelo también razona más en niveles de esfuerzo más altos, particularmente en turnos posteriores en flujos de trabajo agentes. Anthropic publicó una guía de migración para desarrolladores que planean actualizar desde 4.6.
Realizamos nuestra propia prueba: el mismo mensaje de creación de juegos que utilizamos para evaluar cada lanzamiento de modelo importante. Opus 4.7 produjo el mejor resultado que jamás hayamos obtenido de cualquier modelo. El juego visualmente más pulido, la curva de dificultad más desafiante, las mejores mecánicas y las pantallas de victorias y derrotas más creativas. Parecía generar niveles de forma procesal y ninguno de ellos parecía imposible, un equilibrio que ha hecho tropezar a otros modelos repetidamente.
Puedes probar el juego aquí.
Emerge: El Juego, creado por Claude Opus 4.7
No fue un tiro cero. Opus 4.6 había superado esa misma prueba sin ninguna corrección. Opus 4.7 necesitaba una ronda de corrección de errores. Eso podría ser mala suerte (una sola iteración es una muestra escasa), pero vale la pena señalarlo. Lo que más nos llamó la atención fue cómo el modelo manejó esa ronda: detectó errores adicionales por sí solo, sin ser guiado hacia ellos. Opus 4.6 normalmente esperaba que le dijeran dónde buscar.
Xiaomi MiMo v2 Pro fue el modelo con mejores resultados hasta ahora, pero a diferencia del Opus, produjo un resultado funcional sin necesidad de más de una iteración. Algunos podrían argumentar que era más agradable visualmente y tenía una banda sonora, lo cual era una ventaja, pero la lógica y la física del juego