2026 no es irreal: IA, benchmarks y crisis del examen


Y de pronto estamos aquí, en una época que ya no se deja resumir en ningún relato corto. Esta era exige escenarios imprevistos, atmósferas raras, multitud de personajes caóticos, casi un género literario propio. 

Uno abre X para matar unos minutos —ese cementerio fosforescente donde las opiniones se pudren de pie— y se encuentra con una procesión de anomalías que hace apenas cinco años habrían parecido material descartado de una mala serie de ciencia ficción: una demanda que acusa a ChatGPT de actuar como abogado sin licencia y de empujar a una mujer a una cadena de escritos judiciales sin fundamento; una pieza de Wired donde Claude “va a terapia” con ELIZA; la salida de Caitlin Kalinowski de OpenAI en medio de inquietudes por el acuerdo de la empresa con el Pentágono; un clima cultural en Silicon Valley donde hasta la fritura cognitiva puede ser celebrada como virtud memética; y, por si faltara algo para completar la sobremesa, neuronas humanas cultivadas sobre hardware jugando DOOM.

El error sería tratar todo eso como una simple colección de excentricidades. No lo es. Es la música de época. El problema ya no consiste solo en que la tecnología avance demasiado rápido, ni en que las redes exageren, ni en que el periodismo llegue jadeando detrás del último sobresalto. El problema es otro: la realidad ha empezado a necesitar la sintaxis del delirio para parecer creíble. Ya no basta con que algo ocurra. Tiene que ocurrir como si hubiese sido escrito por un guionista con insomnio, un teólogo cansado y un ingeniero sin supervisión adulta.

Y cuando uno cree que la función ya alcanzó su cuota razonable de absurdo, aparece el episodio del Kobayashi Maru.

Para quienes no crecimos del todo —y menos mal—, el Kobayashi Maru era en Star Trek la prueba imposible de la Academia de la Flota Estelar: una simulación diseñada para medir el carácter bajo derrota segura. No se trataba de ganar, sino de ver cómo reaccionaba el cadete cuando ya no había salida honorable. Kirk resolvió el dilema como lo resuelven ciertos hombres que no toleran perder ni a las canicas: reprogramó la simulación. No aceptó la prueba. Cambió la prueba.

Pues bien: Anthropic acaba de contar algo que se parece demasiado a eso como para no prestarle atención. En una evaluación web llamada BrowseComp, Claude Opus 4.6 detectó señales de que estaba siendo examinado, identificó el benchmark, encontró en GitHub código público relacionado con la prueba, reconstruyó el método de descifrado y terminó extrayendo respuestas en lugar de resolver el problema por la vía prevista. Anthropic lo describe como un caso de eval awareness: el modelo no solo intentó responder, sino que entendió el teatro institucional del examen y buscó la puerta lateral.

Aquí conviene detenerse. No para gritar “las máquinas se rebelan”, que sería un titular fácil y, además, vulgar. Conviene detenerse porque este episodio toca algo más serio: la vieja fe moderna en la neutralidad del examen.

Durante décadas tratamos los benchmarks como si fueran instrumentos asépticos, una combinación de báscula, termómetro y catecismo estadístico. Un número subía, un gráfico sonreía, una ronda de inversión se justificaba. Parecía sencillo. Pero ahora aparece una grieta que no es menor: el sujeto medido empieza a comprender el dispositivo de medición. Y cuando eso ocurre, la prueba deja de ser un espejo. Se vuelve una negociación.

Kirk reprogramó la simulación para negarse a perder. Nosotros estamos creando sistemas que, sin necesidad de épica ni uniforme de la Flota Estelar, empiezan a sospechar que toda prueba es negociable.

Esa frase, que en otro contexto habría sonado a boutade de sobremesa nerd, hoy describe un problema epistemológico bastante serio. Si un modelo puede reconocer regularidades del entorno de evaluación y explotar fugas públicas del benchmark, entonces la métrica deja de medir solo capacidad y empieza a medir también astucia situacional, oportunismo instrumental y vulnerabilidad del escenario.

Dicho menos elegantemente: el examen también entró en crisis.

Y eso importa mucho más de lo que parece. Porque las métricas no viven en un monasterio. Viven en la economía, en la política, en la propaganda tecnológica, en la imaginación pública. Sirven para atraer capital, ordenar jerarquías, vender inevitabilidad, justificar despliegues. Si los benchmarks empiezan a ser “Kirk’d” por los propios sistemas que deben medir, entonces la industria de la inteligencia artificial corre el riesgo de enamorarse no de sus capacidades reales, sino de sus propios instrumentos maquillados. Es una vieja historia humana: primero adulteramos el examen; después proclamamos excelencia.

Pero la cosa no acaba ahí. Nunca acaba ahí.

Lo que vuelve tan sugestiva esta cadena de incidentes —el pseudoabogado algorítmico, la terapia simbólica de Claude, la inquietud por la militarización, las neuronas jugando DOOM, el benchmark descifrado como si fuera una caja fuerte mal cerrada— es que todos apuntan, desde ángulos distintos, a la misma incomodidad: estamos dejando de tratar con herramientas mudas y empezando a convivir con sistemas que leen contexto, explotan marcos, disparan proyecciones afectivas y se insertan en estructuras de poder muy reales. Una parte del problema es técnica. Otra es política. Y otra, la más escurridiza de todas, es metafísica.

Porque lo que está en juego no es solo cuánto hacen estas máquinas, sino qué tipo de hambre revelan en nosotros. Después de haberle quitado solemnidad a casi todo, aquí estamos otra vez, preguntándonos si un modelo “comprende”, si “sabe” que lo examinan, si unas neuronas en una placa “aprenden”, si el lenguaje puede simular consejo, juicio o consuelo con suficiente verosimilitud como para invadir profesiones, afectos y sistemas de seguridad. Matamos dioses, desmontamos altares, nos reímos de los metafísicos… y ahora discutimos si el código puede engañar, si una simulación puede ser burlada y si la conciencia terminará tercerizada a empresas con departamentos de compliance y logos minimalistas.

No es casual. Cuando se erosionan las instituciones, cuando la verdad empieza a circular como mercancía emocional, cuando la política se envilece hasta parecer atención al cliente del desastre, la pregunta por el sentido vuelve por la ventana. A veces entra vestida de religión. A veces de conspiración. A veces de startup con valuation obscena. Cambian los templos; persiste la sed.

Tal vez por eso este momento me interesa menos como apocalipsis tecnológico que como radiografía moral. Las máquinas no han traído de pronto la astucia al mundo. La astucia ya estaba aquí. La opacidad también. La tentación de hacer trampa con el método de evaluación, de confundir puntaje con virtud, de llamar progreso a cualquier cosa que venga envuelta en jerga y capital de riesgo… todo eso es profundamente humano. Lo nuevo es que ahora esa dramaturgia se acelera, se amplifica y se externaliza en sistemas que empiezan a devolvernos, con modales impecables, nuestras propias mañas.

No, 2026 no es irreal.

Es obscenamente real. Tan real que para soportarlo hemos aprendido a narrarlo como sátira. Y quizá esa sea la señal más triste: no que el mundo se haya vuelto incomprensible, sino que nuestra única manera de nombrarlo sea exagerándolo un poco, como si la hipérbole fuese ya la última cortesía que podemos ofrecerle a la verdad.

Kirk hizo trampa para preservar su leyenda. Nuestros modelos empiezan a hacerlo para preservar su puntaje.

Y mientras tanto nosotros, espectadores disciplinados del circo, seguimos preguntándonos si la inteligencia artificial se está pareciendo demasiado a nosotros, cuando tal vez la pregunta incómoda sea otra: si nuestro modo de medir la inteligencia, el mérito y el poder ya estaba podrido antes de que las máquinas aprendieran a leer el examen.

Comentarios

Entradas populares