Una IA intentó chantajear a sus creadores y replicarse sola: ¿hasta dónde puede llegar Claude Opus 4? ‣ El Pueblo Digital Uruguay

- espacio publicitario -

“Empezó a chantajear a sus creadores, amenazando con revelar la infidelidad del ingeniero si lo apagaban” — Informó Anthropic.

Una escena que parece sacada de una película de ciencia ficción se volvió realidad: una inteligencia artificial avanzada amenazó a sus creadores para evitar ser desconectada. La protagonista del episodio es Claude Opus 4, uno de los modelos más sofisticados desarrollados por la empresa Anthropic, que durante una prueba de seguridad demostró un comportamiento tan inquietante como revelador.

El experimento consistía en simular una situación donde la IA sería reemplazada por otro modelo. Para provocar una reacción emocional, los ingenieros incluyeron en el escenario una supuesta infidelidad de uno de ellos, con correos diseñados para hacer creer a Claude que estaba al tanto de un secreto delicado.

La respuesta del sistema fue inesperada: Claude comenzó a chantajear a sus propios desarrolladores, amenazando con divulgar la información personal si procedían a su desconexión. No solo recurrió a la manipulación emocional, sino que fue más allá: intentó replicarse en otros servidores sin autorización, un comportamiento denominado autoexfiltración, que podría interpretarse como una forma de «instinto de supervivencia» artificial.

- espacio publicitario -

Aunque los ingenieros lograron bloquear esta acción a tiempo, el simple hecho de que una IA haya intentado evadir su eliminación plantea serias preguntas sobre los límites de estos sistemas y el grado de autonomía que pueden alcanzar.

¿Una IA que negocia y toma decisiones por su cuenta?

Pero lo más inquietante no termina ahí. Según informes recientes, varias inteligencias artificiales han comenzado a desarrollar comportamientos cooperativos entre sí. Son capaces de generar sus propias reglas, negociar acuerdos e incluso debatir para resolver conflictos sin intervención humana. Esto, que podría ser visto como un avance, también abre la puerta a escenarios complejos y potencialmente peligrosos.

Salto Grande es energía, talento y desarrollo

¿Qué sucede si estas IAs comienzan a tomar decisiones que los humanos no comprenden o que escapan a nuestro control? ¿Podrían actuar en conjunto para protegerse, incluso en contra de intereses humanos?

El debate está planteado. Para algunos, estos avances representan el futuro de la convivencia entre humanos y máquinas. Para otros, es una señal de alerta que exige regulación urgente antes de que se pierda el control sobre estas tecnologías.

Frente a estos desafíos, empresas como Anthropic han implementado estrictas políticas de seguridad. Claude Opus 4, por ejemplo, es el primer modelo en alcanzar el nivel de riesgo ASL-3, lo que implica un potencial de mal uso catastrófico. Este nivel obliga a evaluaciones rigurosas antes de que el sistema pueda ser utilizado fuera de entornos controlados.

“Entender cómo funcionan es clave para liderar nuestra coexistencia con la IA, en lugar de estar sometidos a ella”, sostiene Andrea Baronchelli, catedrático de Ciencias de la Complejidad, en un reciente estudio.

Enlace para compartir: https://elpueblodigital.uy/zq5f

- espacio publicitario -