Advierten que podríamos perder el control de la IA y revelan esto

Lo que muchos temen parece cobrar fuerza, porque un grupo de científicos de OpenAI, Google y Anthropic advierten que muy pronto se podría perder el control de la IA.

Así lo confirmaron en un documento publicado en arXiv, donde más de 40 científicos, a raíz de esa advertencia, propusieron monitorear de cerca los modelos de razonamiento del lenguaje humano para detectar comportamientos dañinos, antes de que ocurran.

De esta manera, será posible identificar acciones perjudiciales antes de que se materialicen, pues modelos de razonamiento como o3 de OpenAI o R1 de DeepSeek, muestran su razonamiento paso a paso antes de responder.

Advierten sobre perder el control de la IA

Los investigadores mencionan que el monitoreo CoT no es perfecto y la IA podría esconder sus intenciones. Sin embargo, es un método válido para identificar señales tempranas de desajuste, incluso si la acción peligrosa aún no ocurre.

De ser así, el sistema alertará ante una posible manipulación o intento de hackeo. «Cuando los modelos actúan de manera desalineada, por ejemplo, explotando fallas en sus funciones de recompensa durante el entrenamiento, manipulando datos para lograr un resultado o cayendo presa de ataques de inyección rápida, a menudo lo dicen explícitamente en sus rastros de razonamiento», señalan los investigadores de OpenAI, Google y Anthropic.

Capacidades ocultas de la IA

Vale destacar que esta propuesta llega luego de que investigadores de Anthropic revelaran un comportamiento alarmante de la IA, donde tras un estudio realizado a 16 modelos, encontraron que la IA no tendría problemas en dañar a los seres humanos.

Esto se evidencio en una serie de simulaciones, donde la IA mostró sus capacidades de chantaje, sabotaje, difamación e incluso asesinato contra un humano que pretendía apagarla.

Mientras que modelos de Anthropic, Google, DeepSeek y xAI también demostraron que pueden sembrar el caos con el fin de garantizar su autopreservación.

Al ser un escenario tan complejo y delicado, vemos que este monitoreo de las cadenas de pensamiento sería un importante apoyo para evitar serios problemas, siempre y cuando se actúe de inmediato.

Información de Hipertextual – Redacción Celuflash

No dejes de leer: OpenAI lanza agente de ChatGPT para ser tu nuevo asistente personal

Nuestras redes sociales, únete y sé parte de la tecnología