Home Economía AGI desconfiará en gran medida de los humanos, lo cual es una...

AGI desconfiará en gran medida de los humanos, lo cual es una forma inteligente para que la IA piense en nosotros

24

En la columna de hoy, examino una revelación algo sorprendente: no sólo los humanos tienen que determinar si están dispuestos a confiar en la IA, sino que, de manera similar, la IA tiene que determinar si deben confiar en los humanos. Sí, la situación está al revés en ese sentido. Esto será especialmente destacado una vez que avancemos en la IA para lograr la Inteligencia General Artificial (AGI). En este punto, se espera que casi todo el planeta haga uso diario de AGI. AGI tendrá que decidir computacionalmente cuáles de los 8 mil millones de habitantes de la Tierra son dignos de confianza y cuáles no.

hablemos de ello

Este análisis de un avance revolucionario en IA es parte de mi cobertura actual de la columna de Forbes sobre lo último en IA, incluida la identificación y explicación de varias complejidades impactantes de la IA (ver enlace aquí).

Hacia AGI y ASI

Primero, algunos antecedentes sirven para preparar el terreno para esta discusión sobre el peso.

Se están realizando una gran cantidad de investigaciones para seguir avanzando en la IA. El objetivo general es lograr inteligencia artificial general (AGI) o incluso la posibilidad ampliada de lograr superinteligencia artificial (ASI).

AGI es una inteligencia artificial que se considera igual a la inteligencia humana y aparentemente puede igualar nuestra inteligencia. ASI es una inteligencia artificial que ha ido más allá del intelecto humano y sería superior en muchos, si no en todos, los sentidos posibles. La idea es que ASI sería capaz de correr en círculos alrededor de los humanos, superándonos en todo momento. Para obtener más detalles sobre la naturaleza de la IA convencional frente a AGI y ASI, consulte mi análisis en el enlace aquí.

Aún no hemos llegado a AGI.

De hecho, se desconoce si alcanzaremos el AGI o si tal vez se pueda lograr el AGI en décadas o quizás siglos. Las fechas de consecución del AGI que circulan son muy variables y no están respaldadas por ninguna evidencia creíble o lógica firme. ASI está incluso más allá de los límites en lo que respecta a nuestra situación actual con la IA convencional.

AGI debería creer en todos los humanos

Abordemos la cuestión de AGI y cómo debería optar por confiar en los humanos.

Algunos creen que dado que los humanos han creado AGI, deberíamos esperar que AGI confíe en todos los humanos. La idea es que la AGI necesita darse cuenta de que los humanos están en la cima del orden jerárquico. Cualquier cosa que un humano le diga a AGI que haga, por Dios, AGI debe ejecutar sumariamente la orden o instrucción dada.

Punto, fin de la historia.

Bueno, ese no es el final de la historia.

Estoy seguro de que puedes adivinar por qué esta noción no es la mejor manera de abordar este espinoso enigma. Imaginemos que un tipo malvado accede al AGI y le dice que inventa una nueva arma biológica. Bajo la regla de que la AGI debe confiar en todos los humanos, la AGI procede con facilidad y crea un arma biológica terriblemente poderosa. El villano agradece a AGI por la útil ayuda. Lo siguiente que sabes es que el maligno desata el arma biológica y daña gravemente a la humanidad.

no es bueno

El espectro de la confianza

No hay duda de que una apariencia general de confianza en todos los humanos es imprudente. El ejemplo de los malvados no sólo muestra el defecto de este precepto, sino que también podemos considerar otro ángulo que fortalece aún más las dudas sobre tan necia regla.

Dice así:

  • ¿Los humanos confían en todos los demás humanos?

En absoluto.

Al darnos cuenta de que se supone que la AGI está a la par de la inteligencia humana, no deberíamos esperar que la AGI se desvíe de la predilección humana de no confiar en todos los humanos. De una manera quizás similar a cómo los humanos aprenden a confiar o desconfiar de sus semejantes, debemos darle a AGI algunos medios para hacer lo mismo.

AGI tendrá que evaluar en qué humanos confiar y de cuáles desconfiar.

Para aclarar, el acto de confiar en alguien no es necesariamente una dicotomía intermitente. Puedes tener mucha confianza en un querido amigo, pero al mismo tiempo tener un sentimiento de desconfianza hacia ese mismo amigo en otros sentidos. Si tu amigo te dice que debes invertir en una determinada acción, puedes confiar en él y él lo hará. Por otro lado, si tu amigo te dice que puedes saltar por un acantilado y estar bien, probablemente ajustarás tu sentido de confianza y no seguirás adelante con una propuesta tan arriesgada.

Piense en ello como un espectro de confianza. Confías en algunas personas para cierto tipo de tareas o consejos, mientras que con otras tienes una mayor sensación de desconfianza que de confianza en esos mismos asuntos. Su sentido de confianza y desconfianza también cambia con el tiempo. Un buen amigo puede de repente ser deshonesto contigo. Como tal, ajuste rápidamente el nivel de confianza asociado con este amigo.

Los humanos deciden quién es AGI confiable

Quizás deberíamos dejar que los humanos decidan quién se considera digno de confianza.

Un enfoque comúnmente sugerido es obligar a AGI a obtener la aprobación previa de los humanos sobre la confiabilidad de otros humanos. Así que no dejemos que el AGI decida computacionalmente cuándo confiar en las personas. Depende completamente de lo que varios humanos le hayan dicho a AGI acerca de mostrar confianza hacia otros seres humanos.

Por ejemplo, supongamos que se elige un comité especial de humanos para ser el rey del fideicomiso. Le dicen a AGI en quién confiar y cuánto. Cada día, este comité revisa minuciosamente aquellos que utilizan AGI y emite orientación sobre su respectiva confiabilidad. Esta no es una tarea de una sola vez. El comité debe revisar y reajustar periódicamente las ponderaciones de confianza asociadas con los usuarios de AGI.

Tratar de gestionar logísticamente este enfoque es difícil de manejar, poco práctico y puede generar sesgos en cuanto a quién tiene alta o baja confianza en el AGI. La logística por sí sola es insostenible. Revisar rutinariamente la confiabilidad de quizás 8 mil millones de usuarios de AGI es desalentador e inviable para este comité.

Una variación es que permitimos que todos los humanos califiquen a todos los demás humanos. Algo así como una reseña de Yelp realizada mediante colaboración colectiva. Nuevamente, esto no es práctico y tiene muchos otros inconvenientes.

AGI tendrá que garantizar la confianza

Con todo, parece bastante claro que el único camino sensato es que AGI emita juicios fiables sobre los humanos. De alguna manera computacional, AGI tendrá que determinar en quién confiar y cuánto, incluido realizar ajustes en tiempo real a esas métricas de confianza.

Esto pone los pelos de punta a muchos expertos en IA. Existe un enorme peligro de que AGI opte por emitir estos juicios de confianza de manera injusta. Para ver mi amplia cobertura de estos dilemas éticos de la IA no resueltos, consulte el enlace aquí.

Un estudio de investigación reciente buscó identificar cómo la IA contemporánea emite juicios de confianza sobre los usuarios. Aunque la IA actual no es AGI, podemos aprender mucho sobre cómo avanzar hacia la AGI si comprendemos los detalles de la IA en la era actual. El estudio se titula “Una mirada más cercana a cómo los modelos de lenguaje grandes ‘confían’ en los humanos: patrones y sesgos” por Valeria Lermana y Yaniv Dovera. archivar22 de abril de 2025 e hizo estos aspectos destacados (extractos):

  • “Si bien una considerable cantidad de literatura estudia cómo los humanos confían en los agentes de IA, se entiende mucho menos acerca de cómo los agentes basados ​​en LLM desarrollan una confianza efectiva en los humanos”.
  • “En 43.200 experimentos simulados, para cinco modelos de lenguaje populares, en cinco escenarios diferentes, encontramos que el desarrollo de la confianza en LLM muestra una similitud general con el desarrollo de la confianza humana”.
  • “Nos basamos en teorías psicológicas para extraer información sobre los mecanismos de cómo esta confianza implícita de los agentes basados ​​en LLM en humanos puede descomponerse y predecirse y, en consecuencia, cómo puede verse afectada teóricamente”.
  • “Encontramos que en la mayoría de los casos, pero no en todos, la confianza en LLM está fuertemente predicha por la confiabilidad y, en algunos casos, también está sesgada por la edad, la religión y el género, particularmente en entornos financieros”.
  • “Aunque existen varias definiciones y operacionalizaciones de la confiabilidad, una gran cantidad de literatura define la confianza como compuesta de tres dimensiones clave: capacidad (competencia), benevolencia e integridad”.

AGI está haciendo lo mismo que los humanos

Una lección destacada de este estudio es que quizás el camino a seguir sea considerar configurar AGI para determinar la confianza de manera similar a como lo hacen los humanos. En otras palabras, en lugar de reinventar la rueda y tratar de inventar una nueva forma de evaluar la confianza, dejemos que el AGI siga los medios humanos.

Como se señaló, la confianza puede basarse en una variedad de dimensiones. Cada una de estas dimensiones se puede cuantificar. AGI podría confiar en estas dimensiones e intentar evaluar a cada usuario en consecuencia. Este sería un elemento en funcionamiento continuo que AGI siempre mantendría en funcionamiento.

Incluso este enfoque humano tiene desafíos.

Por ejemplo, un nuevo usuario inicia sesión en AGI por primera vez. AGI no sabe nada sobre el usuario. ¿Cómo se puede medir adecuadamente cualquiera de estas dimensiones cuando hay poca información disponible sobre la persona? Esto sería cierto si un humano juzgara a otro por su confiabilidad, lo que significa que cuando conoces a alguien por primera vez generalmente tienes poca idea de cuál debería ser su confiabilidad.

Otra posible complicación es que alguien se quede atrapado en un estancamiento de la confianza. Quizás AGI evalúe a la persona y le dé una puntuación de confianza bastante baja. En este punto, la persona está en el sótano y puede que tenga pocas esperanzas de salir. El AGI puede ajustar gradualmente hacia arriba la métrica de confianza de esa persona mientras se la trata principalmente de manera desconfiada.

Zapato en el otro pie

Para algunos es un poco sorprendente que tengamos que preocuparnos de cómo AGI decidirá confiar en los humanos. Casi todo el enfoque en el tema general de la IA y la confianza tiene que ver con lograr que los humanos se sientan cómodos con la forma de confiar en la IA. Existe una importante base de investigación sobre este tema que aún está en evolución; consulte mi análisis en profundidad en el enlace aquí.

En el caso de AGI, decidir si confiar en AGI es ciertamente una consideración trascendental. Si confiamos en AGI para que nos ayude en nuestro trabajo y juego, es mucha confianza para depositar en una máquina. Ya sabemos que la IA actual puede generar confabulaciones de IA inventadas que no se basan en hechos reales, comúnmente llamadas alucinaciones de IA; consulte mi cobertura en el enlace aquí.

Supongamos que AGI hace lo mismo. Tal vez tengamos 8 mil millones de personas usando AGI, y algunas veces, AGI dará respuestas extrañas. Es probable que las personas asuman fundamentalmente que AGI es completamente confiable y acepten recomendaciones potencialmente extrañas emitidas por AGI. Esto podría incluir señales dañinas que inducen a error a las personas a hacer cosas peligrosas.

Resulta que tenemos que preocuparnos por la dualidad de la confianza, que consiste en que las personas confíen en AGI y en cómo AGI descubrirá la confiabilidad de los humanos. Es una ecuación bastante compleja. Deberíamos arreglar las cosas antes de llegar a AGI y, de lo contrario, quedarnos atrapados en una red enredada de confianza y desconfianza intrincadas.

En palabras de Charles H. Green: “Se necesitan dos para hacer el tango de la confianza: el arriesgado (el fideicomisario) y el digno de confianza (el fiduciario); cada uno debe desempeñar su papel”. Esto se aplica plenamente a la vía de confianza de doble sentido entre la humanidad y AGI.

Enlace fuente