"Es un montón de basura": el 'padrino de la IA' habla claro sobre una técnica que están usando OpenAI y otras grandes del sector

Denuncia que estamos poniendo nuestras esperanzas de que la IA no tenga un comportamiento anti-humano en una técnica que no supone más que dar "una capa de pintura" a las IAs

Pile Crap
1 comentario Facebook Twitter Flipboard E-mail

Geoffrey Hinton, ganador del Premio Nobel en 2024 y uno de los padres fundadores del 'deep learning', base de la actual IA, lleva varias décadas siendo una de las voces más influyentes en este campo de la tecnología. Pero desde su salida de Google en 2023, ha asumido un nuevo rol: el de portavoz crítico de los riesgos existenciales que plantea la IA.

En una reciente charla (disponible en YouTube) Hinton expresó con claridad su escepticismo ante algunas de las técnicas más utilizadas hoy para "alinear" sistemas de IA con valores humanos. Entre ellas, la conocida como RLHF ocupa un lugar central en su crítica.

¿Qué es el RLHF?

El RLHF (siglas de 'Reinforcement Learning from Human Feedback', o 'aprendizaje por refuerzo a partir de retroalimentación humana') es una técnica mediante la cual se entrena un modelo de lenguaje (como, por ejemplo, GPT-4o) no solo con datos de texto en crudo, sino también mediante la intervención humana.

Para ello, los usuarios evalúan respuestas generadas por el modelo, eligen las mejores, y esas preferencias se utilizan para ajustar el comportamiento del modelo mediante algoritmos de aprendizaje por refuerzo.

El objetivo de RLHF no es sólo lograr que las respuestas de la IA sean útiles o coherentes, sino también 'sintonizarlas' con los 'valores humanos', evitando que terminen siendo tóxicas, sesgadas o peligrosas.

El RLHF es "una capa de pintura"

Lejos de compartir el entusiasmo de muchos ingenieros sobre la efectividad del RLHF, Hinton fue tajante: considera esta técnica como una solución cosmética para un problema bastante más profundo. Según él mismo explica:

"Es como si tuvieras un coche viejo y oxidado, lleno de agujeros, y lo intentaras vender dándole una mano de pintura. Eso es el RLHF".

Y es que, desde su punto de vista, el RLHF no resuelve los fallos estructurales del sistema de IA, sino que se limita a ajustar el comportamiento externo del modelo sin modificar sus verdaderas motivaciones internas o su comprensión del mundo. Y, por lo tanto, sería trivial revertir o 'disolver' ese barniz en determinadas condiciones.

Según Hinton, confiar en técnicas como RLHF para mitigar los riesgos de modelos avanzados equivale a poner "los dedos para tapar cada agujero de una presa a punto de romperse". Y esto es especialmente preocupante si consideramos que estos sistemas, en opinión del propio Hinton, están ya en camino de superar a los humanos en muchos aspectos cognitivos.

Cree que el RLHF puede maquillar el comportamiento de la IA pero no cambia su esencia: confiar en que seguirán siendo seguros porque "se comportan bien" es, dice, una apuesta temeraria

Ya le vemos las orejas al lobo

Hinton reconoce que sus opiniones sobre la capacidad de la IA han cambiado radicalmente en los últimos años: en 2018, aún pensaba que una inteligencia artificial general (AGI) estaba aún muy lejos. Ya no es así. Y por eso la considera tan peligrosa.

Aunque Hinton no se considera un experto en seguridad de IA, ha decidido usar su reputación para advertir sobre lo que percibe como peligros reales de la misma, más allá del discurso simplista de que "sólo son loros estocásticos".

Una de las ideas más provocadoras de la charla es su afirmación de que no conocemos ejemplos, salvo el caso de un bebé con su madre, en los que una entidad menos inteligente controle a una más inteligente. Por eso, Hinton considera poco creíble que los humanos puedan controlar a superinteligencias futuras, salvo con garantías estructurales muy robustas, que aún no sabemos cómo construir.

Hinton también fue escéptico ante la idea de usar sistemas actuales para investigar y resolver los problemas de alineación o seguridad: hay un conflicto de interés estructural al permitir que una tecnología se convierta en su propio árbitro ético y regulador.

¿Cómo buscar una seguridad estructural?

La crítica de fondo que Hinton plantea al RLHF está relacionada con la falta de garantías formales. A diferencia del desarrollo tradicional de software, donde se diseñan sistemas con propiedades comprobables, el enfoque actual —basado en redes neuronales entrenadas masivamente y luego ajustadas con RLHF— no ofrece pruebas ni seguridades sobre lo que el modelo realmente "quiere" o podría hacer en situaciones nuevas.

Este punto se conecta con otra de sus preocupaciones: la evolución no supervisada de múltiples inteligencias artificiales, que compitan por recursos. Si una IA llega a desear tener más réplicas para ser más efectiva, entonces podrían surgir dinámicas evolutivas autónomas, fuera del control humano.

Para Hinton, la solución más obvia sería frenar el desarrollo de IA avanzada... pero reconoce que eso es poco realista, debido a la competencia entre países y a los enormes beneficios que ofrece la IA en campos como la medicina o la educación.

Aun así, sugiere medidas concretas como prohibir la publicación de los 'pesos' de los LLMs (los valores numéricos que determinan cómo se procesan los datos de entrada), ya que eso facilita su uso por cibercriminales.

Imagen | Fotomontaje (Collision Conf + Marcos Merino mediante IA)

En Genbeta | "La IA nos matará a todos", afirma uno de los mayores expertos del mundo. No firmó la carta de Elon Musk porque se queda muy corta 

Inicio