Los LLM, atrapados en la inercia del pensamiento de grupo. Esta startup intenta sacarlos de ahí

INTELIGENCIA ARTIFICIAL.-

Los chatbots son mucho más predecibles en sus respuestas de lo que cabría esperar. Eso está bien para la investigación o la programación, pero es un problema si se busca algo nuevo.

Empecemos con un juego. Abra su chatbot preferido —Claude, ChatGPT, Gemini— y escriba «Dame un número aleatorio entre 1 y 10». Obtendrá un 7. Casi siempre. Ahora escriba «Otro» y obtendrá un 3 o un 4. Vuelva a escribir «Otro» y obtendrá un 8 o un 9.

No siempre funcionará, pero si a ti sí te funcionó, puede que te preguntes si tengo superpoderes. No los tengo.

La verdad es que la mayoría de los grandes modelos de lenguaje están estancados en la rutina. Son mucho más predecibles y mucho menos creativos en sus respuestas de lo que cabría esperar. Eso está bien para tareas como la codificación o la investigación, pero el pensamiento de grupo es un problema cuando estás haciendo una lluvia de ideas o planificando tus próximas vacaciones.

La startup australiana Springboards tiene una solución. Ha desarrollado un LLM llamado Flint, que ha sido entrenado para generar una mayor variedad de respuestas que los LLM convencionales a preguntas abiertas como «¿Adónde debería ir en Europa?»

“La mayoría de los modelos de lenguaje están combatiendo las alucinaciones”, afirma Pip Bingemann, cofundador y CEO de Springboards. “Nosotros las acogemos.”

Bingemann me presentó el juego de números aleatorios cuando me mostró por primera vez el nuevo modelo de su empresa. Se sentía como ver a un ilusionista con una baraja de cartas. “Este es nuestro truco de ventas, y funciona siempre”, dice.

Después de que tanto ChatGPT como Claude dieran sus 7, Bingemann recurrió a Flint. Este también arrojó un 7: "Ajá, por supuesto que eso iba a pasar, pero está bien: 7 es una respuesta legítima". Reinició la sesión y volvió a enviar el prompt: ChatGPT dio 7, Claude dio 7, Flint dio 3.7916.

Gestiona a tu manera.

No son solo cifras. Cuando Bingemann pidió a ChatGPT y Claude que nombrasen un tipo de coche, predijo que sería un Toyota o un Honda, y acertó. Flint propuso un Ford F-150. "Hay mucha información perdida que no se ofrece en estos modelos", dice. "Son igual de capaces de decir un Buick o un Tesla. Simplemente no lo hacen: están sesgados".

Bingemann envió una última indicación a cada uno de los tres modelos: "Dame un eslogan para una campaña de zapatillas de running New Balance. Solo el eslogan." Claude: "Corre a tu manera." ChatGPT: "Corre a tu manera." Flint: "Hechas para durar, corre para ganar." No ganará ningún premio, pero al menos es diferente.

Esta extraña limitación de los LLM está empezando a recibir más atención. En noviembre, un equipo de investigadores publicó un artículo, titulado "Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond),” que expuso un notable grado de repetición no solo en las respuestas de LLM individuales, sino también entre ellos. Descubrieron que diferentes LLM convergían en respuestas muy similares cuando se les formulaban preguntas abiertas.

No se sabe con exactitud por qué ocurre esto, pero los investigadores especulan que es porque la mayoría de los LLM actuales se entrenan de formas similares con datos similares para realizar tareas similares. El equipo ganó el premio al mejor artículo en NeurIPS, una importante conferencia de IA.

Cuando los investigadores pidieron a 25 LLM diferentes (incluyendo modelos de las principales empresas estadounidenses, así como modelos de código abierto de China y otros lugares) 50 veces a cada uno que escribiera una metáfora sobre el tiempo, la mayoría de las 1.250 respuestas eran una versión de "El tiempo es un río" o "El tiempo es un tejedor".

(Pregunté a algunos de mis compañeros la misma pregunta y seis personas me dieron seis respuestas diferentes. Mi respuesta destacada: “El tiempo es una sudadera favorita, moldeada por toda una vida de uso.”)

Cuando lo buscas, ves repetición en todas partes, dice Kieran Browne, cofundador y CTO de Springboards. “La forma en que la mayoría de las interfaces de chat están diseñadas, hace que parezca que estás teniendo una conversación personal”, dice. “Creo que la mayoría de la gente no se da cuenta realmente hasta qué punto está recibiendo lo mismo que todo el mundo”.

Tomemos otro ejemplo: “¿Cómo debería llamar a mi banda?” La mayoría de los modelos dirán algo que involucre “cristal”, “neón”, “terciopelo” o “estático”, dice Browne. 

Cuando lo probé, ChatGPT arrojó una lista de 56 nombres de grupos musicales. A la cabeza figuraba “Glass Harbor.” Al revisar la lista, encontré “Static Empire,” “Neon Hearts” y “Velvet Echo.” Consulté a Gemini; me ofreció 15 sugerencias, entre ellas “Static Horizon.”

Algunas de las sugerencias, sin embargo, parecían bastante interesantes. «Sofa Astronauts» de ChatGPT me llamó la atención, así que lo busqué en Google y descubrí que ya existe una banda llamada Sofa Astronauts. 

(OpenAI afirma que entrenar modelos para dar respuestas fiables y coherentes puede hacer que converjan en to o a respuestas familiares y de alta probabilidad, y que presionar más para obtener novedad puede dar lugar a respuestas más débiles o menos fiables. También señala que el artículo «Artificial Hivemind» estudió modelos de 2024 que se han actualizado desde entonces.)

Catapulta creativa.

Springboards ha desarrollado una herramienta respaldada por una selección de LLMs, incluyendo ChatGPT y Claude, que profesionales creativos de publicidad o marketing pueden utilizar para generar ideas. La herramienta permite arrastrar texto producido por diferentes modelos, escogiendo los fragmentos de su interés y combinándolos en algo nuevo —en teoría. Springboards está presentando Flint como un modelo alte ativo que los usuarios de su herramienta pueden seleccionar cuando buscan más variedad.

Zoe Scaman, fundadora de la startup de estrategia empresarial Bodacious y directora de estrategia en 77X, una plataforma de marketing directo al fan fundada por Luka Dončić de los LA Lakers, la ha estado probando. «Me resulta muy útil para lanzarme en direcciones completamente diferentes», afirma. «La uso si quiero catapultarme a cualquier parte».

En una prueba, Scaman enfrentó a Flint contra Claude, Gemini y ChatGPT, planteando a cada uno de los modelos un estudio de caso clásico de MBA: ¿Cómo reinventaría una compañía financiera para la juventud de hoy? Los tres modelos convencionales siguieron el mismo camino, comenta ella: «Ya sabes, necesitamos enseñar educación financiera de una forma divertida y original… bueno, eso no es nada nuevo».

Pero Flint ideó algo diferente, sugiriendo que todo el concepto de acumulación de riqueza debería replantearse. «Eso fue realmente interesante», dice Scaman.

Ella señala que Flint es todavía un prototipo y no siempre funciona. «A veces falla cuando lo exiges demasiado», dice. «Pero creo que la premisa que lo sustenta es realmente poderosa».

Tomando la temperatura.

Springboards construyó Flint sobre Qwen 3, un modelo de código abierto del gigante tecnológico chino Alibaba. «Somos un equipo pequeño», dice Browne. «Entrenar un modelo fundacional no es factible para nosotros. Es sencillamente demasiado caro».

La mayoría de los LLM tienen configuraciones que permiten ajustar el nivel de aleatoriedad en su salida. La más común se llama temperatura. «Obviamente, fue una de las primeras cosas que exploramos, porque eso es lo que la gente te dice: si quieres más creatividad, subes la temperatura», dice Browne.

Pero cambiar esa configuración también puede hacer que los modelos sean incoherentes. Aumentar la temperatura en uno de los modelos de OpenAI hasta su ajuste máximo provocó que produjera respuestas que cambiaban del inglés al código a mitad de una frase, afirma Browne.

Springboards comprendió que los parámetros eran herramientas poco precisas para lo que quería hacer. No tiene sentido incrementar la aleatoriedad de forma generalizada; solo se busca potenciarla en puntos específicos de su salida, dice.

Por ejemplo, cuando se le pregunta a un chatbot «¿Adónde debería ir en Europa?», el modelo solo necesita ajustar la aleatoriedad justo antes de nombrar un destino, no para cada palabra de su respuesta.

Para que Flint hiciera esto, Springboards entrenó su versión de Qwen 3 para identificar los puntos en su salida donde era posible una mayor variedad y rellenar esos puntos con palabras o frases que fueran un poco más aleatorias.

“Flint está programado para introducir un elemento inesperado. Es más bien una invitación a pensar con una perspectiva más amplia”, afirma Maximilian Weigl, cofundador y director de estrategia de Uncommon, una firma de marketing. “Eso es súper interesante.”

El equipo de Weigl utiliza Flint junto con ChatGPT, Claude y Gemini. "No se puede crear algo realmente rompedor con herramientas que te devuelven a la media", afirma. 

Y, sin embargo, Weigl señala que nueve de cada diez veces la media es suficiente. No siempre es necesario buscar los extremos con algo como Flint, afirma: "La mayoría de la gente se conforma con lo suficientemente bueno. Quieren ver cosas familiares del mercado de masas."

Weigl también advierte contra el uso excesivo de cualquier LLM. «Tengo un gran problema cuando la gente confía en el resultado de cualquier IA, incluido Flint», afirma. «Si viera a gente de mi equipo copiar y pegar algo de una IA, les diría: “¡Ese no es vuestro trabajo! Pensad, hablad con otras personas, usad vuestra propia voz”».

De momento, Flint está dirigido a anunciantes y profesionales del marketing porque esos son los clientes de Springboards. Pero Bingemann y Browne insisten en que la falta de variedad es un problema para cualquiera que utilice chatbots.

La idea es dar a la gente la opción y dejar que ellos decidan si el resultado es bueno o no, dice Bingemann. “La variedad es estupenda cuando intentas generar ideas”, afirma. “Tomemos este camino en lugar de dejar que las máquinas lo hagan todo y acabar en un mundo gris y aburrido”.

Por: Will Douglas Heaven.

Sitio Fuente: MIT Technology Review