OpenAI lanza GPT-5 y se acerca a la IA agéntica
CIENCIAS DE LA COMPUTACIÓN / INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 5 minutos.
Por fin, OpenAI ha lanzado GPT-5. El nuevo sistema abandona la distinción entre los modelos insignia de OpenAI y su serie de modelos de razonamiento, y dirige automáticamente las consultas de los usuarios a un modelo rápido sin razonamiento o a una versión más lenta con razonamiento.
Ahora está disponible para todo el mundo a través de la interfaz web ChatGPT, aunque es posible que los usuarios que no paguen tengan que esperar unos días para obtener acceso completo a las nuevas funciones.
Es tentador comparar GPT-5 con su predecesor explícito, GPT-4, pero la yuxtaposición más esclarecedora es con o1, el primer modelo de razonamiento de OpenAI, que se lanzó el año pasado. A diferencia del amplio lanzamiento de GPT-5, o1 solo estaba disponible inicialmente para los suscriptores de Plus & Team. Esos usuarios tuvieron acceso a un tipo de modelo de lenguaje completamente nuevo, que razonaba a través de sus respuestas generando texto adicional antes de dar una respuesta final, lo que le permitía resolver problemas mucho más difíciles que sus homólogos sin razonamiento.
Mientras que o1 supuso un importante avance tecnológico, GPT-5 es, ante todo, un producto refinado. Durante una rueda de prensa, Sam Altman comparó GPT-5 con las pantallas Retina de Apple, y es una analogía acertada, aunque quizá no en el sentido que él pretendía. Al igual que una pantalla de una nitidez sin precedentes, GPT-5 proporcionará una experiencia de usuario más agradable y fluida. Eso no es poco, pero está muy lejos del futuro transformador de la IA que Altman ha estado promocionando durante gran parte del último año. En la rueda de prensa, Altman calificó GPT-5 como «un paso significativo en el camino hacia la AGI«, o inteligencia artificial general, y quizá tenga razón, pero si es así, se trata de un paso muy pequeño.
Tomemos como ejemplo la demostración de las capacidades del modelo que OpenAI mostró a MIT Technology Review antes de su lanzamiento. Yann Dubois, responsable de posformación en OpenAI, pidió a GPT-5 que diseñara una aplicación web que ayudara a su pareja a aprender francés para que pudiera comunicarse más fácilmente con su familia. El modelo hizo un trabajo admirable siguiendo sus instrucciones y creó una aplicación atractiva y fácil de usar. Pero cuando le di a GPT-4o una indicación casi idéntica, produjo una aplicación con exactamente la misma funcionalidad. La única diferencia es que no era tan agradable estéticamente.
Algunas de las otras mejoras en la experiencia del usuario son más sustanciales. El hecho de que sea el modelo y no el usuario quien decida si aplicar el razonamiento a cada consulta elimina un importante punto débil, especialmente para los usuarios que no siguen de cerca los avances en LLM.
Por ello, según Altman, GPT-5 razona mucho más rápido que los modelos de la serie o. El hecho de que OpenAI lo esté lanzando para usuarios no de pago sugiere que también es menos costoso para la empresa. Eso es muy importante: ejecutar modelos potentes de forma barata y rápida es un problema difícil, y resolverlo es clave para reducir el impacto medioambiental de la IA.
OpenAI también ha tomado medidas para mitigar las alucinaciones, que han sido un dolor de cabeza persistente. Las evaluaciones de OpenAI sugieren que los modelos GPT-5 son sustancialmente menos propensos a realizar afirmaciones incorrectas que sus modelos predecesores, o3 y GPT-4o. Si ese avance resiste el escrutinio, podría ayudar a allanar el camino para agentes más fiables y dignos de confianza. «Las alucinaciones pueden causar problemas reales de seguridad», afirma Dawn Song, profesora de informática en la Universidad de California en Berkeley (EE UU). Por ejemplo, un agente que alucina con paquetes de software podría descargar código malicioso en el dispositivo de un usuario.
GPT-5 ha alcanzado el estado del arte en varias pruebas de referencia, incluida una prueba de capacidades agénticas y las evaluaciones de codificación SWE-Bench y Aider Polyglot. Pero según Clémentine Fourrier, investigadora de IA de la empresa HuggingFace, esas evaluaciones se están acercando a la saturación, lo que significa que los modelos actuales han alcanzado un rendimiento casi máximo.
«Es básicamente como ver el rendimiento de un estudiante de secundaria en problemas de nivel medio«, afirma. «Si el estudiante suspende, eso te dice algo, pero si aprueba, no te dice gran cosa». Fourrier afirma que le impresionaría que el sistema alcanzara una puntuación del 80% o del 85% en SWE-Bench, pero solo ha conseguido un 74,9%.
En última instancia, el mensaje principal de OpenAI es que GPT-5 resulta más agradable de usar. «Las vibraciones de este modelo son realmente buenas, y creo que la gente lo va a notar, especialmente las personas normales que no han pasado su tiempo pensando en modelos«, afirma Nick Turley, director de ChatGPT.
Sin embargo, las sensaciones por sí solas no traerán el futuro automatizado que Altman ha prometido. El razonamiento parecía un gran paso adelante en el camino hacia la AGI. Seguimos esperando el siguiente.
Por: Grace Huckins.
Sitio Fuente: MIT Technology Review