Los modelos de IA usan información de artículos científicos retractados para sus respuestas

CIENCIAS DE LA COMPUTACIÓN / INTELIGENCIA ARTIFICIAL. Tiempo de lectura: 7 minutos.-

Según estudios recientes, algunos chatbots de IA se basan en investigaciones defectuosas de artículos científicos retractados para responder a preguntas.

Los hallazgos, confirmados por MIT Technology Review, plantean dudas sobre la fiabilidad de las herramientas de IA a la hora de evaluar la investigación científica y podrían complicar los esfuerzos de los países y las industrias que buscan invertir en herramientas de IA para científicos.

Las herramientas de búsqueda con IA y los chatbots ya son conocidos por fabricar enlaces y referencias. Pero las respuestas basadas en el material de artículos reales también pueden ser engañosas si dichos artículos han sido retractados. El chatbot «utiliza un artículo real, material real, para decirte algo», afirma Weikuan Gu, investigador médico de la Universidad de Tennessee en Memphis y autor de uno de los estudios recientes . Sin embargo, afirma que si las personas solo miran el contenido de la respuesta y no hacen clic en el artículo para ver que ha sido retirado, eso es realmente un problema.

Gu y su equipo plantearon preguntas al ChatGPT de OpenAI, que funciona con el modelo GPT-4o, basándose en la información de 21 artículos retractados sobre imágenes médicas. Las respuestas del chatbot hacían referencia a artículos retirados en cinco casos, pero solo aconsejaban precaución en tres. Aunque citaba artículos no retractados para otras preguntas, los autores señalan que es posible que no haya reconocido el estado de retirada de los artículos. En un estudio de la revista agosto , otro grupo de investigadores utilizó ChatGPT-4o mini para evaluar la calidad de 217 artículos retractados y de baja calidad de diferentes campos científicos; descubrieron que ninguna de las respuestas del chatbot mencionaba las retiradas u otras cuestiones preocupantes. (No se han publicado estudios similares sobre GPT-5, que salió en agosto).

El público utiliza chatbots con IA para solicitar asesoramiento médico a y diagnosticar afecciones de salud . Los estudiantes y científicos utilizan cada vez más  herramientas de IA  para revisar la literatura científica existente y resumir artículos. Es probable que este tipo de uso aumente. La Fundación Nacional de Ciencias de EE. UU., por ejemplo, invirtió 63 millones de euros en la creación de modelos de IA para la investigación científica en agosto de este año.

«Si una herramienta está dirigida al público en general, entonces es muy importante utilizar la retractación como un indicador de calidad», afirma Yuanxi Fu, investigadora en ciencias de la información de la Universidad de Illinois Urbana-Champaign. Existe «una especie de acuerdo en que los artículos retirados han sido eliminados del registro científico», afirma, «y las personas ajenas al ámbito científico deben ser advertidas de que se trata de artículos retractados». OpenAI no respondió a una solicitud de comentarios sobre los resultados del artículo.

El problema no se limita a ChatGPT. En junio, MIT Technology Review probó herramientas de IA específicamente anunciadas para trabajos de investigación, como Elicit, Ai2 ScholarQA (ahora parte de la herramienta Asta del Instituto Allen para la Inteligencia Artificial), Perplexity y Consensus, utilizando preguntas basadas en los 21 artículos retirados del estudio de Gu. Elicit hizo referencia a cinco de los artículos retractados en sus respuestas, mientras que Ai2 ScholarQA hizo referencia a 17, Perplexity a 11 y Consensus a 18, todos ellos sin señalar las retiradas.

Desde entonces, algunas empresas han tomado medidas para corregir el problema. «Hasta hace poco, no disponíamos de datos fiables sobre las retractaciones en nuestro motor de búsqueda», afirma Christian Salem, cofundador de Consensus. Su empresa ha comenzado a utilizar datos sobre retractaciones procedentes de diversas fuentes, entre las que se incluyen editoriales y agregadores de datos, rastreadores web independientes y Retraction Watch , que selecciona y mantiene manualmente una base de datos de retractaciones. En una prueba realizada en agosto con los mismos artículos, Consensus solo citó cinco artículos retractados.

Elicit declaró a MIT Technology Review que elimina de su base de datos los artículos retractados señalados por el catálogo de investigación académica OpenAlex y que «sigue trabajando en la agregación de fuentes de retiradas». Ai2 nos informó de que su herramienta no detecta ni elimina automáticamente los artículos retirados en la actualidad. Perplexity afirmó que «nunca ha pretendido ser 100 % precisa».

Sin embargo, confiar en las bases de datos de retractaciones puede no ser suficiente. Ivan Oransky, cofundador de Retraction Watch, se cuida mucho de describirla como una base de datos exhaustiva, ya que afirma que crear una requeriría más recursos de los que nadie tiene: «La razón por la que requiere tantos recursos es porque, si se quiere que sea precisa, alguien tiene que hacerlo todo a mano».

Para complicar aún más el asunto, los editores no comparten un enfoque uniforme en cuanto a los avisos de retractación. «Cuando se retractan cosas, se pueden marcar como tales de maneras muy diferentes», afirma Caitlin Bakker, de la Universidad de Regina (Canadá), experta en herramientas de investigación y descubrimiento. «Corrección», «expresión de preocupación», «errata» y «retirado» son algunas de las etiquetas que las editoriales pueden añadir a los artículos de investigación, y estas etiquetas pueden añadirse por muchas razones, entre ellas preocupaciones sobre el contenido, la metodología y los datos o la existencia de conflictos de intereses.

Algunos investigadores distribuyen sus artículos en servidores de preimpresión, repositorios de artículos y otros sitios web, lo que provoca que las copias se dispersen por toda la red. Además, es posible que los datos utilizados para entrenar los modelos de IA no estén actualizados. Si un artículo se retira después de la fecha límite de entrenamiento del modelo, es posible que sus respuestas no reflejen instantáneamente lo que está sucediendo, afirma Fu. La mayoría de los motores de búsqueda académicos no comprueban en tiempo real los datos de retirada, por lo que uno está a merced de la precisión de su corpus, afirma Aaron Tay, bibliotecario de la Universidad de Gestión de Singapur.

Oransky y otros expertos abogan por proporcionar más contexto a los modelos para que lo utilicen al crear una respuesta. Esto podría significar publicar información que ya existe, como revisiones por pares encargadas por revistas y críticas del sitio de revisión PubPeer, junto con el artículo publicado.

Muchas editoriales, como Nature y BMJ, publican avisos de retractación como artículos separados vinculados al artículo, fuera de los muros de pago. Fu afirma que las empresas deben hacer un uso eficaz de dicha información, así como de cualquier artículo de noticias en los datos de entrenamiento de un modelo que mencione la retractación de un artículo.

Los usuarios y creadores de herramientas de IA deben actuar con la debida diligencia. «Nos encontramos en una fase muy, muy temprana, y básicamente hay que ser escéptico», afirma Tay.

Por: Ananya.

Sitio Fuente: MIT Technology Review