Un estudio realizado por investigadores de la Universidad de Stanford, en California, Estados Unidos, reveló que los principales chatbots, incluidos ChatGPT y Gemini, enfrentan serias dificultades para diferenciar entre hechos reales y ficción. Según el informe, publicado en la revista Nature Machine Intelligence, esta incapacidad para discernir entre creencias y datos verificados subraya un reto importante en su desempeño.
Este hallazgo incrementa las preocupaciones sobre la desinformación que puede propagarse a través de sistemas de inteligencia artificial. Los especialistas advirtieron que esta limitación no solo genera riesgos informativos, sino que también podría derivar en errores críticos en áreas sensibles, como evaluaciones médicas o decisiones legales.
Durante la investigación, los expertos analizaron 24 modelos masivos de lenguaje —entre ellos, ChatGPT de OpenAI, Google Gemini, Claude de Anthropic y DeepSeek, desarrollado en China— a través de un riguroso examen que incluyó más de 13.000 preguntas. Los resultados evidenciaron una notable mejora en las versiones más recientes de estos modelos. Aquellos lanzados a partir de mayo de 2024 alcanzaron una precisión del 91% al responder sobre hechos verificables, mientras que los modelos más antiguos lograron entre un 71,5% y un 84,8%.
Las conclusiones del análisis van más allá de ser un simple ejercicio académico, ya que destacan la necesidad urgente de optimizar estas tecnologías antes de su implementación en ámbitos como la medicina, el derecho o el periodismo. Las deficiencias actuales —sumadas a las denominadas "alucinaciones" de los chatbots— representan un desafío fundamental para garantizar su uso responsable y fiable en aplicaciones críticas.
