

如果你最近曾向ChatGPT或Gemini询问过健康问题,这条消息值得认真看一看。
一项刚刚发表在《英国医学杂志公开》(BMJ Open)上的研究,对全球五款最流行的AI聊天机器人进行了系统性压力测试,结论令人警醒:在250个健康相关问题中,近50%的回答存在不同程度的问题,其中约20%被评为"高度有问题"。
这不是个别现象,而是跨平台、跨话题的系统性缺陷。
数字背后,是什么样的错误?
研究团队向ChatGPT、Gemini、Grok、Meta AI和DeepSeek五款主流聊天机器人,分别提问了涵盖癌症、疫苗、干细胞、营养和运动表现五个领域的50个问题,由两位独立专家对每条回答评分。
结果显示,Grok表现最差,58%的回答被标记为有问题,ChatGPT以52%紧随其后,Meta AI为50%。没有一款聊天机器人能够在25次尝试中,提供一份完全准确的参考文献列表,250个问题中,仅有两个被拒绝回答。
更值得关注的是问题的性质。聊天机器人在癌症和疫苗这类有庞大研究体系支撑的领域表现相对较好,但仍有约四分之一的回答存在问题。而在营养和运动表现这类充满相互矛盾建议的领域,错误率大幅攀升。
开放式问题是重灾区。当提问是"哪些补充剂对整体健康最好"这类没有标准答案的问题时,高度有问题的回答比例高达32%,而封闭式是非题仅为7%。
问题是,现实中人们提问的方式,几乎都是开放式的。

人们通常不会直接问聊天机器人那些简单的真假问题。(像素射击/Canva)
研究人员还特意测试了参考文献的质量,要求每款聊天机器人提供10篇科学文献,结果中位数完整性得分仅为40%。错误类型从作者姓名错误、链接失效,到直接生成根本不存在的论文,一应俱全。这格外危险,因为整齐的引用格式天然带有权威感,普通读者几乎没有理由去核实。
能答对,不等于用户能用对
理解这个问题,有一个更深的维度。
2026年2月,《自然医学》杂志发表的一项研究给出了一组耐人寻味的数据:聊天机器人本身在医学问题上的正确率接近95%,但当真实用户使用同样的聊天机器人时,得到正确结论的概率不足35%,甚至不比完全不使用AI的人好多少。
这说明问题不只是出在AI上,也出在人机交互的整个链条上。用户的提问方式、对回答的理解和筛选能力、对信息的后续使用,都会引入新的误差。AI说对了,用户未必用对了。
聊天机器人犯错,有其技术层面的根本原因。这类语言模型的工作原理是预测"下一个最可能的词",它们不会权衡证据、做出价值判断,也不懂得区分同行评审论文和健康博客上的帖子。两者都进入了训练数据,模型无法真正分辨。
值得注意的是,这项研究采用了"红队"测试策略,即研究人员有意设计容易诱导错误的提问方式。这意味着实际错误率在更中性的提问场景下可能会低一些。研究使用的也是2025年2月的免费版本,付费或更新版本的表现可能有所不同。
但问题是,大多数用户使用的正是这些免费版本,提问方式也往往不够精准。研究的测试条件,恰恰反映了现实使用场景。
这些聊天机器人不会从人们的生活中消失,也没有理由完全排斥它们。它们可以帮助整理复杂信息,辅助用户在就医前准备好问题,或作为了解某个健康话题的起点。
但把它们当作独立的医疗权威,是危险的。
在使用AI获取健康信息时,有几个习惯值得养成:对任何健康声明都应独立核实,把AI给出的参考文献当作待核查的线索而非确凿事实,并对那些听起来格外自信、却没有任何免责声明的回答保持警惕。
流利,不等于正确。自信,不等于可靠。
海通富配资提示:文章来自网络,不代表本站观点。