首页
>
资讯
>
【周末杂谈】AI医学问答引用的参考资料,三成不靠谱
出自识林
【周末杂谈】AI医学问答引用的参考资料,三成不靠谱
2025-05-11
一项严谨的、考察大语言模型医学问答是否有依据的学术研究
这周五的识林资讯 报道一项调查结果显示39% 的业界人士担忧大语言模型的幻觉风险。4月16号,英国著名学术期刊 《自然通讯》(Nature Communications),刊登了一篇美国斯坦福大学Kevin Wu等人、题为“用于评估LLM引用相关医学参考资料的自动化框架,An automated framework for assessing how well LLMs cite relevant medical references”的研究论文。其主要结果是:大语言模型在医学问答引用的参考资料属实方面,普遍存在严重问题。
此项研究让大语言模型回答一系列医学问题,考察回答中引用的参考资料是否真正为回答提供了相关的依据。研究进一步将每个回答拆分成具体的陈述(statements),然后考察参考资料是否真正为这些陈述提供了相关的依据。也就是将参考资料的相关性从回答本身细化到回答中的具体陈述上。研究一共考虑了800个医学问题,800个回答,及58,000个陈述和参考资料的配对。这些参考资料是用互联网址表示的。
研究所用的大语言模型包括:GPT-4o(RAG),GPT-4o(API),Claude v2.1(API),Mistral Medium(API),Gemini Ultra 1.0(API),Gemini Pro (API),Llama-2-70b(API),Mixtral-8x7b(API)和Meditron-7b。尽管论文是一个月前才发表的,研究的数据采集是于去年1-5月间完成的,所以所用的大语言模型均不是当今最新版的。其中RAG(retrieval augmented generation)代表联网搜索,API(application programming interface)代表在无联网搜索的情况下,直接调用大语言模型。研究结果标明,GPT-4o(RAG)和GPT-4o(API)分别是表现最好的,即引用的参考资料具有最高的相关性。
研究结果表明,在无联网搜索的情况下,平均只有50%的GPT-4o(API)回答中,所有陈述都有直接的参考资料支持。在有联网搜索情况下,平均只有70%的GPT-4o(RAG)回答中,所有陈述都有相关的参考资料支持。不支持陈述的参考资料包括网址错误,参考资料与所对应的陈述无相关性,甚至有些参考资料给出的是与陈述相反的依据。
通俗地说就是:最好情况下,30%的大模型的医学回答是无根无据的。
由于数据量大,作者们开发了一套自动生成医学问题、调用大语言模型回答问题、将回答拆解为陈述和引用参考资料、及考察陈述和参考资料相关性的程序,称为SourceCheckup。为验证该程序的合理性,作者们将程序给出的陈述和参考资料的相关性打分,与三位医生们的手动打分相比较,发现吻合性高达89%,高于三位医生之间两两打分的吻合性(88%,84%,及87%)。
这是一项发表在著名学术杂志上的研究型论文,不是议论文(perspective article),更不是媒体或社交网络上的个人意见。其研究方法严谨,数据客观、有代表性。文章对研究方法、数据和结果的局限性,做了充分的讨论。研究中用的所有问题、回答、陈述、陈述-参考资料对、医生打分、及SourceCheckup的源代码,都公布在网上。文章出处:https://doi.org/10.1038/s41467-025-58551-6。
读这样的学术文章,让人心里踏实,觉得真有所获。
识林-榆木疙瘩
识林® 版权所有,未经许可不得转载