替换
查找内容:
替换为:
全部替换
插入链接
链接网址:
链接显示标题:
请选择网址类型
点我插入链接
插入文件
文件名称:
文件显示标题:
请选择文件类型
点我插入文件
发现错误 发表观点

原文内容

反馈意见

提交 正在提交..... 反馈历史

复制下面的地址分享给好友

确定 正在提交.....
train

你好,

关闭
提交 重做 重新开始 关闭
跳转
  • 新建同级
  • 新建子级
  • 删除
  • 重命名
选择收藏夹
新建收藏夹
公开

取消 确定

1. 基本信息
姓名:
企业:
职位:
联系方式:
邮箱:
2. 请在此填写您的问题,我们将优先安排答疑
提交

报名成功!
课程观看链接如下:
请添加课程助理微信,获得更多信息:
确认
确定
取消 确认

识林

  • 知识
  • 视频
  • 社区
  • 政策法规
    • 国内药监
    • FDA
    • EU
    • PIC/S
    • WHO
    • ICH
    • MHRA
    • PMDA
    • TGA
  • 研发注册
    • 概览
    • 监管动态
    • 研究专题
  • 生产质量
    • 概览
    • 监管动态
    • 各国GMP
    • 中国GMP
    • 中国GMP指南
    • GMP对比
    • 检查缺陷
    • 研究专题
  • 主题词库
  • 帮助中心
  • 关于识林
    • 识林介绍
    • 识林FAQs
    • 功能介绍
    • 团队诊断
    • 联系我们
  • 30天免登录

    忘记密码?

【周末杂谈】AI医学问答引用的参考资料,三成不靠谱

首页 > 资讯 > 【周末杂谈】AI医学问答引用的参考资料,三成不靠谱

页面比对

出自识林

【周末杂谈】AI医学问答引用的参考资料,三成不靠谱
页面比对
笔记

2025-05-11

跳转到: 导航, 搜索

一项严谨的、考察大语言模型医学问答是否有依据的学术研究

这周五的识林资讯报道一项调查结果显示39% 的业界人士担忧大语言模型的幻觉风险。4月16号,英国著名学术期刊 《自然通讯》(Nature Communications),刊登了一篇美国斯坦福大学Kevin Wu等人、题为“用于评估LLM引用相关医学参考资料的自动化框架,An automated framework for assessing how well LLMs cite relevant medical references”的研究论文。其主要结果是:大语言模型在医学问答引用的参考资料属实方面,普遍存在严重问题。

此项研究让大语言模型回答一系列医学问题,考察回答中引用的参考资料是否真正为回答提供了相关的依据。研究进一步将每个回答拆分成具体的陈述(statements),然后考察参考资料是否真正为这些陈述提供了相关的依据。也就是将参考资料的相关性从回答本身细化到回答中的具体陈述上。研究一共考虑了800个医学问题,800个回答,及58,000个陈述和参考资料的配对。这些参考资料是用互联网址表示的。

研究所用的大语言模型包括:GPT-4o(RAG),GPT-4o(API),Claude v2.1(API),Mistral Medium(API),Gemini Ultra 1.0(API),Gemini Pro (API),Llama-2-70b(API),Mixtral-8x7b(API)和Meditron-7b。尽管论文是一个月前才发表的,研究的数据采集是于去年1-5月间完成的,所以所用的大语言模型均不是当今最新版的。其中RAG(retrieval augmented generation)代表联网搜索,API(application programming interface)代表在无联网搜索的情况下,直接调用大语言模型。研究结果标明,GPT-4o(RAG)和GPT-4o(API)分别是表现最好的,即引用的参考资料具有最高的相关性。

研究结果表明,在无联网搜索的情况下,平均只有50%的GPT-4o(API)回答中,所有陈述都有直接的参考资料支持。在有联网搜索情况下,平均只有70%的GPT-4o(RAG)回答中,所有陈述都有相关的参考资料支持。不支持陈述的参考资料包括网址错误,参考资料与所对应的陈述无相关性,甚至有些参考资料给出的是与陈述相反的依据。

通俗地说就是:最好情况下,30%的大模型的医学回答是无根无据的。

由于数据量大,作者们开发了一套自动生成医学问题、调用大语言模型回答问题、将回答拆解为陈述和引用参考资料、及考察陈述和参考资料相关性的程序,称为SourceCheckup。为验证该程序的合理性,作者们将程序给出的陈述和参考资料的相关性打分,与三位医生们的手动打分相比较,发现吻合性高达89%,高于三位医生之间两两打分的吻合性(88%,84%,及87%)。

这是一项发表在著名学术杂志上的研究型论文,不是议论文(perspective article),更不是媒体或社交网络上的个人意见。其研究方法严谨,数据客观、有代表性。文章对研究方法、数据和结果的局限性,做了充分的讨论。研究中用的所有问题、回答、陈述、陈述-参考资料对、医生打分、及SourceCheckup的源代码,都公布在网上。文章出处:https://doi.org/10.1038/s41467-025-58551-6。 

读这样的学术文章,让人心里踏实,觉得真有所获。

识林-榆木疙瘩

识林®版权所有,未经许可不得转载

取自“https://login.shilinx.com/wiki/index.php?title=%E3%80%90%E5%91%A8%E6%9C%AB%E6%9D%82%E8%B0%88%E3%80%91AI%E5%8C%BB%E5%AD%A6%E9%97%AE%E7%AD%94%E5%BC%95%E7%94%A8%E7%9A%84%E5%8F%82%E8%80%83%E8%B5%84%E6%96%99%EF%BC%8C%E4%B8%89%E6%88%90%E4%B8%8D%E9%9D%A0%E8%B0%B1”
上一页: FDA_将于6月全面推广_AI_审评,业界关切五大问题
下一页: 【识林新文章】中国无菌附录对比,药审云课堂问答,电子提交验证,生物药FDA迎检,印度CRO缺陷分析等
相关内容
热点新闻
  • ICH 发布新 Q1 稳定性指南...
  • 【直播】25年4月全球法规月报...
  • 【识林新文章】中国无菌附录对...
  • VHP(过氧化氢蒸汽)的“脆弱...
  • FDA 宣布扩大对国外生产设施...

 反馈意见

Copyright ©2011-2025 shilinx.com All Rights Reserved.
识林网站版权所有 京ICP备12018650号-2 (京)网药械信息备字(2022)第00078号
请登录APP查看
打开APP