不决策，人工去幻觉，离线缺训练：FDA 的 Elsa 仍蒙面纱

首页 > 资讯 > 不决策，人工去幻觉，离线缺训练：FDA 的 Elsa 仍蒙面纱

页面比对

出自识林

不决策，人工去幻觉，离线缺训练：FDA 的 Elsa 仍蒙面纱

页面比对

笔记

2025-06-30

跳转到：导航, 搜索

*题图由AI生成，仅作示意用。

6月份，在DIA年会，FDA首席AI官Jeremy Walsh和数据科学与AI政策副主任Tala Fakhouri均谈及了刚刚在6月初发布的FDA内部AI工具Elsa，对业界的诸多疑问进行了不同程度的回应。近期发布的一篇针对AI用于审评的FDA研究文献也提供了一些参考信息。但Elsa的面目对于业界来说仍不明朗。此外，FDA局长Makary表示Elsa将在数周之后迎来2.0版本更新。

“我们没有将其用于监管决策”“没什么新东西”

Fakhouri强调，Elsa 平台主要被应用于协助处理药品申请审评过程中的行政事务，以此来加快整个审评流程，“我们没有将其用于监管决策”。

FDA 在 6 月初宣布，鉴于该平台在前期与科学审评人员开展的试点项目中取得了成功，决定将其推广至整个机构使用。当时FDA局长Makary还指出，此举是FDA快速整合人工智能到其日常运营中的初步举措。

据Fakhouri介绍，Elsa 的使用并不涉及监管决策层面，审评人员依旧掌握着做出监管决策的权力。Elsa 在审评流程中所发挥的作用与制药行业使用相关工具的情况一致，主要是提升行政任务的处理效率，“没什么新东西”。Walsh也提到，FDA 的工作人员以多种方式使用 Elsa ，有的将其用于申请审评流程中，以压缩某些环节的时间，有的则仅用于处理行政事务。

“不会产生幻觉”，“许多双眼睛盯着”

Walsh表示，FDA 已经采取措施防止 Elsa 出现“幻觉”，不允许它产生想象中的内容。那么是如何做到的呢？他提到，FDA 已经提供了培训、指导和弹出式消息，以确保工作人员验证他们从 Elsa 获得的信息。并且当工作人员在处理文件时，系统会提供引用，以便验证 Elsa 的输出结果。当FDA要推出任何内容时，Walsh说，总有来自多个层次的专业人士的“许多双眼睛盯着”（by a lot of eyes）。

相比一些业界人士想象的AI审评，Walsh更强调通过AI协助实现一个“实时监管环境”（real-time regulatory environment）。这可能意味着实时接收、审查和批准申请，也可能是实时进行检查、监督和确保合规。他以 FDA 的哨兵计划（Sentinel Initiative）为例，该计划跟踪受监管产品的安全报告，目前最快需要 3-4 周时间才能输出研究报告。而使用 AI 工具，他们有机会实时生成这些报告，从而改善上市后和上市前的监督。

“没有实时连接互联网”，“商业秘密没有用于训练模型”

针对保密信息的安全性问题，Fakhouri强调，Elsa 平台部署在 FDA 的安全系统之上，受防火墙保护，这意味着商业机密信息和商业秘密不会被用于训练该模型，同时该平台也不接入互联网，因此提交至FDA的所有数据均处于安全状态。Elsa 平台作为一款内部工具，主要以离线的方式运行，协助处理审评过程中的部分行政事务。

Walsh表示“我不知道 Elsa 是否会有一天能够实时接入互联网。” 他确认FDA 的所有模型，尤其是 Elsa，都不会暴露或开放给互联网，因为那将是一个巨大的安全风险。

Walsh还特别声明，FDA确保他们用于 Elsa 的所有数据以及他们开发的解决方案都符合联邦信息安全现代化法案（Federal Information Security Modernization Act，FISMA）的高影响要求。他还提到，AI 模型并没有使用（涉密）数据进行训练，尽管行业的一些利益相关者要求他们这样做。不过他也表示，将来这也可能是一个值得讨论的可能性。

从112份指南中，有69.6%可能找到正确答案

FDA对Elsa的细节透露甚少，但FDA人员近期发布了一篇文献《Semantic Search of FDA Guidance Documents Using Generative AI（使用生成式人工智能（AI）对 FDA 指南文件进行语义检索）》，该研究的核心目标与Elsa的功能高度契合，正是评估生成式AI结合检索增强生成（Retrieval-Augmented Generation，RAG）工具，是否能够准确回答审评人员有关FDA指南文件内容的问题。研究从2023年9月开始，文章于2024年12月提交，这意味着研究所用的大语言模型（LLM）并非最新技术，但其研究方法和结论对于评估Elsa的实效仍具参考价值。

研究的数据来源是FDA的指南文件。研究团队排除了与临床审评不直接相关的主题，先从2700份指南文件中筛选711份文件，再进一步由专家团队选择了112份具有广泛适用性的文件作为知识库进行测试。研究人员创建了问答对（包含问题和预期答案）以及一套评分标准考察LLM的效果。

最终结果显示，结合RAG的GPT-4 Turbo在33.9%的情形下生成正确回答并提供额外的有用信息；35.7%生成正确回答；17.0%生成的回答包含部分正确信息；而13.4%生成的回答包含错误信息。此外，RAG应用能够在89.2%的情形下正确引用源文件。

基于上述研究可见，整合RAG的AI许多时候能够识别正确的指南文件并回答问题，可能会减少检索正确答案所需的时间。但由于指南文件可能被申办者和FDA用于指导重要的药物开发决策，任何错误信息均可能产生显著的负面影响。未来仍需更多研究，采用各种工程手段来提高答案的准确度。

识林-实木

上一页： 专家会5：4投票反对，FDA_批准膀胱癌新药_Zusduri
下一页： 【周末杂谈】FDA_的监管信息化，总算要做点实事了？

查找内容:
替换为:

你好，

识林

不决策，人工去幻觉，离线缺训练：FDA 的 Elsa 仍蒙面纱

出自识林