Walsh表示,FDA 已经采取措施防止 Elsa 出现“幻觉”,不允许它产生想象中的内容。那么是如何做到的呢?他提到,FDA 已经提供了培训、指导和弹出式消息,以确保工作人员验证他们从 Elsa 获得的信息。并且当工作人员在处理文件时,系统会提供引用,以便验证 Elsa 的输出结果。当FDA要推出任何内容时,Walsh说,总有来自多个层次的专业人士的“许多双眼睛盯着”(by a lot of eyes)。
相比一些业界人士想象的AI审评,Walsh更强调通过AI协助实现一个“实时监管环境”(real-time regulatory environment)。这可能意味着实时接收、审查和批准申请,也可能是实时进行检查、监督和确保合规。他以 FDA 的哨兵计划(Sentinel Initiative)为例,该计划跟踪受监管产品的安全报告,目前最快需要 3-4 周时间才能输出研究报告。而使用 AI 工具,他们有机会实时生成这些报告,从而改善上市后和上市前的监督。
“没有实时连接互联网”,“商业秘密没有用于训练模型”
针对保密信息的安全性问题,Fakhouri强调,Elsa 平台部署在 FDA 的安全系统之上,受防火墙保护,这意味着商业机密信息和商业秘密不会被用于训练该模型,同时该平台也不接入互联网,因此提交至FDA的所有数据均处于安全状态。Elsa 平台作为一款内部工具,主要以离线的方式运行,协助处理审评过程中的部分行政事务。
Walsh还特别声明,FDA确保他们用于 Elsa 的所有数据以及他们开发的解决方案都符合联邦信息安全现代化法案(Federal Information Security Modernization Act,FISMA)的高影响要求。他还提到,AI 模型并没有使用(涉密)数据进行训练,尽管行业的一些利益相关者要求他们这样做。不过他也表示,将来这也可能是一个值得讨论的可能性。
从112份指南中,有69.6%可能找到正确答案
FDA对Elsa的细节透露甚少,但FDA人员近期发布了一篇文献《Semantic Search of FDA Guidance Documents Using Generative AI(使用生成式人工智能(AI)对 FDA 指南文件进行语义检索)》,该研究的核心目标与Elsa的功能高度契合,正是评估生成式AI结合检索增强生成(Retrieval-Augmented Generation,RAG)工具,是否能够准确回答审评人员有关FDA指南文件内容的问题。研究从2023年9月开始,文章于2024年12月提交,这意味着研究所用的大语言模型(LLM)并非最新技术,但其研究方法和结论对于评估Elsa的实效仍具参考价值。