审评范式变革正在路上，FDA研究AI语言模型处理药品说明书

首页 > 资讯 > 审评范式变革正在路上，FDA研究AI语言模型处理药品说明书

审评范式变革正在路上，FDA研究AI语言模型处理药品说明书

人工智能

页面比对

笔记

2023-08-28

跳转到：导航, 搜索

FDA监管文档，包括IND、NDA和BLA中的大量文件，通常需要多学科审评人员关注与其审评领域相关的信息，因此药企提交的申报资料需按特定结构组织信息以方便分配、检索和审评。事实上，监管部门为了解决这个问题，从CTD，eCTD，到近几年的KASA，申报资料的结构化越来越强，信息颗粒度也越来越细。

即便如此，实际操作中结构化并不完善，导致类似信息散落在海量的资料中，不利于有效获取与充分审评。

一项由FDA科研人员开展的研究（https://doi.org/10.1021/acs.chemrestox.3c00028 url）基于FDA监管文件中的自由文本信息分类，旨在利用当下已经渐趋成熟的自然语言处理和大型语言模型来支持药品安全性和疗效的全面审评。

研究采用BERT等人工智能自然语言处理模型，自动将自由文本分类到标准化模块当中，从而有效处理非格式化文档。以FDA药品标签作为概念验证，利用符合医生标签规则（Physician Label Rule，PLR）中的结构化文本来训练模型，然后再用该模型对于非结构化的标签进行分类，评估分类效果。

结果显示，二分类模型（即将内容分类至两个标签模块中，如“适应症”与“警示和注意事项”）在训练过程中准确率达96%和88%，测试集准确率在95%~82%之间；多分类模型（即将内容分类至多个标签模块中）训练准确率88%，测试集准确率68%~82%。

研究表明，利用AI语言模型自动分类自由文本并归属到标准化模块，可能成为支持监管审评流程的先进监管科学方法。

分类结果基本准确，仍存优化空间

在方法上，该研究使用了DailyMed公开的45,626份人用处方药标签文件，其中29,709份符合医生标签规则（PLR格式），15,917份不符合（非PLR格式），并从中提取出超过1,700万句标签文本。

构建二分类模型，将“适应症”与“警示和注意事项”区分开来；多分类模型则增加了“不良反应”与“其他”，共4个分类端点。

研究采用当前最先进的自然语言处理模型BERT及其变体，在PLR格式的结构化标签文本上进行了模型调优（fine-tuning），然后评估模型对三种不同格式（PLR，非PLR，以及英国说明书SmPC：药品特性总结格式）的测试集的分类效果。

为了解释模型判断的原理，研究者计算了SHAP值，判断不同标签部分的关键词，并进行了直观的可视化展示。此外，还探索了句子输入与段落输入对结果的差异。

结果显示，二分类模型的训练准确率可达96%，测试集准确率为95%、88%和88%；多分类模型训练准确率为88%，测试集准确率分别为82%、73%和68%。BERT系列模型明显优于传统机器学习算法。

关键词分析发现“适应症”部分“Indicated”和“Prevention”的贡献最大，“警示”部分主要与“Affected”、“Stop”等词相关。输入方式对比发现，段落输入的二分类模型各指标优于句子输入。

FDA可以做什么？药企又可以做些什么？

本研究证明，基于深度学习的强大语言模型，可以自动高效地将不同格式的药品标签文本分类到标准结构当中，为处理非结构化监管文档提供了新的思路。

相比句子级输入，段落级输入的分类效果更优，但句子粒度的分类结果更便于研究人员使用。未来可扩大分类端点的数量，以涵盖更多重要的结构化标签部分。此外,还可以考虑应用诸如GPT等生成式语言模型，赋予文本某种格式或结构。

总之，本研究为监管科学的多项应用提供了宝贵启发：1) 构建自动化系统，简化监管文档结构化流程；2) 生成可读性更高的结构化药品说明书标签；3) 处理图像或扫描版的非结构化监管文档。这意味着FDA审评人员的效率和效能都可能得到进一步提升。

那么，当自己提交的成千上百页资料，被经验丰富的审评人员和无情高效的算法一览无余时，药企又该如何应对呢？联想到识林在之前有关KASA的资讯中提出一个问题，当“审评老师比企业更懂企业的产品”时，该怎么办？

还有一点值得关注的是，该研究没有用CTD资料，而是基于药品标签，对大量散落的临床有效性和安全性信息进行归属。试想，如果医生们用上了这样的工具，通过AI来处理浩如烟海的药品说明书、临床试验报告、临床诊疗指南、实际临床案例等等，到那时，医生的处方决策，又会受到什么影响？

BERT并非GPT，两者各擅胜场

此外，为便于理解，以下是一点技术性的补充。

GPT相信大家已经不再陌生，但本研究中主要依赖的是BERT，同时也提及GPT可以辅助“赋予文本某种格式或结构”。其实，BERT与ChatGPT都是近年来备受关注的人工智能语言模型，但其技术原理和适用场景有所不同。

BERT侧重处理，属于“编码器-解码器”结构的语言模型，通过预训练获得语言理解能力，然后进行任务微调，可广泛应用于文本分类、情感分析等自然语言处理任务。BERT采用“注意力”机制，可以自动学习文本的语义信息。

而ChatGPT侧重生成，是一种大规模的语言生成模型，属于GPT(Generative Pre-trained Transformer)系列，其生成能力更强。ChatGPT可根据提示进行自然语言生成，实现人机对话。但ChatGPT不如BERT适合处理分类等结构化NLP任务。

本研究就体现出BERT的出色文本分类性能，为处理非结构化监管文档提供了有效途径。随着监管科学日益数字化，BERT等模型或可成为提升审评效率的重要工具。ChatGPT等新型语言模型也值得继续探索，以建立智能化的监管文档处理和生成系统。

作者：识林-实木

上一页： 国际药政每周概要：FDA推迟供应链法案强制执行时间，批准首个多发性硬化生物类似药，新发布一批BE指南；WHO知证决策工具，等
下一页： 国内药政每周导读：附条件批准迎来关键修订，CDE适用Q12，M7中文版征求意见，国务院通过医药工业发展规划，鼓励儿童药第四批

查找内容:
替换为:

LaTeX 公式：
预览：

你好，