替换

查找内容:
替换为:

全部替换

插入链接

链接网址:

链接显示标题:

请选择网址类型

识林网页地址名外部页面识林数据库

点我插入链接

插入文件

文件名称:

文件显示标题:

请选择文件类型

PDF文件 Word文件 Excel文件 PPT文件

点我插入文件

你好，

提交重做重新开始关闭

【周末杂谈】Benford定律识别数据可靠性？

首页 > 资讯 > 【周末杂谈】Benford定律识别数据可靠性？

出自识林

【周末杂谈】Benford定律识别数据可靠性？

页面比对

笔记

2025-06-08

跳转到：导航, 搜索

自然产生的数据与人为改动后的数据有统计特性差异

最近听朋友说他们正在用AI来帮助药企和药监部门识别数据可靠性问题。严格讲来，AI是统称，涵括很多内容，例如：最近时兴的大语言模型，及传统的机器学习，都是AI。其实，对很多非专业人士来说，自动化也是某种程度上的AI。若是能自动地识别自然产生的数据与人为改动后的数据，这岂不是好事？如果再冠以AI光环，那就了不得了。

Benford定律也许可以在此派上用场，尽管尚未闻其在药品研制数据可靠性方面的应用。

自然界和社会上出现的数，常遵循一个特殊的、与直觉有些相违的规律。这是加拿大-美国天文家Simon Newcomb最早于1891年发现的。后来美国物理学家Frank Benford于1938年发表了其对地理、门牌号、人口、死亡率、分子质量、物理常数和数学手册中数字等两万多不同领域的观察，发现1,2,3,4,5,6,7,8,9出现在数字首位的概率不是均匀的，而是遵循如下的公式，其中d可以是数字1-9中的任何一个，P(d)是对应的概率。首位数上出现1的概率比出现9的概率，高近7倍！

请注意，Benford定律不是数学定理，是难以严格地用数学证明的，尽管美国数学家Ted Hill在1995年证明在一些特定条件下，上述公式近似成立。简单地说，条件是数字量要大，数字间的差异也要大（几十倍甚至更大），且分布均匀。

美国本世纪最大的财务造假案发生在著名的安然（Enron）能源公司。造假败露后，Enron于2001年破产，并在2002年带垮了著名的安达信（Arthur Anderson）会计所。后来，美国哥伦比亚大学和俄亥俄州立大学的学者们分析了2000年Enron公司的财务数据，并对比其它上市公司的财务数据。发现后者非常符合Benford定律（下图左，橙色阴影部分的上边界线代表Benford定律），前者明显偏离Benford定律（下图右）。也就是说，Enron的财务数据有明显的人工干预嫌疑。

也许造假的人会想，将首位数按Benford定律来篡改不就行了。恐怕不行，因为广义的Benford定律，不仅给出首位数上1,2,3,4,5,6,7,8,9出现的概率，还给出第二位、第三位…等等位数的出现概率（公式远比上面的复杂）。若想让所有位数上的数分布都满足Benford定律，那造假的代价就高多了，对造假人的数学和科学认知的要求也高多了。

若是哪位读者知晓Benford定律用于识别药品研制中数据可靠性问题的应用案例，请告知，笔者不胜感激。

识林-榆木疙瘩

识林^®版权所有，未经许可不得转载

取自“https://login.shilinx.com/wiki/index.php?title=%E3%80%90%E5%91%A8%E6%9C%AB%E6%9D%82%E8%B0%88%E3%80%91Benford%E5%AE%9A%E5%BE%8B%E8%AF%86%E5%88%AB%E6%95%B0%E6%8D%AE%E5%8F%AF%E9%9D%A0%E6%80%A7%EF%BC%9F”

上一页： FDA_审评考量与申报路径选择：Elamipretide_案例的启示
下一页： 【轻松一刻】大脑里的套路

相关内容

热点新闻

 反馈意见

请登录APP查看