首页
>
资讯
>
【周末杂谈】Benford定律识别数据可靠性?
出自识林
【周末杂谈】Benford定律识别数据可靠性?
2025-06-08
自然产生的数据与人为改动后的数据有统计特性差异
最近听朋友说他们正在用AI来帮助药企和药监部门识别数据可靠性问题。严格讲来,AI是统称,涵括很多内容,例如:最近时兴的大语言模型,及传统的机器学习,都是AI。其实,对很多非专业人士来说,自动化也是某种程度上的AI。若是能自动地识别自然产生的数据与人为改动后的数据,这岂不是好事?如果再冠以AI光环,那就了不得了。
Benford定律也许可以在此派上用场,尽管尚未闻其在药品研制数据可靠性方面的应用。
自然界和社会上出现的数,常遵循一个特殊的、与直觉有些相违的规律。这是加拿大-美国天文家Simon Newcomb最早于1891年发现的。后来美国物理学家Frank Benford于1938年发表了其对地理、门牌号、人口、死亡率、分子质量、物理常数和数学手册中数字等两万多不同领域的观察,发现1,2,3,4,5,6,7,8,9出现在数字首位的概率不是均匀的,而是遵循如下的公式,其中d可以是数字1-9中的任何一个,P(d)是对应的概率。首位数上出现1的概率比出现9的概率,高近7倍!
请注意,Benford定律不是数学定理,是难以严格地用数学证明的,尽管美国数学家Ted Hill在1995年证明在一些特定条件下,上述公式近似成立。简单地说,条件是数字量要大,数字间的差异也要大(几十倍甚至更大),且分布均匀。
美国本世纪最大的财务造假案发生在著名的安然(Enron)能源公司。造假败露后,Enron于2001年破产,并在2002年带垮了著名的安达信(Arthur Anderson)会计所。后来,美国哥伦比亚大学和俄亥俄州立大学的学者们分析了2000年Enron公司的财务数据,并对比其它上市公司的财务数据。发现后者非常符合Benford定律(下图左,橙色阴影部分的上边界线代表Benford定律),前者明显偏离Benford定律(下图右)。也就是说,Enron的财务数据有明显的人工干预嫌疑。
也许造假的人会想,将首位数按Benford定律来篡改不就行了。恐怕不行,因为广义的Benford定律,不仅给出首位数上1,2,3,4,5,6,7,8,9出现的概率,还给出第二位、第三位…等等位数的出现概率(公式远比上面的复杂)。若想让所有位数上的数分布都满足Benford定律,那造假的代价就高多了,对造假人的数学和科学认知的要求也高多了。
若是哪位读者知晓Benford定律用于识别药品研制中数据可靠性问题的应用案例,请告知,笔者不胜感激。
识林-榆木疙瘩
识林®版权所有,未经许可不得转载
|