本福特定律的实际应用(嚯,”本福特定律”都来了…)
► 文 观察者网 熊超然
虽然正式结果还未出炉,但2020年美国总统大选的“剧情”跌宕起伏,足以成为历史上最具话题性和争议性的选战之一。
当地时间11月5日,就在特朗普阵营连续在多个州提起关于“选举欺诈”的诉讼时,推特等社交媒体上开始涌现一种说法:经分析统计各候选人在某地所有选区的得票数后发现,特朗普一切正常,而拜登的得票情况不符合“本福特定律”,涉嫌在选举中舞弊。
一时间,“选举欺诈”突然从缺少证据的情绪化指控演变成了可分析讨论的“研究问题”。
究竟什么是“本福特定律”?拜登的得票是否真的和该定律不相符?甚至确实是存在造假情况?
参与分析统计的推特网民对此事讨论度热烈
国内微博网友也纷纷“吃瓜”
美国社交【资 ;源 之.家.】网站“Reddit”一篇讨论帖评论已近千条
“本福特定律”是什么?
“本福特定律”(Benfords law),也称“本福特法则”,它说明一堆从实际生活得出的数据中,以1为首位数字的数(如12、135、1083首位数字均为1)的出现概率约为总数的三成,接近人们主观直觉得出的期望值1/9的3倍。
推广来说,越大的数,以它为首位数字甚至是首几位数字出现的概率就越低。在十进制首位数字的出现概率中,1最高(30.1%),逐渐递减,9最低(4.6%)。
图自维基百科
需要注意的是,“本福特定律”也有一定的使用条件。首先,数据样本需要尽可能的多,至少要在3000个以上;其次,数据样本跨度要大,比如人的身高就不满足“【资 ;源 之.家.】本福特定律”,因为大多数人身高在1米至2米这一区间;最后,数据样本应是自然的,不能有人为操控,例如手机号码和邮政编码不满足“本福特定律”,因为这些都是1开头或特定数字开头。
也正是因为有特定使用条件,“本福特定律”可用于检查各项数据是否存在造假行为,因为若有人为因素影响数据,所得首位数字的概率及概率曲线图将不符合“本福特定律”。
拜登得票数不符定律,被质疑“有猫腻”
11月5日,有人在推特上发布图表称,在统计了特朗普和拜登在威斯康星州密尔沃基县470多个选区的得票数首位数字后发现,特朗普的这一曲线较为符合“本福特定律”的曲线,而拜登的曲线形状则出现异常。
图自推特
还有网民在统计此次大选所有候选人的得票【资 ;源 之.家.】数据后发现,包括著名说唱歌星“侃爷”在内的所有人的曲线均基本正常,但拜登依旧出现严重异常情况,因而有人质疑他的选票数据可能涉嫌造假。
图自推特
发现这一状况后,更多网民纷纷加入其中,搜集统计得票数据并制作曲线图,想要对此一探究竟。在软件源代码托管服务平台“GitHub”上,有人搜集、制作并上传了相关得票数据和图表,可供其他网民下载。
其中,拜登在包括威斯康星州密尔沃基、伊利诺伊州芝加哥和宾夕法尼亚州阿勒格尼的曲线均不满足“本福特定律”,而与此同时,特朗普在多个地区的曲线却又正好满足或基本满足该定律。
截图自“GitHub”
有非专业的网民在运用号称“欺诈克星”的“本福特定律检测模型”后发现,拜登在路易斯【资 ;源 之.家.】安那州的数据就没有出现异常,但他在弗吉尼亚州和费城的数据偏离了“本福特定律”原始曲线。
图自推特
还有亲自验证过的网民在与他人的讨论中替拜登说话,称底特律的选举结果显示,大部分选区拜登拿到了超过1000票,而特朗普则少于1000票,这一情况会导致候选人的得票数首位数字影响曲线形状。
图自推特
“本福特定律”和选举的交集
著名科普视频博主、中国人民大学附属中学物理教师李永乐,曾于2019年11月20日在微博上发布一则视频,讲解并使用“本福特定律”验证当时网传天猫“双11”2684亿销售额造假一事。
在这期科普视频中,李永乐老师用自己的视频播放量、全球各国和各地区人口数等作为数据样本,所得结果均契合“本福特定【资 ;源 之.家.】律”。同时,他也提到,确实曾有人用这一定律来研究某一地区的选举是否存在舞弊现象。
截图自新浪微博@李永乐老师
在“本福特定律”的维基百科词条中提到,该定律曾被援引作为证据来证明2009年伊朗大选存在“欺诈”。
英国《新科学家》杂志(New Scientist)官网曾于2009年6月24日发表一篇文章,称统计数字暗示,当时刚刚结束的伊朗大选可能存在舞弊。
《新科学家》杂志报道截图
而《华盛顿邮报》2009年6月20日也曾发表一篇题为《魔鬼存在于数字上:伊朗大选被撕碎的证据》的文章,直指伊朗大选“大有问题”,比如某位候选人在某个省获得了14579票。
2009年未改网站版面之前的《华盛顿邮报》报道截图
文章意指【资 ;源 之.家.】,关注的重点除了首位数字,也可以是末尾数字。像7和9这类在十进制中排列靠后的数字,出现的概率应该比前面的数字低,然而在伊朗的省级选举中,7出现在末尾的概率达到17%,而5仅有4%。
《华盛顿邮报》还声称,分析2008年奥巴马与麦凯恩的总统大选会发现,在州一级的得票数中,十进制中排列靠后数字的出现概率都不会超过14%或低于7%,这才是干净的选举。
“本福特定律”适用于选举吗?
《华盛顿邮报》的那篇文章,主要报道的还是2009年伊朗大选,其中所提及的2008年美国大选,其实只是一笔带过。
在此前历届总统大选中,虽有像小布什诉戈尔一案这样的争议事件发生,但闹到像如今特朗普和拜登这种地步的并不多见,更鲜有人把【资 ;源 之.家.】美国总统大选和“本福特定律”联系在一起。
“本福特定律”可以用来鉴别诸如公司伪造假账目等问题,但到底能否用于鉴别大选真实性?很多人心中依旧打上了问号。
在推特上,有一名网民就在发布了质疑拜登得票情况不符“本福特定律”的推特和图表后,又评论自己的推文,并补充了一篇发表于剑桥大学出版社官网的论文:“好吧,‘本福特定律’并不适用于选举,我的锅!”
图自推特
剑桥大学出版社官网截图
该论文题为《“本福特定律”和侦查选举舞弊》,其中提到,通过生成一系列的人工模拟数据后发现,论文作者们认为“本福特定律”无法为可能存在的选举欺诈提供法律依据。
论文的其中一位作者彼得·奥德肖克(Peter C. Ordeshook)写道【资 ;源 之.家.】:“即便是自由且公平的选举,依据该定律,首位数字和第二位数字都有可能产生偏差情况(观察者网注:类似之前网民描述此次底特律的情况)。事实上,真正的选举欺诈反而会按照‘本福特定律’的逻辑篡改数据,从而使人们产生完全错误的结论。”
值得注意的是,美国社交网站“Reddit”上有网民发现,维基百科11月5日已经在“本福特定律”的词条末尾,加入了剑桥大学出版社的那篇论文链接,并标注称:“但其他专家认为,‘本福特定律’作为判断选举是否舞弊的统计指标,是存在问题或具有误导性的。”
截图自维基百科
结语
事实上,正如李永乐老师在其科普视频中所言,“本福特定律”其实到目前为止还没有一个公认的证明,本身也并非一个严格意义【资 ;源 之.家.】上的定律,只是在很多数据模型上是符合的,但同样也有不符合的情况。
目前,美国的选民和网民依旧踊跃地在对拜登各处的得票数据进行统计分析,并与“本福特定律”进行比,以此指控拜登选举舞弊,相关讨论仍在继续。
不过综合各方面资料分析来看,这个定律可以适用于一定的领域,但对于像美国总统大选这样的特殊竞选活动,可能受选区划分、选民结构、样本数量等因素影响,并不能有明确的定论。
正在多州就“选举欺诈”问题发起法律诉讼的特朗普阵营,并未公开谈及有关拜登和“本福特定律”议题,而拜登阵营也尚未对此进行任何回应。
来源|观察者网
越赞越好看