本福特定律的实际应用（嚯，”本福特定律”都来了…）

行业资讯 1 年前 0 1

► 文观察者网熊超然

虽然正式结果还未出炉，但2020年美国总统大选的“剧情”跌宕起伏，足以成为历史上最具话题性和争议性的选战之一。

当地时间11月5日，就在特朗普阵营连续在多个州提起关于“选举欺诈”的诉讼时，推特等社交媒体上开始涌现一种说法：经分析统计各候选人在某地所有选区的得票数后发现，特朗普一切正常，而拜登的得票情况不符合“本福特定律”，涉嫌在选举中舞弊。

一时间，“选举欺诈”突然从缺少证据的情绪化指控演变成了可分析讨论的“研究问题”。

究竟什么是“本福特定律”？拜登的得票是否真的和该定律不相符？甚至确实是存在造假情况？

参与分析统计的推特网民对此事讨论度热烈

国内微博网友也纷纷“吃瓜”

美国社交【资 ;源之.家.】网站“Reddit”一篇讨论帖评论已近千条

“本福特定律”是什么？

“本福特定律”（Benfords law），也称“本福特法则”，它说明一堆从实际生活得出的数据中，以1为首位数字的数（如12、135、1083首位数字均为1）的出现概率约为总数的三成，接近人们主观直觉得出的期望值1/9的3倍。

推广来说，越大的数，以它为首位数字甚至是首几位数字出现的概率就越低。在十进制首位数字的出现概率中，1最高（30.1%），逐渐递减，9最低（4.6%）。

图自维基百科

需要注意的是，“本福特定律”也有一定的使用条件。首先，数据样本需要尽可能的多，至少要在3000个以上；其次，数据样本跨度要大，比如人的身高就不满足“【资 ;源之.家.】本福特定律”，因为大多数人身高在1米至2米这一区间；最后，数据样本应是自然的，不能有人为操控，例如手机号码和邮政编码不满足“本福特定律”，因为这些都是1开头或特定数字开头。

也正是因为有特定使用条件，“本福特定律”可用于检查各项数据是否存在造假行为，因为若有人为因素影响数据，所得首位数字的概率及概率曲线图将不符合“本福特定律”。

拜登得票数不符定律，被质疑“有猫腻”

11月5日，有人在推特上发布图表称，在统计了特朗普和拜登在威斯康星州密尔沃基县470多个选区的得票数首位数字后发现，特朗普的这一曲线较为符合“本福特定律”的曲线，而拜登的曲线形状则出现异常。

图自推特

还有网民在统计此次大选所有候选人的得票【资 ;源之.家.】数据后发现，包括著名说唱歌星“侃爷”在内的所有人的曲线均基本正常，但拜登依旧出现严重异常情况，因而有人质疑他的选票数据可能涉嫌造假。

图自推特

发现这一状况后，更多网民纷纷加入其中，搜集统计得票数据并制作曲线图，想要对此一探究竟。在软件源代码托管服务平台“GitHub”上，有人搜集、制作并上传了相关得票数据和图表，可供其他网民下载。

其中，拜登在包括威斯康星州密尔沃基、伊利诺伊州芝加哥和宾夕法尼亚州阿勒格尼的曲线均不满足“本福特定律”，而与此同时，特朗普在多个地区的曲线却又正好满足或基本满足该定律。

截图自“GitHub”

有非专业的网民在运用号称“欺诈克星”的“本福特定律检测模型”后发现，拜登在路易斯【资 ;源之.家.】安那州的数据就没有出现异常，但他在弗吉尼亚州和费城的数据偏离了“本福特定律”原始曲线。

图自推特

还有亲自验证过的网民在与他人的讨论中替拜登说话，称底特律的选举结果显示，大部分选区拜登拿到了超过1000票，而特朗普则少于1000票，这一情况会导致候选人的得票数首位数字影响曲线形状。

图自推特

“本福特定律”和选举的交集

著名科普视频博主、中国人民大学附属中学物理教师李永乐，曾于2019年11月20日在微博上发布一则视频，讲解并使用“本福特定律”验证当时网传天猫“双11”2684亿销售额造假一事。

在这期科普视频中，李永乐老师用自己的视频播放量、全球各国和各地区人口数等作为数据样本，所得结果均契合“本福特定【资 ;源之.家.】律”。同时，他也提到，确实曾有人用这一定律来研究某一地区的选举是否存在舞弊现象。

截图自新浪微博@李永乐老师

在“本福特定律”的维基百科词条中提到，该定律曾被援引作为证据来证明2009年伊朗大选存在“欺诈”。

英国《新科学家》杂志（New Scientist）官网曾于2009年6月24日发表一篇文章，称统计数字暗示，当时刚刚结束的伊朗大选可能存在舞弊。

《新科学家》杂志报道截图

而《华盛顿邮报》2009年6月20日也曾发表一篇题为《魔鬼存在于数字上：伊朗大选被撕碎的证据》的文章，直指伊朗大选“大有问题”，比如某位候选人在某个省获得了14579票。

2009年未改网站版面之前的《华盛顿邮报》报道截图

文章意指【资 ;源之.家.】，关注的重点除了首位数字，也可以是末尾数字。像7和9这类在十进制中排列靠后的数字，出现的概率应该比前面的数字低，然而在伊朗的省级选举中，7出现在末尾的概率达到17%，而5仅有4%。

《华盛顿邮报》还声称，分析2008年奥巴马与麦凯恩的总统大选会发现，在州一级的得票数中，十进制中排列靠后数字的出现概率都不会超过14%或低于7%，这才是干净的选举。

“本福特定律”适用于选举吗？

《华盛顿邮报》的那篇文章，主要报道的还是2009年伊朗大选，其中所提及的2008年美国大选，其实只是一笔带过。

在此前历届总统大选中，虽有像小布什诉戈尔一案这样的争议事件发生，但闹到像如今特朗普和拜登这种地步的并不多见，更鲜有人把【资 ;源之.家.】美国总统大选和“本福特定律”联系在一起。

“本福特定律”可以用来鉴别诸如公司伪造假账目等问题，但到底能否用于鉴别大选真实性？很多人心中依旧打上了问号。

在推特上，有一名网民就在发布了质疑拜登得票情况不符“本福特定律”的推特和图表后，又评论自己的推文，并补充了一篇发表于剑桥大学出版社官网的论文：“好吧，‘本福特定律’并不适用于选举，我的锅！”

图自推特

剑桥大学出版社官网截图

该论文题为《“本福特定律”和侦查选举舞弊》，其中提到，通过生成一系列的人工模拟数据后发现，论文作者们认为“本福特定律”无法为可能存在的选举欺诈提供法律依据。

论文的其中一位作者彼得·奥德肖克（Peter C. Ordeshook）写道【资 ;源之.家.】：“即便是自由且公平的选举，依据该定律，首位数字和第二位数字都有可能产生偏差情况（观察者网注：类似之前网民描述此次底特律的情况）。事实上，真正的选举欺诈反而会按照‘本福特定律’的逻辑篡改数据，从而使人们产生完全错误的结论。”

值得注意的是，美国社交网站“Reddit”上有网民发现，维基百科11月5日已经在“本福特定律”的词条末尾，加入了剑桥大学出版社的那篇论文链接，并标注称：“但其他专家认为，‘本福特定律’作为判断选举是否舞弊的统计指标，是存在问题或具有误导性的。”