「贝叶斯的诅咒」偏见的胜利与因果性的破灭

使用CN2/CN2GIA顶级线路,支持Shadowsocks/V2ray科学上网,支持支付宝付款,每月仅需 5 美元
## 加入品葱精选 Telegram Channel ##

重建因果认知

有人说,也许除了热力学第二定律之外,其余所有的物理定律都是人类的片面总结。在科学领域,假设永远不会被证明是绝对正确的——即便稳如牛顿定律的物理法则,也往往陷入自身循环论证的怪圈。

但科学往往总是在关键时刻选择最简单的假设——除非它被证明是错误的。这一条原则,是由13世纪的奥卡姆详细阐述的,现在被称为奥卡姆剃刀,人们潜移默化地遵循这个略具美学意义的法则,并阻止科学发展出奇幻的、过于复杂的理论。这个哲学原则断言,越简单的理论就越可信。

科学方法始终指导我们一步步接近一系列改进的模型,一般遵循以下程序:

1.      根据当前的假设提出问题。

2.      收集当前可用的所有相关信息,包括有关模型参数的知识。

3.      设计一个实验,解决步骤1中提出的问题。如果假设为真,那么实验的结果应该是一件事,如果假设为假,那么试验结果应该是另一件事。

4.      从实验中收集数据。

5.      根据实验结果得出结论,修改有关参数的知识。

通过这样的流程,科学的方法得以寻找事物之间确切的因果关系。

受过严格训练的科学家们始终遵循这一范式,但我们仍然缺乏一门显式的语言——就像我们惯常讨论的经典统计学一样,纳入因果推断的精确数学表达。自从公元前29年,古罗马诗人维吉尔首先宣布“能够理解事物起因的人是幸运的。”直到两千年之后,我们也未能真正发展出完善的因果推断理论。

在因果推断探索性著作《The book of why》当中,贝叶斯网络之父Judea Pearl认为,实现因果推断要满足三个层次的认知:

  • 第一层观察能力:关联——如果我看到…会怎样

  • 第二层行动能力:干预——如果我做了…将怎样,如何做

  • 第三层想象能力:反事实(现实世界里并不存在)——假如我做了…会怎样?为什么?

仔细比较就会发现,科学流程之所以成功,似乎并不是偶然的。其5个步骤里就同时体现了Pearl所说的三个层次:

  • 提出假设和问题意味着思考关联

  • 设计并进行实验就意味着干预

  • 对照实验里对相反结果的思考就纳入了反事实的考量

至此,我们谈及了两种理解事物之间联系的方式:

1.     我知道当 X 出现的时候,Y 也会出现(关联)

2.     我知道 X 会导致 Y(因果)

关键的问题是,为什么要费尽心力来区分两者并理解因果关系呢?如果它是一个强大的工具,那么因果关系可以通过数学工具来研究吗?

对于第一个问题,对因果关系的形式化研究至少有两个重要的目的:

1.     如果我们想要机器为人类服务,就要教会它们借助人类的因果思维来思考问题,而不仅仅满足于使用大数据训练下的概率机器,因而发明并教授机器一门因果推断语言就变得必要了。

2.     有了因果推断学习,我们就可更好的理解各种思想谬误,比如伯克森悖论,辛普森悖论等,并借助因果推断,远离一系列法律和道德陷阱,比如无人车技术的道德风险。

针对第二个问题,我们需要学习因果图

假设我们观察到两个变量X和Y,X的高值总是和Y的高值同时出现,X的低值也总是和变量Y的低值同时出现,或者反过来,X的高值对应Y的低值,X的低值对应Y的高值,我们就可以说,变量X似乎与变量Y有关联。

如果我们不满足于这种关联性,而是想确定这两个变量关联的具体原因,那么这两个变量之间可能会是比“相关性”更加严密的因果关系。比如,X可能是Y的原因。因果关系可以用从X到Y的箭头来表示

但这可能不是唯一的原因,还存在另一种可能,比如,可能存在对X和Y都有因果影响的未识别的第三个变量Z。X和Y之间没有直接的因果关系。它们之间的关联都是由于Z的影响。这里的Z就被称为潜变量,因为它隐藏在后台,影响了我们的观察:

 至此,我们也没有罗列出所有的可能性。如下图所示,还存在第三种可能,即因果效应和潜变量都可能是导致X和Y相互关联的原因,即因果效应和潜变量的效应交织在一块了。在这种情况下,X和Y的关联是由于因果效应与潜变量效应的交织造成的,这里的Z被称作混杂因子——对因果和概率相关的混杂的错误解释通常带来辛普森悖论,为了理清原委,就应该分别确定这两种效应的大小。

再看下面这张图。换了一个箭头的方向后,这里的Z就不再是一个混杂因子了,这里的Z被称为中介物(mediator),它是解释X对Y的因果效应的变量。如果你试图找出X对Y的因果效应,那么控制Z将带来一场灾难——如果通过控制Z来影响Y,就会发现X对Y没有影响,从而得到错误的结论。这就是克莱因所说的:你实际是控制了你真正想要测量的东西。

接下来,则是对撞因子的情况,对撞因子也是人类最不习惯理解的一种情况:Z同时受到X和Y的影响,这里的Z就是一个对撞因子。当我们无法找到X导致Y的实际因果证据时,往往会有一种倾向,去找出X和Y的共因,并因此而感到满意——本来X和Y是完全独立的,我们却往往利用对撞因子制造伪相关性乃至伪因果,并认为X导致Y。这也被称作伯克森悖论。

 

你看,因果和概率相关之间的故事,通过“因果图”的表达变得复杂起来。而人类往往无视历史的复杂性,总是在事后认为因果性理所当然,但在事前从来都是迷茫的,原因就在于我们并没有真正弄清当中的因果箭头。曾被里根授予总统自由勋章的历史学家沃尔斯泰特说:“各种信号在事后看来,总是非常清晰;我们可以看到它预示的究竟是怎样的灾难,但在事前,它却晦涩朦胧,并有着相互矛盾的含义。”

而世界的复杂性在于,还存在更多解释,比如,我们是先发明了坦克,才带来了战争中对坦克的大规模需求?还是因为我们对战争的需求,才发明了坦克?现实中的技术和需求,对应的X和Y之间可能是互为因果的。索罗斯的反身性,埃舍尔的循环抽象画,巴赫的乐谱,现实中很多事物都可能存在说不清道不明的循环因果的情况。

人类最大的思维局限之一,就是“盲目”寻找事物的因果关系,尽管很多事情从人类的视角来看是有因果逻辑的,但其实绝大多数是没有的,因此人类经常倾向于对于不存在的问题问为什么。普遍上,一些推理的讨论和应用,由于没有看到概率相关和因果之间的区别,因而陷入了误区。即便因果关系是确定的美丽的,但寻求确定的物理机制也是异常耗费精力的。

你已经窥见到因果推断语言的部分威力了。让我们回顾一下:

1.      A→B→C,链结合,B叫做中介物,如果对B干预太多,反而会妨碍A之间C的信息流动。

2.      A←B→C中,叉结合,B可能是潜变量,也可能是混杂因子,控制B可以阻止有关A的信息流向C或C流向A。

3.      A→B←C,对撞结合,B叫做对撞因子,信息流通规则和前两种是完全相反的。A和C原本是独立的,所以关于A的信息不能告诉你任何关于C的信息或反过来。但是,如果你控制了B,由于“辩解效应”的存在,信息就会开始在三者间中流通。

现在,来看A←B←C→D←E→F→G←H→I→J→K这个表达,我们应该如何操作,让信息充分流通?

理论上,只要这条路径中的一个结合被阻断,那么K就无法通过这条路径找到A。答案是,不去控制任何变量的前提下,该路径本身就是被阻断的——D和G都是对撞因子,对撞因子不需要外部帮助的情况下就可以阻断路径。只要控制D和G将此路径打开,就能使K和A的信息联通。

当然,这个例子还只是简单的单链的情况,在现实中,多维度的推断链条会更加复杂,但都离不开深入理解这些最最基本的概念。

来玩一个游戏吧:

上图中,X→Y是因果路径,而X←A→B←C→Y和X←B←C→Y是两条非因果“后门路径”,我们所要做的,就是保留X→Y,并阻断另外两条“后门路径”。这里的难点在于,B在X←A→B←C→Y中是一个对撞因子,B在X←B←C→Y是一个中介物,如果控制B阻止后门路径X←B←C→Y,反而是打开另一个后门路径X←A→B←C→Y,这两个后门路径里,B的作用是相反的,结果就是两条路径无法同时关闭。因此,最佳解决方案应该是直接控制C,因为C在两条路径里都是潜变量或混杂因子,不存在逻辑的矛盾。

这看起来就是一个游戏嘛!但神奇的是,如果你把每一个字母换成有意义的事物,这就是一项严肃的科学研究了!这道几何题确实是一个真实的例子,源自澳大利亚莫纳什大学的生物统计学家安德鲁·福布斯和几位合作者的一篇科学论文,只要做以下替换,一切就都清晰了:

  • X代表某人的吸烟行为

  • Y代表某人是否会为成人哮喘患者

  • A代表父母吸烟行为

  • B代表此人儿童时期是否患有哮喘

  • C代表潜在的(无法被观测的)哮喘体质

在“因果图”图形解之外,Pearl还建议增加一门公式语言,来表达我们想要回答的问题。比如,如果我们对“药物D对寿命L”的影响感兴趣,就可以将其表达为:P(L | do(D))——即如果让一个典型的病人服用这种药物,病人能存活1年的概率P是多少?这里的P(L | D)是我们熟悉的条件概率,而do运算算子表示的是,我们正在处理的是Pearl所说的第二层认知——干预,如果没有do算子,这就是第一层认知——被动观察

因果图表达与因果推断公式表达并不是互相孤立的,实际上两者之间有着隐秘的联系,比如:Do算子的引入,在因果图上的几何意义,是清除所有指向自己的箭头,这样就可以防止信息在非因果的方向上流动。而且,在Pearl看来,链接合、叉接合和对撞接合的引入,与引入Do算子的作用是一样的——打开因果关系之梯第一层级和第二层级之间大门的秘密钥匙。

在Judea Pearl的不懈努力下,因果推断的问题变成了简单的几何游戏或算法。要知道,人类在因果推断领域的进步,很少有机会能享受到如此令人满足的理论成果。

它终结了一整个混乱的因果推断时代——我们曾在这个时代做出了许多错误的决策。同时,这又是一场悄无声息的革命,激烈的争辩主要发生在研究实验室中和科学会议上。而在掌握了这些新工具,理解了这些新见解之后,科学界可以着手处理一些更困难的问题,无论这些问题是理论上的还是实践中的。

回望历史,我们总是一次又一次地通过需求先行,发明新的语言:

赌徒们首先发明了复杂的机会游戏,帕斯卡,费马,惠更斯才发现有必要发展出概率理论,提高赌博的胜率。当保险组织要求估计人寿年金的时候,哈雷和德莫伊夫等数学家才开始设计死亡率表来计算预期寿命。当天文学家需要精确预测天体轨迹的时候,伯努利,拉普拉斯和高斯才提出了误差理论,帮助我们从噪声中提取信号,并建立了今天统计学的基础。

而长久以来,人类一直对事物的因果推断存在强烈的需求,但理论发展却一直被搁置。早在高尔顿和皮尔森提出有关遗传的因果问题时,就尝试利用跨代数据来解释。但在皮尔逊看来,因果关系过于严格,因而仅仅被看作是相关关系的一个特例,最后,他转而发展一个繁荣的、没有因果关系的理论——即我们今日已经发展到几乎滥用的回归理论。

尽管此后遗传学家苏厄尔·赖特通过“路径分析”Path analysis理论,对因果推断的发展做出了英勇的努力,但因果词汇在长达半个多世纪的科学界里都被看作是反科学的。只要一提到“”或“”,就会立即招来统计学者的声讨。禁止言论时,往往会禁止思想,扼杀原则、方法和工具。尽管每一个人都懂得那句俗语“相关性不是因果关系”,但却没有人想要真正地发展这门理论,弄懂什么才是因果推断,这真的让人想不通。

再次令人遗憾的是,主流经典统计学在论战后终于接纳贝叶斯派的主观性时,却并没有接受因果主观性,并将其排斥在外。

大数据时代的快速降临,更加恶化了这一趋势,统计学只被要求总结数据,而不需要解读数据,我们还顺带着学习了海量的数据挖掘技巧,到处都是教授这些理论的课程。数据科学家成为数据经济的最大受益者,就连我们引以为傲的机器学习,也成为了以追求数据为中心的智能。

直到21世纪,迟到已久的描述因果性的通用数学语言才刚刚有了体系的雏形。看起来,它做的还不赖。长久以来,人类因果推理模式与概率统计逻辑相冲突的地方一直让统计学家们耿耿于怀不得要领——这个冲突地带里充满了各种因果悖论。人类的直觉在因果逻辑下运作,而数据遵从的是概率的逻辑,我们的大脑不擅长处理概率问题,但对因果问题则相当在行。

人类和数据的两种世界观冲突是很难调和的。当我们把一种世界观里学到的规则误用到另一种世界观里的其他领域时,悖论就出现了。

斯坦福大学统计学家佩尔西·戴康尼斯于1991年在接受《纽约时报》采访时说:“我们的大脑的确不能很好地处理概率问题,所以对于错误的出现我并不感到惊讶。”

我们的大脑没有准备好去接受大数据告诉我们的无缘无故的相关性,就急匆匆地将其转化为因果解释。但哪怕我们只需要学习一个因果推断的子模块——比如对撞结合A→B←C,大部分的认知悖论就不会让我们感到迷惑了。

因果源于偏见

国在空间技术科技领域的投资与美国自杀(绞杀窒息等)人数高度相关(相关系数99.79%);阿卡德酒店的收入与美国授予的计算机博士学位数量高度相关(相关系数98.51%);美国从挪威进口原油的数量与火车相撞导致的司机死亡人数高度相关(相关系数为95.45%),人均奶酪消费量与被床单困死的人数高度相关(相关系数94.71%),尽管了解到了这些重要的事实,政治家们也没有尝试减少美国科技投资,倡导增加酒店收入,限制挪威进口原油,或减少奶酪产量。显然,承认这些相关性的决策者们,拒绝相信这里面的因果联系。

只要你愿意,这种联系不同事物之间相关性的工作,能够研究一辈子,却一无所获。大数据分析很容易走入一种误区,叫做“虚假的相关性”,这与回归方法的过度拟合滥用相关,过度拟合也可以被看作是对数据的过度诠释。以上这些例子都可以说是结论最为优美的废话。

为什么在社会话题,金融市场,生育政策,种族政策、粮食政策,宗教政策,道德研究等等话题中,会出现那么多结论互相冲突的文章?某个主题在人群中引发的好奇心越大,就会有越多的人花时间研究“因果”主题,这变成了一个恶性循环,恶果就是会产生互不相容的信念。这些信念的基础几乎完全来自过度诠释。

资本市场的定价过程,也能够看到这样的矛盾,对同一事件,人们甚至能够解读出对立矛盾的理解,从而引发分歧,对于事件驱动的资产价格波动,诉诸“因果”的解释也五花八门让人摸不着头脑,从而为价格波动提供内在动机。

如果你记得p值操控,就会理解,即使真正显著的效应并不存在, 但只要随机地预测100次事件之间的相关性,你就有5次机会得出显著的结果!

比如经济学家们可以联系起失业率和通胀水平两个事实,并给出多达2000种不同解释。按照p值检验的标准,你就会有100次发表科学论文的机会来详细阐述这当中的因果联系。只要你掌握了国家统计局的汇总数据,并对数据投入足够多的研究,你可以轻松地攒出一篇“**严谨”**的科学论文,题为《证明抗生素的滥用会制约经济发展的100个统计学证据》。

这就是滥用过度拟合的原罪。在探索言之有理的解释时,只要你愿意,人们总是能找到有显著性的统计数据作为佐证——人们甚至不会思考,这些统计数据的发现并没有什么神奇之处。即使每个统计数据都不太可能具有显著性,但让所有统计数据都没有显著性的难度更大。过拟合让我们过度滥用了因果推理,我们不得不更加深刻地思考,该如何解决这类问题。

贝叶斯主义就为我们提供了一个解决过拟合的工具——这就是最大后验估计MAP。MAP在极大似然估计MLE的似然函数基础上,增加了一个先验概率的信息。这个增加的先验概率的作用,就是正则化——如果你还记得频率派的工具箱,这恰恰也是Lasso回归和岭回归的核心思想。正则化允许我们根据抽样来调整模型的拟合程度。

但即便这样的数学形式上调整,也无法逆转人类社会里过度依赖的“因果迷信“——我们人类最擅长的事情本就是”无中生有“一般创造因果联系,而并不在乎事物之间的相关性是”过度拟合“还是”欠拟合“的,”过度拟合“只是更近一步助长了我们一厢情愿立场的自我强化。

那些花样繁多的“因果解释”理论中。有一个相当极端的理论叫作“上星期四主义”(Last Thursdayism)。你也可以说,上周二主义或上周三主义。这个主意坚持宇宙是上周四创造的,但其物理表现却有着几十亿年的历史——书籍、化石、遥远恒星发出的光,以及一切(包括你对上周四之前时间的记忆)都是在创造之时(上周四)形成的,它们看起来都很古老。

最厉害之处在于,上星期四主义是无法证伪的——这里没有违背任何物理法则——毕竟物理法则也是上周四创造出来的。无论我们将来观察到什么现象,都可以在上个星期四找到它出现的原因。

心理学家乔纳森·海特说,社会科学实验一次又一次表明,人类总是先选好立场,然后再用自以为是理性的论据来为自己的立场辩护。理性对我们来说只是一种工具用来源源不断地制造解释。这些事后的解释不止一个,只需要一个好的立场甚至不需要任何立场,我们就会对其深信不疑。

即便是可证伪的波普尔观点,也无法否定上周四主义——在这一点上,它甚至还不如纯哲学思辨非科学方法的奥卡姆剃刀好用。1319 年,奥卡姆这样写道:“Pluralitas non est ponenda sine necessitate.”即“如无必要,勿增实体”。

既然上星期四主义的对宇宙诞生的解释,与科学家对宇宙观测实验得到的解释完全一样,那么上周四主义的上周四假设,就有点多余——为什么要假设“上周四创建了一系列假的科学实验证据”的解释呢?直接接受科学实验真实的数据不是更简单?于是,上星期四主义这个假设无法让人们解释为什么要假设并伪造“并不存在的实验证据”那么复杂的东西——至少上周四还要假装创建一大堆数学工具,假装创建工程学观测设备,假装创建科学家们的艰深的研究论文,这上帝也太敬业了!

正因为这个假设是多余的,所以奥卡姆剃刀会把它剃掉。

但是,在有些人看来,它不会去关注具体的证据,从语言的表述来看,会认为“上周四解释”更容易理解,我们为什么要去理解“可观测宇宙在 130 亿年前突然出现,然后产生了星系、恒星、行星、生物以及人类和人类的思想这些复杂事物?”这一长串的宇宙演化历史呢?奥卡姆尽管表面看似简单,但使用它的原则却很模糊。不同的人对奥卡姆剃刀的“简单”剃刀标准理解也是不一样的。

真要严谨理解理论简洁性,还是要回归科学的工具,用到算法复杂度之类的有关复杂度的理论。理论工作者的贡献还是不可或缺的。

但在贝叶斯者看来,任何有理有据的理论解释都是徒劳的——这就是著名的NFL“没有免费午餐理论”。不管你用什么办法来选择你的“因果解释”模型,你的方法必定在某个方面被其它的解释模型所超越——而这些模型一般也都会有自己的先验置信度。只要你是一个坚定的贝叶斯主义者,你就一定带有自己的主观偏见。无论你的偏见是什么,总有其它贝叶斯主义者的偏见比你的偏见能够得到更好的结果。

贝叶斯确实带有偏见,而它也并不刻意隐瞒这种偏见。但如果据此认为贝叶斯思想是极端的,那就大错特错了。贝叶斯公式当中隐藏的一个更加惊人的秘密——这就是贝叶斯公式的分母项“配分函数”。利用全概率公式分解,贝叶斯公式可以改写为:

分母的前半部分重复了分子本身,这是关于原理论的,重要的是配分函数后半部分,代表了原理论之外的X个替代理论的分子项——也就是说,这个配分函数可以让不同的理论可以相互竞争,就此保证置信度的和总是等于 1。

这个特殊的数学形式意味着,当且仅当某个理论比其竞争理论可靠得多的时候,贝叶斯主义者才会向这个胜出的理论赋予更高的置信度。

这也代表了,当足够多的证据出现时,你不能说服贝叶斯主义者接受这些证据所归纳出的单一理论,要想达成这一点,你必须在多个备选的理论当中,选中最被证据所支持的那个理论——贝叶斯的观点是开放的,即便有理论的争论,贝叶斯也从不参与辩论,而是兼收并蓄地将多种竞争的观点都当作自己身体的一部分加以考量。

可以说,所有可容许的决策机制组成的集合,正是所有贝叶斯方法组成的集合——贝叶斯不是一个人在战斗,而是一群互不包容的人同时出谋划策。而所有非贝叶斯的替代方案作为个体方法,都会处处劣于某个贝叶斯方法——互不相容的模型组成的森林一定要比某一棵树更加睿智。

在贝叶斯“森林”的观点下,任何单一模型的解释其实都是没有因果确定性的——它们都是我们主观思维的投射,而贝叶斯则包容了这些“所有的观点”。

可以说:“纯粹的贝叶斯里没有因果”

即便深刻如物理学,也缺少实在和因果,不过是描绘了时空中各种事件之间的相关性。比如惯性力到底是什么,新的解释不断涌现:牛顿认为是绝对空间,马赫认为是宇宙中其他物质作用的结果,爱因斯坦一开始认为是绝对时空,后来认为是引力场,21世纪,希格斯认为是希格斯海对加速的物质粒子作用而产生的阻力,直到今天,这个谜团仍然没有完全解开——我们并没有找到惯性力发生的真正原因。

似乎,因果概念并不是一个基础性的概念,如果带着放大镜深入探究每一个事物,任何100%确定的因果性都是值得怀疑的,就像对惯性力的理解一样,随着时间的流逝,科学的进步,我们也不断给出新的见解。甚至“宇宙随着时间的某种节奏演化”也被广义相对论否定了——在物理学家看来,时间的流逝只是一个与穿越时空的路径相关的函数而已。

而冯诺伊曼和纳什等数学家开创了以目的论为主要诉求的博弈论,让我们近一步意识到,似乎因为有了人的参与,因果诉求才成真为一个值得严肃对待的主题——就像物理学家为了理解世界的运行机制,并以此为“目的”发展科学理论,才带来了科学的因果解释。

在以目的论为基础的博弈论领域,因果甚至可以是逆向的——法律和司法的主要作用不是为了惩戒犯罪,而是为了阻止社会成员犯罪。一切惩罚的目的都是为了不再出现犯罪——在这里,结果可以先于原因。

带有目的论的博弈,是假设人类所有个体都会做出战略性的行为,采取能够最大化利益的行为——畅销书《自私的基因》里,里查德·道金斯就为演化生物学赋予了目的论的框架,强化了因果。如果失去了目的论的支撑,全书立论的基础将轰然倒塌。

如果没有目的论,这个世界的本质只不过是没有因果的贝叶斯森林,我们的偏见赋予了每棵树木不同的权重,从而产生了不同的立场和认知。

因果源于偏见

- END -

“我在黄昏的血色中踽踽独行,

感到自己不过是这个忧郁的黄昏大地上一粒微不足道的尘埃”

    

           ▲跟我聊聊吧**                       ▲**关注SerendipityCamp

徐鸿鹄

微信扫一扫赞赏作者 赞赏

长按二维码向我转账

受苹果公司新规定影响,微信 iOS 版的赞赏功能被关闭,可通过二维码转账支持公众号。

预览时标签不可点

最简单好用的 VPS,没有之一,注册立得 100 美金
comments powered by Disqus

See Also

如何看待货拉拉乘客坠亡案司机提出上诉?改判的可能性有多大?

知乎用户 勇者鲁卡 发表 货拉拉司机过失致人死亡案上诉,所产生的三个反思契机: 1. 怎样防范司法机关用法律援助律师架空家属自行委托的律师,去保障好被告人在诉讼程序中的辩护权? 在此之前,女辅警案、劳荣枝案家属委托的律师均无法会见,很难证伪 …

假专家与真外行

假专家与真外行 作者:周宏 原卫生部部长高强在《人民日报》上发了一篇《“与病毒共存”绝不可行!》的文章,不知为何这篇文章被解读成是批网红医生张文宏的,网络红卫兵周小平、王小石们也闻风起舞对张网红发起批判,加上高部长在讲人与病毒关系时暴露了防 …

为什么人类不能统一成为一个地球政体?

知乎用户 发表 阻拦这一过程的主要原因是什么?如果能统一那会是什么样的原因能让人类站在一起? 知乎用户 土伯虎 发表 恭喜题主,一问就问进了政治哲学领域最深刻的问题 一群人组成一个国家,如何可能?国家的本质是什么?为什么人们要组成一个国家? …