信息推断

事物的表现:由内而外的正过程,从内因到表象,从本质到观测,从原因到结果

信息推断:由外而内的逆过程,从表象到内因,从观测到本质,从结果到原因

黑白思维

  • 一件事情背后的可能原因有且仅有我认为的那一个
  • 看到现象——找一个原因——收集证据——加强该原因

概率思维

  • 看到现象——尽可能寻找所有原因——尽可能收集所有相关证据——根据证据给每个可能原因一个概率——取概率最大的作为最终原因

最大似然估计

  • 选择概率最大的作为最终的结论,最有可能产生该现象的原因
  • 问题:不同原因本身发生的概率不同

贝叶斯概率

贝叶斯定理

贝叶斯公式:

  • $P(原因i|观测现象)$为后验概率
  • $P(原因i)$是先验概率,来自拿到观测现象之前对原因i本身的评估
  • $P(观测现象|原因i)$为似然概率,描述了原因i对观测现象的解释力度
  • 后验概率是在先验概率的基础上用观测现象进行调整后的结果
  • 后验概率=先验概率*标准化后的似然概率
  • 最后选择的原因实际上取决于 $P(原因i)\times P(观测现象|原因i)$ ,即先验概率 × 似然概率

奥卡姆剃刀

如非必要,勿增实体;在多个解释力度相近的原因中选取最简单的,因为最简单意味着先验概率最大。

用贝叶斯定理解释奥卡姆剃刀

  • 多个原因都可以很好地解释某个观测现象,$P(现象|原因1)=P(现象|原因2)=\cdots=P(现象|原因n)=1$
  • 奥卡姆剃刀中最简单的原因即先验概率最大的原因,例如$P(原因1)>P(原因2)>\cdots >P(原因n)$,那么贝叶斯定理与奥卡姆剃刀均会选择原因1

汉隆剃刀

能用愚蠢解释的,就不要解释为恶意;在多个解释力度相近的原因中宁愿选择愚蠢的而不是恶意的,因为前者先验概率更大。

贝叶斯二要素

先验概率与观测:

  1. 先验概率。从外部视角来看,得到的即为先验概率;从内部视角来看得到的是似然概率,但这部分一般仅会对先验概率造成微小扰动。
    • 锚定效应:用贝叶斯定理做判断时,从先验概率出发,根据似然概率进行调整。
  2. 观测。观测的信息量即其出乎意料的程度,某个信息改变认知的程度越大则包含的信息量越大。
    • 信息量大的观测对先验概率有大幅调整,分为两种:原因i完全不能解释该观测,或除了原因i的其他原因均不能解释该观测。
    • 信息量大的观测具有排他性。
    • 当观测不具有排他性时,其信息量较小,原因基本取决于先验概率。

观念改变之难

$P(H|E)\times P(E)=P(H\and E)=P(E|H)\times P(H)$

$P(E|H)=P(E)\times \frac{P(H|E)}{P(H)}$,其中$\frac{P(H|E)}{P(H)}=\frac{1}{1-(1-P(E))\times (1-R)}$,$R=\frac{P(H|\overline{E})}{P(H|E)}$

通过比较 R 与 1 的大小关系判断 $E$ 与 $\overline{E}$ 的解释力度的相对大小

巴纳姆效应

每个人都会很容易相信一个笼统的,一般性的人格描述,认为其特别适合自己。

多观测下的贝叶斯

基本形式:$P(H_i|E_1,E_2)=\frac{P(E_1|H_i)\times P(E_2|H_i)}{\sum_{k=1}^{n}P(E_1|H_k)\times P(E_2|H_k)\times P(H_k)}$

迭代形式:$P(H|E,E_k)=P(H|E_1)\times \frac{P(E_k|H)}{P(E_k|E)}$

在线贝叶斯的启发:

  • online or offline
  • 精益求精 or 步步为营
  • 观点随事实改变而改变

贝叶斯计算

将观测集划分为A,B,将 A 放在先验概率中,B作为当前的观测。

$P(H_i|A_1,A_2,\cdots,A_n)=P(H_i|A)\times \frac{P(B|H_i)}{P(B|A)}$

  • 计算时仅考虑先验概率,忽视似然概率
  • 计算先验概率时不依赖公式,直接使用统计数据
  • 应将信息量大的观测放在 A 中

分层描述法

围绕被观测的对象,在不同的颗粒度上将该对象的所有信息展现出来。

具体步骤:

  • 明确对象:抛开观测,明确问题中的观测对象
  • 描述对象:重新组织现有观测,对该对象的特点按粗粒度到细粒度进行多级描述(信息量大的观测尽量放在前面的层次)
  • 统计数据:根据多级描述,寻找能找到数据的粒度最细的那层描述,将其观测放入集合 A