信息推断
事物的表现:由内而外的正过程,从内因到表象,从本质到观测,从原因到结果
信息推断:由外而内的逆过程,从表象到内因,从观测到本质,从结果到原因
黑白思维:
- 一件事情背后的可能原因有且仅有我认为的那一个
- 看到现象——找一个原因——收集证据——加强该原因
概率思维:
- 看到现象——尽可能寻找所有原因——尽可能收集所有相关证据——根据证据给每个可能原因一个概率——取概率最大的作为最终原因
最大似然估计:
- 选择概率最大的作为最终的结论,最有可能产生该现象的原因
- 问题:不同原因本身发生的概率不同
贝叶斯概率
贝叶斯定理
贝叶斯公式:
- $P(原因i|观测现象)$为后验概率
- $P(原因i)$是先验概率,来自拿到观测现象之前对原因i本身的评估
- $P(观测现象|原因i)$为似然概率,描述了原因i对观测现象的解释力度
- 后验概率是在先验概率的基础上用观测现象进行调整后的结果
- 后验概率=先验概率*标准化后的似然概率
- 最后选择的原因实际上取决于 $P(原因i)\times P(观测现象|原因i)$ ,即先验概率 × 似然概率
奥卡姆剃刀
如非必要,勿增实体;在多个解释力度相近的原因中选取最简单的,因为最简单意味着先验概率最大。
用贝叶斯定理解释奥卡姆剃刀:
- 多个原因都可以很好地解释某个观测现象,$P(现象|原因1)=P(现象|原因2)=\cdots=P(现象|原因n)=1$
- 奥卡姆剃刀中最简单的原因即先验概率最大的原因,例如$P(原因1)>P(原因2)>\cdots >P(原因n)$,那么贝叶斯定理与奥卡姆剃刀均会选择原因1
汉隆剃刀
能用愚蠢解释的,就不要解释为恶意;在多个解释力度相近的原因中宁愿选择愚蠢的而不是恶意的,因为前者先验概率更大。
贝叶斯二要素
先验概率与观测:
- 先验概率。从外部视角来看,得到的即为先验概率;从内部视角来看得到的是似然概率,但这部分一般仅会对先验概率造成微小扰动。
- 锚定效应:用贝叶斯定理做判断时,从先验概率出发,根据似然概率进行调整。
- 观测。观测的信息量即其出乎意料的程度,某个信息改变认知的程度越大则包含的信息量越大。
- 信息量大的观测对先验概率有大幅调整,分为两种:原因i完全不能解释该观测,或除了原因i的其他原因均不能解释该观测。
- 信息量大的观测具有排他性。
- 当观测不具有排他性时,其信息量较小,原因基本取决于先验概率。
观念改变之难
$P(H|E)\times P(E)=P(H\and E)=P(E|H)\times P(H)$
$P(E|H)=P(E)\times \frac{P(H|E)}{P(H)}$,其中$\frac{P(H|E)}{P(H)}=\frac{1}{1-(1-P(E))\times (1-R)}$,$R=\frac{P(H|\overline{E})}{P(H|E)}$
通过比较 R 与 1 的大小关系判断 $E$ 与 $\overline{E}$ 的解释力度的相对大小
巴纳姆效应
每个人都会很容易相信一个笼统的,一般性的人格描述,认为其特别适合自己。
多观测下的贝叶斯
基本形式:$P(H_i|E_1,E_2)=\frac{P(E_1|H_i)\times P(E_2|H_i)}{\sum_{k=1}^{n}P(E_1|H_k)\times P(E_2|H_k)\times P(H_k)}$
迭代形式:$P(H|E,E_k)=P(H|E_1)\times \frac{P(E_k|H)}{P(E_k|E)}$
在线贝叶斯的启发:
- online or offline
- 精益求精 or 步步为营
- 观点随事实改变而改变
贝叶斯计算
将观测集划分为A,B,将 A 放在先验概率中,B作为当前的观测。
$P(H_i|A_1,A_2,\cdots,A_n)=P(H_i|A)\times \frac{P(B|H_i)}{P(B|A)}$
- 计算时仅考虑先验概率,忽视似然概率
- 计算先验概率时不依赖公式,直接使用统计数据
- 应将信息量大的观测放在 A 中
分层描述法
围绕被观测的对象,在不同的颗粒度上将该对象的所有信息展现出来。
具体步骤:
- 明确对象:抛开观测,明确问题中的观测对象
- 描述对象:重新组织现有观测,对该对象的特点按粗粒度到细粒度进行多级描述(信息量大的观测尽量放在前面的层次)
- 统计数据:根据多级描述,寻找能找到数据的粒度最细的那层描述,将其观测放入集合 A