1. 最大熵原理
最大熵原理是概率模型的一个准则。
最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。
通常用约束条件来确定概率模型的集合。
所以最大熵原理也可以表述为:
在满足约束条件的模型集合中选取熵最大的模型。
1.1. 熵最大代表什么?
假设离散随机变量X的概率分布是P(X),则其熵为:
其熵满足以下不等式:
其中|X|为X的可取值个数。
当且仅当X服从均匀分布时,H(P)取到最大时,即熵最大。
最大熵原理通过熵的最大化来表达不确定部分的等可能性。
1.2. 最大熵原理的直观解释
概率模型首先必须满足已有的事实,即约束条件。
在没有更多信息的情况下,那些不确定的部分都是“等可能的”。