1. 证明:对偶函数的极大化=模型的极大似然估计
1.1. 模型的极大似然估计
条件概率分布P(Y|X)的对数似然函数表示为:
\begin{aligned}
L_{\tilde P}(P_w) = \log \prod_{x,y}P(y|x)^{\tilde P(x, y)} \\
= \sum_{x,y}\tilde P(x, y)\log P(y|x) && {1}
\end{aligned}
当条件概率分布P(Y|X)是最大熵模型时,即
P(y∣x)=exp(1−w+0)exp(∑i=0n)wi+1fi(x,y)2
将公式(2)代入公式(1)得:
LP~(Pw)=x,y∑P~(x,y)i=0∑nwi+1fi(x,y)−x∑P~(x)logZw(x)
1.2. 对偶函数的极大化
对偶函数定义如下:
Ψ(w)=L(Pw,w)=x,y∑P~(x)Pw(y∣x)logPw(y∣x)=x,y∑P~(x,y)i=0∑nwi+1fi(x,y)−x∑P~(x)logZw(x)
1.3. 结论
LP~(Pw)=Ψ(w)
即:对偶函数的极大化=模型的极大似然估计