1. A(δ∣w)A(\delta|w)A(δ∣w)和B(δ∣w)B(\delta|w)B(δ∣w)推导
A(δ∣w)是L(w+δ)−L(w)的下界:
令:
fi:fi(x,y)
1.1. A(δ∣w)A(\delta|w)A(δ∣w)的推导
证明:
L(w+δ)−L(w)=x,y∑P~(x,y)i=1∑nδifi−x∑P~(x)logZw(x)Zw+δ(x)
当a>0时,−loga≥1−a,得:
(1)≥x,y∑P~(x,y)i=1∑nδifi+x∑P~(x)(1−Zw(x)Zw+δ(x))=x,y∑P~(x,y)i=1∑nδifi+x∑P~(x)−x∑P~(x)Zw(x)Zw+δ(x))
根据P~(x)可知∑xP~(x)=1,得:
(2)=x,y∑P~(x,y)i=1∑nδifi+1−x∑P~(x)Zw(x)Zw+δ(x))
根据【?】,得:
(3)=x,y∑P~(x,y)i=1∑nδifi(x,y)+1−x∑P~(x)y∑Pw(y∣x)expi=1∑nδifi(x,y)
即A(δ∣w)
1.2. B(δ∣w)B(\delta|w)B(δ∣w)的推导
一次只优化其中一个变量δi,而固定其它变量δj,i≠j,得:
【?】是一只优化一个wi还是一个δi?
【?】如果是只优化一个wi,为什么不能直接假设其它δj=0?
【?】如果是只优化一个δi,为什么算法6.1步骤2-(b)只更新一个wi?
后面的推导不难,只是这一块没想通,就不往下记了。