1. Q函数的定义
完全数据的对数似然函数logP(Y,Z∣θ)关于在给定观测数据Y和当前参数θ(i)下对未观测数据Z的条件概率分布P(Z∣Y,θ(i))的期望称为Q函数
Q(θ,θ(i))=EZ[logP(Y,Z∣θ)∣Y,θ(i)]
公式说明:
EZ[A]:A关于Z的期望
E[A|B]:在已知B的条件下A的期望,在这里已知的是“观测数据Y”和“当前参数θ(i)”。
logP(Y,Z∣θ):对数似然函数
2. 为什么要引入Q函数
EM算法的目标是要极大化对数似然函数:
L(θ)=log(Z∑P(Y∣Z,θ)P(Z∣θ))
但是对形如log∑这样的函数很难求极大化,最好转成对应的形如∑log的函数
3. 转化对数似然函数
这里过程跟书上不太一样,能跟书上得出一样的结果,不知道对不对
L(θ)=log(Z∑P(Y∣Z,θ)P(Z∣θ))=log(Z∑P(Z∣Y,θ(i))P(Z∣Y,θ(i))P(Y∣Z,θ)P(Z∣θ)),#A=B∗BA≥Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))P(Y∣Z,θ)P(Z∣θ),#jensen不等式1
说明:
jensen不等式
在公式(1)中,f(x)=log(x),这是一个凹函数,所以满足不等式(2)
λi=P(Z∣Y,θ(i)),λi是条件概率,因此满足λi>0且∑iλi=1。
xi=P(Z∣Y,θ(i))P(Y∣Z,θ)P(Z∣θ),等式左边的i为等式右边的Z
4. 去掉常数项
现在已经转化了∑log形式的函数,得:
θ(i+1)=argθmax(Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))P(Y∣Z,θ)P(Z∣θ))
要求θ(i+1)就需要让公式(1)对θ求导。
公式(1)中与θ无关的项不影响结果可以去掉
θ(i+1)=argθmax(Z∑P(Z∣Y,θ(i))logP(Y∣Z,θ)P(Z∣θ)−Z∑P(Z∣Y,θ(i))logP(Z∣Y,θ(i))=argθmax(Z∑P(Z∣Y,θ(i))logP(Y∣Z,θ)P(Z∣θ))=argθmax(Z∑P(Z∣Y,θ(i))logP(Y,Z∣θ))=argθmaxQ(θ,θ(i))