1. 问题描述
每张图像中最多只有一个较大的对象,且位于相对中间的位置。
要识别的目标有三类:pedestrain、car、motorcycle,分别对应c1, c2, c3
定义图像的左上角坐标为(0,0),右下角坐标为(1,1)。目标的中心点为bx, by,目标的大小为bh, bw。
2. 定义标签y
定义一个训练集的label应该为1*8的向量,即:
y=[pc,bx,by,bh,bw,c1,c2,c3]⊤
pc:图像中是否存在对象。pc为1时后面的值才有意义。
bx, by, bw, bh:对象的位置。
c1, c2, c3:是什么对象,三个数值只能有一个是1。
例如:
y=[1,bx,by,bh,bw,0,1,0]⊤y=[0,?,?,?,?,?,?,?]⊤
?表示不care具体的值,不会在loss function中用到这些值。
3. 定义损失函数
定义一个样本上的损失函数为:
l={MSE(pc,bx,by,bw,bh)+CrossEntropy(c1,c2,c3)MSE(pc)pc=1pc=0