1. 问题描述

每张图像中最多只有一个较大的对象,且位于相对中间的位置。
要识别的目标有三类:pedestrain、car、motorcycle,分别对应c1, c2, c3
定义图像的左上角坐标为(0,0),右下角坐标为(1,1)。目标的中心点为bx, by,目标的大小为bh, bw。

2. 定义标签y

定义一个训练集的label应该为1*8的向量,即:
y=[pc,bx,by,bh,bw,c1,c2,c3] y = [p_c, b_x, b_y, b_h, b_w, c_1, c_2, c_3]^\top

pc:图像中是否存在对象。pc为1时后面的值才有意义。
bx, by, bw, bh:对象的位置。
c1, c2, c3:是什么对象,三个数值只能有一个是1。
例如:

y=[1,bx,by,bh,bw,0,1,0]y=[0,?,?,?,?,?,?,?] \begin{aligned} y = [1, b_x, b_y, b_h, b_w, 0, 1, 0]^\top \\ y = [0, ?, ?, ?, ?, ?, ?, ?]^\top \end{aligned}

?表示不care具体的值,不会在loss function中用到这些值。

3. 定义损失函数

定义一个样本上的损失函数为:

l={MSE(pc,bx,by,bw,bh)+CrossEntropy(c1,c2,c3)pc=1MSE(pc)pc=0 l = \begin{cases} MSE(pc, bx, by, bw, bh) + CrossEntropy(c1, c2, c3) && pc = 1 \\ MSE(pc) && pc = 0 \end{cases}

results matching ""

    No results matching ""