1. 问题描述

每张图像中最多只有一个较大的对象，且位于相对中间的位置。
要识别的目标有三类：pedestrain、car、motorcycle，分别对应c1, c2, c3
定义图像的左上角坐标为（0，0），右下角坐标为（1，1）。目标的中心点为bx, by，目标的大小为bh, bw。

2. 定义标签y

定义一个训练集的label应该为1*8的向量，即：
$y = [p_c, b_x, b_y, b_h, b_w, c_1, c_2, c_3]^\top$

pc：图像中是否存在对象。pc为1时后面的值才有意义。
bx, by, bw, bh：对象的位置。
c1, c2, c3：是什么对象，三个数值只能有一个是1。
例如：

$\begin{aligned} y = [1, b_x, b_y, b_h, b_w, 0, 1, 0]^\top \\ y = [0, ?, ?, ?, ?, ?, ?, ?]^\top \end{aligned}$

?表示不care具体的值，不会在loss function中用到这些值。

定义一个样本上的损失函数为：

$l = \begin{cases} MSE(pc, bx, by, bw, bh) + CrossEntropy(c1, c2, c3) && pc = 1 \\ MSE(pc) && pc = 0 \end{cases}$