这个问题可能已被回答,但我没有找到一个简单的答案。我创建了一个使用Keras对Simpsons字符进行分类的小网络(dataset here)。
我有20个类,并提供一个图像作为输入,我返回字符名称。这很简单。我的数据集包含图片中带有主要字符的图片,并且只有字符的名称作为标签。使用Keras进行目标检测:快速R-CNN或YOLO的简单方法
现在我想添加一个对象检测问题,即在图片中的字符周围绘制边界框并预测它是哪个字符。我不想使用滑动窗口,因为它非常慢。所以我想过使用更快的RCNN(github repo)或YOLO(github repo)。我是否必须为每个训练集的图片添加边界框的坐标?有没有办法做对象检测(并在我的测试中获得边界框)而不给出训练集的坐标?总之,我想创建一个简单的对象检测模型,我不知道是否有可能创建一个更简单的YOLO或更快的RCNN。
非常感谢您的帮助。