2015-10-06 123 views
4

我深学习的新手,创造了使用来自Caffe和图像车辆分类工作有3个部分的问题:深度学习训练数据集向Caffe

  1. 是否有在组织类的最佳做法培训 CNN?即每个班级的班级数量和样本数量? 例如,我会关闭这更好的方式:

    • (一)汽车 - 汽车 - 轿车/车,两厢/车,SUV /卡车18轮/ ....(请注意,这可能意味着几千类),或
    • (b)有较高的水平 模型,分类之间的汽车/卡车/两轮车等... 如果车型然后查询车型获得车型
      (轿车/掀背车等)
  2. 每班有多少训练图像典型的最佳实践?我知道还有其他一些影响CNN的准确性的变数,但是在每个班级拍摄的数字是多少? 它应该是模型中类的数量的函数吗?对于 示例,如果我的模型中有很多课程,我应该为每个课程提供更多 样本吗?

  3. 我们如何确保我们不会过度适应课堂?有没有办法测量一个班的培训样本的异质性?

在此先感谢。

回答

5
  1. 那么,您在计算机视觉社区提到对应于一个非常具有挑战性的任务的第一选择:要一个基类的下属分类精细图像分类,说车!要获得有关this的更多信息,可以参阅本文。根据关于图像分类的文献,对诸如汽车/卡车这样的高级别课程进行分类对于CNN来说要简单得多,因为可能存在更多的区分特征。我建议遵循第二种方法,即将所有类型的汽车与卡车等进行分类。

  2. 训练样本的数量主要与参数的数量成正比,即如果您想训练浅层模型,则需要的样本少得多。这也取决于您是否调整预先训练好的模型或从头开始训练网络。当没有足够的样品时,您必须对任务中的模型进行微调。

  3. 过度拟合摔跤在机器学习中一直是一个问题,甚至CNN也不是免费的。在文献中,已经引入了一些实用的建议来减少过度拟合的发生,例如失落层和数据增加过程。

可能不包括在你的问题,但似乎你应该遵循的微调过程,即初始化与模型的预先计算权重的网络上的另一任务(比如ILSVRC 201X)和适应根据你的新任务权重。这个过程在社区中被称为转移学习(有时称为域适应)。