2013-02-28 89 views
3

我在寻找一种算法建立对象检测分类。分类器将用于通过对象的特征来检测交通场景中的汽车。我研究过像boost和多实例学习算法,但它们似乎不适合我的情况。我有两个数据集,一个是正样本,另一个是负样本,但这些数据集只包含一小部分错误(< 10%)。数据集中的错误无法手动移除,因为我的目标是在线生成数据集而不会受到人为干扰。错误在训练集的分类算法

所以我的问题是:没有人知道一个合适的算法(如果有的话)用于训练分类可以在正面和负面的训练集处理错误的一个比较小的比例?

感谢, 汤姆

+3

几乎所有的分类算法可以处理标签错误,你只会变得更糟测试集的性能。您应该考虑二进制分类算法的一般领域。提升本身不是算法,因为它需要一个潜在的分类器来工作。 – 2013-02-28 17:12:46

+0

10%不应该是一个大数字。多实例学习是一种处理标签错误的方法,但它用于完全不同的目的,如果你想... – 2013-02-28 21:05:33

+0

谢谢,我开始关注随机森林。到目前为止,这一切都很顺利。 – 2013-03-11 10:28:11

回答

0

所有现实世界的数据会有误差。如果你知道具体的错误,你应该在训练前过滤它们。捕捉这些错误的最好方法是逐渐训练分类器。每当你添加到你的语料库并重新训练一个新的分类器时,你应该检查精确度,回忆和F1。如果新的分类器性能更差,那么您知道您在工作语料库中添加了一些必须退出的垃圾。

你绝对不应该离开垃圾在你的阴茎,你会杀了你的准确度。如果您从不可信来源摄取数据,则可能会故意颠覆分类器中的错误数据。因此,您应该有某种过滤器或领域专家在提供给分类器之前查看新数据,以确保您维护黄金标准语料库。