2016-08-16 55 views
1

我在抓取大约200,000个网站,寻找某些类型的媒体发布在小型企业的网站上。我有一个pickled linearSVC,我已经训练过预测在网页上找到的链接包含我正在寻找的媒体类型的媒体的可能性,并且它的表现相当好(总体精确度在95%左右)。但是,我希望刮板在刮擦时使用新数据定期更新分类器。将训练数据添加到现有的LinearSVC

所以我的问题是,如果我已经加载了pickle sklearn LinearSVC,有没有一种方法可以添加新的训练数据而无需重新训练整个模型?或者我是否必须加载所有以前的训练数据,添加新的数据并训练一个全新的模型?

回答

2

您不能将数据添加到SVM,并获得与将其添加到原始训练集相同的结果。您既可以使用以前解决方案(应该更快)开始的扩展训练集进行再培训,也可以只使用新数据进行训练,并且与以前的解决方案完全不同。

只有很少的模型可以做你想在这里实现的内容 - 比如Ridge回归或线性判别分析(及其核心 - 岭内回归或Kernel Fischer判别,或“极端” - 对象 - ELM或EEM),它们具有能够“即时”添加新训练数据的特性。

+0

您提到的模型可以作为优秀的二进制文本分类器吗?它们与SVC的准确性相媲美吗?谢谢! – dataSci

+0

它们都可以作为二元分类器,在某些问题上它们会比svm更强大。 Nlp是非常具体的领域(非常内部doverse)sp你必须检查自己。还幼稚贝叶斯哈这个属性 – lejlot

+0

太好了,谢谢! – dataSci