我有一个由数百万个示例组成的数据集,其中每个示例都包含128个以名称分类的连续值特征。我试图找到一个强大的数据库/索引来用作高维数据的KNN分类器。我试过Weka's IBk classifier,但它扼杀了这么多的数据,即使这样它也必须加载到内存中。 Lucene,特别是通过PyLucene接口,会是一个可能的选择吗?使用PyLucene作为K-NN分类器
我发现Lire,它似乎以类似的方式使用Lucene,但在审查代码后,我不确定它们是如何拉断它,或者如果它是我试图的相同的东西做。
我意识到Lucene是作为文本索引工具而设计的,而不是作为通用分类器,但可以以这种方式使用吗?
要处理“数以百万计的例子”,你应该采取看看apache mahout - 分布式机器学习框架 - 它似乎有kNN:https://issues.apache.org/jira/browse/MAHOUT-115。 – Skarab 2011-04-06 21:28:04
我找不到Mahout的KNN的任何文档,除了在Taste组件中对其进行简要引用外,它明确指出它仅支持布尔特性。 Mahout不能用作通用KNN。 – Cerin 2011-04-07 00:03:07