2011-11-02 56 views
1

我目前正在研究需要数据库分类网站(例如cnn.com =新闻)的项目。我们只需要广泛的分类 - 我们不需要每个单独分类的URL。我们正在和这些数据库的通常供应商进行交流,但是我们收回的大多数报价都很昂贵,而且往往会带来烦人的需求 - 比如不得不使用他们的SDK来查询数据库。朴素贝叶斯分类器在Mahout中的适用性,以分类网站

与此同时,我也一直在探索自己建立这样一个数据库的可能性。我意识到这不是一个5分钟的工作,所以我正在做大量的研究。

从阅读关于这个主题的各种论文看来,似乎朴素贝叶斯分类器通常是这样做的标准方法。然而,许多论文都提出了改进其网络分类准确性的增强措施 - 通常通过使用其他上下文信息,例如超链接,标题标签,多词短语,URL,词频等。

我一直在用Mahout的Naive Bayes分类器对20个新闻组测试数据集进行试验,我可以看到它适用于网站分类,但我担心它的准确性。

是否有人知道扩展Mahout中的贝叶斯分类器以考虑其他属性的可行性?任何指针从哪里开始将不胜感激。

或者,如果我吠叫完全错误的树,请让我知道!

回答

0

您可以根据自己的喜好控制输入。最后,输入只是一个特征向量。特征向量的特征可以是单词或双格 - 但它们也可以是任何你想要的。所以,是的,您可以根据需要修改输入来注入新功能。

如何最好地编织这些特征完全是另一个话题 - 没有最好的方法将它们转换为数字。 Mahout in Action涵盖了这个相当好的FWIW。

+0

谢谢,我看到之前提到的那本书,我可以试试看。 如果我正确理解你的回答,你说我可以通过为它们创建一些编码来操纵输入来处理额外的功能。例如超链接主体可以被处理为a-body- [编码字符串]。 我还不清楚的是,我会如何告诉分类器对某些输入特征加以不同的权重。 任何进一步的指导,将不胜感激。 –

+0

最后它是一个向量中的数字。是的,这是利用标记器到达那里的一种方法。询问[email protected],这是一个很好的问题,原作者可以告诉你更多。 –

相关问题