2011-03-22 74 views
1

如果我有一个使用标签对帖子进行分类的论坛,是否可以在帖子创建后根据内容和标题自动添加标签?是否可以在论坛或BBS中自动分类帖子?

非常感谢您

+0

是的,这是可能的,如果你写代码来做到这一点。 – Matthew 2011-03-22 06:06:22

+0

我应该使用什么样的算法? – 2011-03-22 06:17:57

+0

@konforce恭喜,这可能是我见过的最没有帮助的评论。 – 2011-03-23 01:03:20

回答

3

这样做将有知标签的表最简单的方法。遍历帖子中的每个单词,如果该单词在标签表中,则将其添加到列表中。为了使这一点稍微有效一些,可以将标记存储在显示和截屏版本中(例如,算法和算法)。然后将帖子中的词干词与词干标签名称进行比较。请参阅Porter的词干算法,以获得简单的方法(用于英语单词)。

更有效的解决方案是使用类似TF-IDF和相关向量与每个标签。为新帖子创建一个矢量,并使用余弦相似度将其与每个标签矢量进行比较。无论哪个标签超过某个阈值,都会添加到帖子中。我从来没有用它来进行自动标记,但根据我的经验,这是处理非垃圾数据时非常有效的匹配工具。 (即,人们并不试图欺骗或欺骗系统)。

这两种方法都假设你已经有了某种标签字典来构建起来。您可以通过查看帖子中经常使用哪些不常见的单词(需要频率表)来猜测标签名称。

0

有很多方法可以解决这个问题。正如konforce所暗示的,简单的关键字匹配或TF-IDF是可行的选择。其他包括:

  • 使用雅虎的term extraction webservice从文本中提取重要条款。
  • 使用Google Prediction API。在已标记帖子的语料库上进行培训,然后要求它预测新帖子的标签。