1
A
回答
3
这样做将有知标签的表最简单的方法。遍历帖子中的每个单词,如果该单词在标签表中,则将其添加到列表中。为了使这一点稍微有效一些,可以将标记存储在显示和截屏版本中(例如,算法和算法)。然后将帖子中的词干词与词干标签名称进行比较。请参阅Porter的词干算法,以获得简单的方法(用于英语单词)。
更有效的解决方案是使用类似TF-IDF和相关向量与每个标签。为新帖子创建一个矢量,并使用余弦相似度将其与每个标签矢量进行比较。无论哪个标签超过某个阈值,都会添加到帖子中。我从来没有用它来进行自动标记,但根据我的经验,这是处理非垃圾数据时非常有效的匹配工具。 (即,人们并不试图欺骗或欺骗系统)。
这两种方法都假设你已经有了某种标签字典来构建起来。您可以通过查看帖子中经常使用哪些不常见的单词(需要频率表)来猜测标签名称。
1
0
有很多方法可以解决这个问题。正如konforce所暗示的,简单的关键字匹配或TF-IDF是可行的选择。其他包括:
- 使用雅虎的term extraction webservice从文本中提取重要条款。
- 使用Google Prediction API。在已标记帖子的语料库上进行培训,然后要求它预测新帖子的标签。
相关问题
- 1. 在论坛中自动发帖
- 2. BBS帖子每天
- 3. 新帖子/论坛上的帖子
- 4. 在mysql中存储论坛帖子
- 5. 简单一点:“帖子”是以论坛为准?是要聊天
- 6. 在论坛上计算帖子数量
- 7. 最新的论坛帖子或回复,在同一查询
- 8. 拉最新论坛WordPress内的帖子
- 9. 将论坛帖子标记为已读?
- 10. Web刮每个论坛帖子(Python,Beautifulsoup)
- 11. 论坛帖子的贝叶斯过滤
- 12. 如何在fuelphp论坛发帖或发帖?
- 13. 是否可以发表评论到Facebook上的任何帖子?
- 14. 自定义PHP论坛 - 显示新/未读帖子
- 15. SQLite是否适合论坛?
- 16. 是否有MSDN论坛API?
- 17. Drupal 7:以编程方式创建论坛帖子
- 18. 为什么论坛在数据库中存储帖子?
- 19. 在Drupal论坛中删除帖子会扰乱编号
- 20. 论坛帖子表应该使用MyISAM还是InnoDB
- 21. 是否可以将vBulletin论坛从3.5升级到4.0版本?
- 22. 恶意javascript在论坛发帖
- 23. Facebook群发帖子的自动评论
- 24. 如何在Opencart论坛添加新帖子?
- 25. 如何在PHPBB论坛添加多语言帖子
- 26. 无法删除论坛中的帖子。 (CakePHP)
- 27. 从xpath的论坛帖子中排除blockquote
- 28. 如何在论坛帖子上方显示bbpress超级粘滞或粘滞帖子?
- 29. 查询获得论坛帖子/回复 - 只显示最新的帖子
- 30. 针对子论坛内的子论坛的PHP树遍历
是的,这是可能的,如果你写代码来做到这一点。 – Matthew 2011-03-22 06:06:22
我应该使用什么样的算法? – 2011-03-22 06:17:57
@konforce恭喜,这可能是我见过的最没有帮助的评论。 – 2011-03-23 01:03:20