当你通过其RSS channel, 其烦不进行过滤的信息看为特定Wikipedia article消息,因为大多数的编辑是垃圾邮件, 破坏,小编辑等不如过滤维基百科的方式编辑
我方法是创建过滤器。我决定删除所有不包含贡献者昵称但仅由贡献者的IP地址标识的编辑,因为大部分此类编辑都是垃圾邮件(虽然有一些很好的贡献)。这与正则表达式很容易做到。 我还删除了包含vulgarisms和其他典型垃圾邮件关键字的编辑。
你知道一些更好的方法,利用正则表达式,人工智能,文本处理技术等算法或启发式?这种方法应该能够检测到坏帖子(小编辑或破坏行为),并应该能够逐步了解什么是好/坏贡献并更新其数据库。
谢谢
谢谢你的超级回答。 – xralf 2012-02-16 13:56:27