回答
保罗格雷厄姆是真正介绍了在2002年8月用他的原始文章A Plan for Spam在网上广泛使用贝叶斯垃圾邮件过滤这个想法的人。然后,his follow-up一年左右后,很快就引入了许多问题,出现了。这些在这个话题上仍然非常棒。
在第二篇文章中,格雷厄姆提到使用CRM114,它的工作方式比空格分隔的单词要宽得多。 CRM114很酷,但没有太多垃圾邮件过滤系统的实施帮助。
有开源的powertools用于贝叶斯垃圾邮件过滤,如Death2Spam和SpamProbe。
我发现没有什么作品像通过Gmail帐户过滤邮件。快乐狩猎。
我认为为了打败你提到的那种垃圾邮件攻击,重要的不是学习方法,而是你训练的功能。我使用Fidelis Assis的OSBF-Lua这是一个非常成功的过滤器:它不断赢得垃圾邮件过滤器竞赛。它采用贝叶斯学习,但我认为其成功的真正原因是三个原则:
它训练不是单一的话,但对稀疏二元语法:一对由0〜4“分隔的单词不关怀“的话。垃圾邮件发送者必须将他们的消息放在的某处,而稀疏的bigrams非常擅长将它们排除在外。它甚至发现附带垃圾邮件!
它对邮件标题做了额外的培训,因为这些对于垃圾邮件制造者来说很难伪装。例如:源自您的网络且永远不会通过离网中继主机的消息可能不是垃圾邮件。
如果垃圾邮件过滤器对其分类的置信度较低,则会请求来自人的输入。 (实际上,它增加了一个标题字段,表示“请在此消息上训练我”;人可以忽略该请求)。这意味着,随着垃圾邮件发送者逐渐发展新技术,您的过滤器将发展为匹配。
这种技术的组合非常有效。
免责声明:我与菲德利斯上重构了一些软件,使其可以用于其他用途,如普通邮件分成组或可能一个整天来检测在博客评论和其他地方的垃圾邮件的工作。
你是对的,朴素贝叶斯过滤器易受Bayesian poisoning的影响。
我使用Popfile不仅可以分类垃圾邮件,还可以将我的电子邮件分类,我发现它非常有效。它使用朴素贝叶斯过滤器。
- 1. 朴素贝叶斯垃圾邮件过滤器问题
- 2. 用于Python的贝叶斯垃圾邮件过滤库
- 3. 朴素贝叶斯分类(垃圾邮件过滤) - 哪种计算是正确的?
- 4. Matlab朴素贝叶斯
- 5. 朴素贝叶斯回归
- 6. 什么是最好的开源Java贝叶斯垃圾邮件过滤器库?
- 7. 实现高斯朴素贝叶斯
- 8. Python:朴素贝叶斯电影评论
- 9. 属性选择+ WEKA +朴素贝叶斯
- 10. 样品Accord.NET朴素贝叶斯
- 11. [Python的] sklearn朴素贝叶斯
- 12. 朴素贝叶斯分类器
- 13. Python - SelectFromModel与朴素贝叶斯
- 14. 朴素贝叶斯与Apache星火MLlib
- 15. 多个朴素贝叶斯分类器
- 16. 朴素贝叶斯的问题
- 17. 朴素贝叶斯分类与R - 奇怪的结果
- 18. NLTK朴素贝叶斯分类器奇怪的结果
- 19. 为什么在分类垃圾邮件时贝叶斯过滤比神经网络更好?
- 20. 从R中朴素贝叶斯模型打印条件概率
- 21. MSN如何过滤垃圾邮件?
- 22. 针对ASP.NET的垃圾邮件过滤
- 23. 垃圾邮件过滤逻辑
- 24. C#垃圾邮件过滤建议
- 25. reCAPTCHA或反垃圾邮件过滤器?
- 26. ASP.NET垃圾邮件过滤器?
- 27. 开箱即用垃圾邮件过滤?
- 28. 论坛帖子的贝叶斯过滤
- 29. 什么是垃圾邮件:撰写垃圾邮件过滤器的一点
- 30. 计算B和| V |在朴素贝叶斯文本分类
谷歌的优势在于,他们可以在收到邮件后将电子邮件从收件箱中取出。他们可以看到大量数据,当垃圾邮件发送者触发Google的过滤器时,他们发送的以前的电子邮件也可以被删除。在小型电子邮件服务器上这样做很难。 – jcoffland 2016-03-16 02:11:42