0
我在社交媒体监控系统上工作。我们不会自己抓取网页,我们从Spinn3r等聚合器获取Feed。在大多数情况下,只有链接到色情网站的“博客”被过滤掉,但我们希望内部的内容能够在更快的时间内进行培训,而不是等待上游提供商进行更改。开箱即用垃圾邮件过滤?
我看着Spamassassin,如果我们正在处理电子邮件,它对我们的目的来说是理想的。是否有任何一个图书馆可以只读取一定数量的文本,并根据工作频率,链接数量,隐藏背景文本等内容为其提供质量得分?
理想情况下,我正在寻找Java中的某些东西,但如果没有任何东西,我可以使用客户端服务器或嵌入jruby或jython库。
我想我最终不得不自己建造它,但它总是值得一试。