我有一个与众不同的亵渎相关问题。促销代码的亵渎检查
现在我们已经习惯于处理用户生成内容的亵渎过滤 - 任何方法都不完善,但像CleanSpeak和WebPurify这样的产品可以做得很好。
我们现在的问题是,我们一直在构建引擎来运行基于促销代码的竞赛,这将在国际上使用。我们可以检查这些代码是否在拉丁美洲西班牙语或马来语中(至少在第一个例子中)都不是亵渎,以确保我们不会发送相当于FUCK23
或PEN15
或其他东西的代码。
我们尝试了谷歌搜索并询问我们知道的人,但我们无法找到一个容易的方法来获取es-419
或ms
亵渎目录来筛选代码。由于每个语言环境都有数百万个代码,因此我们宁愿进行离线检查,而不是为每个代码创建API(这在带宽和使用费用方面都很昂贵)。
我知道这是一个很远的镜头,但有谁知道不同语言的亵渎名单的好来源?
#disclaim
:我们知道,没有亵渎的过滤是完美的,它实质上是用户生成的内容徒劳无益,我们已经阅读SO #273516: How do you implement a good profanity filter? - 这不是我们要求的。
对你没有帮助,但让我想起了这个:http://thedailywtf.com/Articles/The-Automated-Curse-Generator.aspx – 2012-01-13 12:51:04
我以前没见过那个故事。那真是太棒了;感谢你提高我的午餐时间:o) – 2012-01-13 13:08:12
本给你的链接中的重要句子是:“我一直在想它,这太危险了,只有一个坏词过滤器,我们永远不会能够想出每一种可能的攻击性组合。“而已。根本没有办法过滤亵渎,尤其是当有人用某种特殊的方式写下来的时候。顺便说一句,我想分享同一篇文章,但本更快。 – 2012-01-13 13:34:54