2010-10-20 110 views
0

我的任务是为Rails应用程序实施基于黑名单的亵渎语言过滤。我知道基于黑名单的过滤存在很多问题,但是这个决定高于我的头脑。挑战:我正在寻找一个很好的西班牙语亵渎名单来进入过滤器。对于英语,我们正在建立一个列表,其中详尽列出了共轭/复数/等,每行文本文件一个。在西班牙的公共领域是否存在这样的清单?西班牙语亵渎黑名单

回答

1

找到好的清单并让它们调整很困难。这听起来像是你正在做大量可以自动化的手动工作(即共轭)。我为我公司的profanity filter named CleanSpeak做了很多这样的工作,其中大部分工作都可以使用词汇的POS标识符自动进行自动处理,并且在很多情况下,您可以手动进行POS标记或找到POS源。

您还需要考虑清单的质量以及过滤器的维护和管理。许多人认为这很简单,然后意识到防止误报非常困难。所有这一切说,我们发现大多数其他语言的列表很难通过在线方式获得,最终付出了许多建造或从其他公司购买的许多清单。我们在网上找到的名单最终在我们翻译后几乎毫无价值。我们也试图拿出黑名单并进行翻译,这是完全失败的,因为大多数英语亵渎语言在其他语言中没有等同物。我会建议您购买清单或与当地大学的学生合作生成清单。我们的许多客户发现这种方法相对较好,而且价格也不贵。

我还建议你看看那里的一些资源,它们定义了管理用户生成内容的最佳方法。这些将有助于指导您完成任何构建与购买决策。

+1

POS =销售点? – Zabba 2010-10-21 16:36:23

+0

POS =言语的一部分。感谢Brian的反馈,这里有很多美食。 – Alterscape 2010-10-21 23:15:35