2009-07-01 36 views
4

我们有一个客户正在寻找一种方法来导入和分类大量的文本数据。这些数据必须进行分类,并且有人建议最简单的方法是查看描述字段并尝试匹配那里的单词以查看是否可以为该特定记录导出类别。同义词样式文本查找和解析

有人认为最好的方法是将词语与每个类别的关键词匹配,如果不成功,则使用某种同义词查找是否可以使用。因此,例如,如果某个特定记录中包含“汽车”一词,则同义词查找可以将该单词匹配到与“车辆”类别相对应的单词“汽车”。

有没有人知道一个Web服务或其他方式查找字典来查找特定单词的同义词?项目经理建议为此购买Google Enterprise Search许可证,但从我所能做出的这些并不能满足这些人的要求。

任何其他获得客户他们正在寻找的建议将受到感谢。


谢谢!我会研究Wordnet。

您是否知道任何其他类型的文本分类软件产品。我看到有一些关于使用Bayasian算法的讨论,但我看不到任何真实世界的例子。

回答

6

首先想到的是Wordnet。 Wordnet是由人类生成的单词和相关单词数据库,包括同义词。 The Wikipedia Wordnet entry列出了Wordnet的几个接口。我相信其中一些是Web服务。 你也可以推出自己的。 Manning and Schutze's chapter 5 (free PDF)显示了执行此操作的方法。

话虽如此,你是否解决了正确的问题?你如何建立类别列表? 它是一个层次?标签云?请参阅Clay Shirky's Ontology is Overrated以了解分层类别的评论。我相信,如果你将你的分类建立在单词集合(例如朴素贝叶斯)而不是单个单词上,那么同义词就不那么重要了。

1

你应该看看使用WordNet。您可以访问他们的网站http://wordnet.princeton.edu/以获取更多信息,但有多种语言库可用于集成它们。

转到他们的在线工具,查看其在此处的使用情况:http://wordnetweb.princeton.edu/perl/webwn。如果你查找一个单词,然后点击每个定义旁边的“S”,就会得到一个与该定义相关的语义相关单词列表。

我也认为你应该检查出允许你执行“文档聚类”的软件。这里是一个例子:http://glaros.dtc.umn.edu/gkhome/cluto/cluto/overview。这应该有助于引导类别创建过程。

我认为这将帮助你走向你想要的东西很长的路!