我们有一个客户正在寻找一种方法来导入和分类大量的文本数据。这些数据必须进行分类,并且有人建议最简单的方法是查看描述字段并尝试匹配那里的单词以查看是否可以为该特定记录导出类别。同义词样式文本查找和解析
有人认为最好的方法是将词语与每个类别的关键词匹配,如果不成功,则使用某种同义词查找是否可以使用。因此,例如,如果某个特定记录中包含“汽车”一词,则同义词查找可以将该单词匹配到与“车辆”类别相对应的单词“汽车”。
有没有人知道一个Web服务或其他方式查找字典来查找特定单词的同义词?项目经理建议为此购买Google Enterprise Search许可证,但从我所能做出的这些并不能满足这些人的要求。
任何其他获得客户他们正在寻找的建议将受到感谢。
谢谢!我会研究Wordnet。
您是否知道任何其他类型的文本分类软件产品。我看到有一些关于使用Bayasian算法的讨论,但我看不到任何真实世界的例子。