1
是否有最佳做法,算法或软件(需要许可证的开放源码...)可以从文本正文中找到信息?我指的是:过滤大量文本信息
- 找到一个文本的所有电子邮件地址
- 找到所有提及的城市
- 找到所有提及的状态
- 找到的所有URL
- 找到所有提到的电话号码
- 找到所有提及邮编 的......与添加更多的功能...
我听说RapidMiner应该能够像这样进行文本挖掘,但AGPL并不是我的目的的可接受许可证。
有没有什么'标准'做这种分析?
是否有最佳做法,算法或软件(需要许可证的开放源码...)可以从文本正文中找到信息?我指的是:过滤大量文本信息
我听说RapidMiner应该能够像这样进行文本挖掘,但AGPL并不是我的目的的可接受许可证。
有没有什么'标准'做这种分析?
阅读关于Named Entity Recognition。您可以尝试Apache OpenNLP或Apache UIMA,这两者都具有Apache许可证。
对于这样的实体类型,您可以使用基于规则的NER工具,如gexp。
好的术语“命名实体识别”是我错过的关键字!我读了两本关于数据挖掘的书,并没有遇到这种情况。谢谢! – CharlesS 2011-06-11 08:05:21