2011-06-10 41 views
1

是否有最佳做法,算法或软件(需要许可证的开放源码...)可以从文本正文中找到信息?我指的是:过滤大量文本信息

  • 找到一个文本的所有电子邮件地址
  • 找到所有提及的城市
  • 找到所有提及的状态
  • 找到的所有URL
  • 找到所有提到的电话号码
  • 找到所有提及邮编 的......与添加更多的功能...

我听说RapidMiner应该能够像这样进行文本挖掘,但AGPL并不是我的目的的可接受许可证。

有没有什么'标准'做这种分析?

回答

1

阅读关于Named Entity Recognition。您可以尝试Apache OpenNLPApache UIMA,这两者都具有Apache许可证。

+0

好的术语“命名实体识别”是我错过的关键字!我读了两本关于数据挖掘的书,并没有遇到这种情况。谢谢! – CharlesS 2011-06-11 08:05:21

1

对于这样的实体类型,您可以使用基于规则的NER工具,如gexp