2010-07-01 145 views
8

我正在寻找有关以类似于Google日历快速添加按钮的方式构建非结构化文本的参考资料(教程,书籍,学术文献)。非结构化文本结构化数据

我理解这可能会下的NLP类,但我只在从像“李维斯牛仔裤尺寸32 A0b293”

到会的过程很感兴趣:品牌:李维斯,尺寸:32,等级:牛仔裤,代码:A0b293

我想这应该是词法分析和机器学习技术的一些组合。

我比较语言无关,但如果推宁愿蟒蛇,Matlab或C++引用

感谢

+0

您的域名受到多大限制? Google日历快速添加只会分析日期和时间(并不总是那么好)。 Google地图搜索框仅处理地点。这样做的难度取决于你的域名的范围有多狭窄。(一个产品目录?) – tcarobruce 2010-07-02 00:49:47

+0

限制在处理例如 – zenna 2010-07-02 10:14:03

回答

7

您需要提供有关文本的源的详细信息(网页?用户输入?)域名(它只是衣服?),潜在的格式和词汇...

假设最坏的情况下,你需要开始学习NLP。一本非常好的免费书籍是NLTK的文档:http://www.nltk.org/book。这也是对Python的一个很好的介绍,SW是免费的(适用于各种用途)。被警告:NLP很难。它并不总是有效。有时候这并不好玩。最先进的技术不在你想象的地方。

假设一个更好的场景(您的文本是半结构化的) - 一个很好的免费工具是pyparsing。有一本书,大量的例子,结果代码非常有吸引力。

我希望这可以帮助...

1

可能看看Toby Segaran的“集体智慧”。我似乎记得在一章中讨论这个基础知识。

+0

这个例子集合智能的最好书籍之一。 – jvc 2011-06-30 12:47:39

0

如果你只是在像你引用的例子那样工作,你最好用一些m基于规则的,基于规则的,100%可预测,涵盖90%可能遇到产品的情况。

您可以枚举所有可能的品牌和类别的列表,并检测哪些是输入字符串中的哪些通常很少在这两个列表的交集处。

另外两个可以使用正则表达式轻松检测和提取。 (1-3位数字始终是大小等)

您的问题域看起来不够大,不足以承担更重的任务,如统计学习。

+0

同意,我怀疑谷歌日历使用基于规则的系统(认为正则表达式)做解析。从不确定的文本中提取信息时,机器学习更有用。但是,如果你的域名是相当知名的,并且输入字符串是有限的,那么你可以逃脱规则。 – Thien 2010-07-08 19:22:32