非结构化文本结构化数据

我正在寻找有关以类似于Google日历快速添加按钮的方式构建非结构化文本的参考资料（教程，书籍，学术文献）。非结构化文本结构化数据

我理解这可能会下的NLP类，但我只在从像“李维斯牛仔裤尺寸32 A0b293”

到会的过程很感兴趣：品牌：李维斯，尺寸：32，等级：牛仔裤，代码：A0b293

我想这应该是词法分析和机器学习技术的一些组合。

我比较语言无关，但如果推宁愿蟒蛇，Matlab或C++引用

感谢

2010-07-01 zenna

您的域名受到多大限制？ Google日历快速添加只会分析日期和时间（并不总是那么好）。 Google地图搜索框仅处理地点。这样做的难度取决于你的域名的范围有多狭窄。（一个产品目录？） – tcarobruce 2010-07-02 00:49:47

限制在处理例如 – zenna 2010-07-02 10:14:03

您需要提供有关文本的源的详细信息（网页？用户输入？）域名（它只是衣服？），潜在的格式和词汇...

假设最坏的情况下，你需要开始学习NLP。一本非常好的免费书籍是NLTK的文档：http://www.nltk.org/book。这也是对Python的一个很好的介绍，SW是免费的（适用于各种用途）。被警告：NLP很难。它并不总是有效。有时候这并不好玩。最先进的技术不在你想象的地方。

假设一个更好的场景（您的文本是半结构化的） - 一个很好的免费工具是pyparsing。有一本书，大量的例子，结果代码非常有吸引力。

我希望这可以帮助...

2010-07-02 01:16:58

可能看看Toby Segaran的“集体智慧”。我似乎记得在一章中讨论这个基础知识。

2010-07-02 14:27:45 leancz

这个例子集合智能的最好书籍之一。 – jvc 2011-06-30 12:47:39

一些研发后，我发现，这个问题通常被称为信息提取，并已积累了一些文件，并将它们存储在Mendeley集合

另外，作为大魏斯指出NLTK对于python来说是一个很好的起点，并且本书的章节，具体看信息抽取

2010-07-04 23:09:28 zenna

这个链接似乎已经死了 – 2013-02-11 15:46:51

如果你只是在像你引用的例子那样工作，你最好用一些m基于规则的，基于规则的，100％可预测，涵盖90％可能遇到产品的情况。

您可以枚举所有可能的品牌和类别的列表，并检测哪些是输入字符串中的哪些通常很少在这两个列表的交集处。

另外两个可以使用正则表达式轻松检测和提取。（1-3位数字始终是大小等）

您的问题域看起来不够大，不足以承担更重的任务，如统计学习。

2010-07-05 04:34:17

同意，我怀疑谷歌日历使用基于规则的系统（认为正则表达式）做解析。从不确定的文本中提取信息时，机器学习更有用。但是，如果你的域名是相当知名的，并且输入字符串是有限的，那么你可以逃脱规则。 – Thien 2010-07-08 19:22:32

回答