2012-08-15 60 views
1

我有一套文字报纸广告,我想提取信息,如正在销售的商品及其价格。这些广告不遵循任何结构化格式。我可以访问成千上万的这些广告。从自然语言文字中提取数据

我应该从哪个项目开始?有一些图书馆可以帮忙吗?

感谢

+0

这取决于很多“项目”。价格将很容易捕获正则表达式或其他用户已回答的规则。对于项目,这取决于结构化(或不是)项目的结构。你能举几个例子吗? – Blacksad 2012-08-16 14:36:54

+0

没有结构化,假设我在看自行车广告,我想提取自行车的名称。所以这个广告就像是“嗨,终于卖掉我的旧自行车,它是一款GT Aggressor 3.0,价格为300美元。”现在,我倾向于采用基于规则的方法,因此我会对流行的自行车名称进行编码并搜索与它们接近的字符串。但任何更复杂的东西都会很高兴听到! – countunique 2012-08-16 16:00:36

回答

0

根据您的编码经验,并根据文本文件如何被格式化,一个办法是将它们导入到Excel和使用文本分列功能以某种方式拆分广告的领域成单独的细胞。

例如,如果你有名称:黑车价格:$ 1000.00包装然后Excel可以使用文本分列函数集拆就结肠容易分割。

也许更详细地解释如何格式化文本文件。

3

最简单的方法似乎使用规则字典。例如,您可以使用简单的正则表达式解析价格,并使用大型项目​​字典进行检索。

0

如果您不熟悉此概念,可以试着看下面videosIBM Big Insight Text Analytics。他们的项目正在提取有关IBM股票的价格信息,与您的项目类似。 他们从这个项目开始,并与一系列视频几乎完成它。 一路走来,他们教了更多关于正则表达式的知识。

请注意,这些视频可能会帮助您了解此类项目的工作流程。如果你精通任何具有良好正则表达式支持的编程语言,perl,ruby,python,groovy ......你可以轻松地重复他们的实验。

另外我从来没有使用过这个产品,但是看了所有这些视频,希望能够更多地了解文本挖掘。 我再说一遍,你可以在没有这种产品的情况下做所有这些,但当然不那么容易。