2013-03-20 65 views
0
找到的颜色,单元尺寸很好的策略

假设我们有一个像这样的字符串:什么是使用OpenNLP

4 pallets of books with a weight of 437 kg. The pallets measure 80 x 120 x 120 cm each and are protected with red shrinkwrap. 

什么是提取这样的(尤其是颜色,重量和大小)信息的最佳途径使用OpenNLP ...思考一些自定义的语料库和自己的培训..但我不知道哪种方法是最好的开始。

<pallet amount>4</pallet amount> pallets of <product>books</product> with a weight of <weight>437</weight> <weightUnit>kg</weightUnit>. The pallets measure <height>80</height> x <width> 120 </width> x <length>120 </length> <measurementUnit>cm</measurementUnit> each and are protected with <color>red</color> shrinkwrap. 

回答

1

你只列出了一种方法(使用OpenNLP进行定制培训),所以我不知道你认为你的其他选择是什么。这种方法几乎肯定是你最好的方法,除非你正在搜索的短语是(a)常规和(b)其他短语不同,在这种情况下,你可以使用正则表达式。

有各种各样的包可以让你训练和标记:OpenNLP是一个,斯坦福大学NE是另一个。他们使用不同的训练方法,这会影响你的结果。但是一旦你有了你的训练数据,你就可以用不同的引擎进行试验,看看它是如何做到的。

+0

你说得对。在此期间,我评估了几个选项。包括你的名字。我现在针对不同的功能使用不同的方法。为了实现这一点,我编写了一个抽象层,使得访问不同的技术变得更加容易。 – Jabb 2013-11-16 07:29:11