假设我们有一个包含多个事物描述的列表。描述由逗号分隔的单词组成。让我们以下列表为例(每一行是一个单独的说明):解析不规则逗号分隔值的算法
white, leather, round
black, plastic, rectangular
wood, rectangular, brown
...
我们希望解析它们为以下结构:(颜色,材料,形状)
前两个的描述可以直接映射到我们的结构。但第三个不能。因为这些值的顺序不同:材质,形状,颜色。
所以真正的问题是:我们如何检测这些不规则的条目并解析它们?
我想我们不知何故必须检测每个词所描述的部分。但我甚至不知道在哪里以及如何开始。我也非常感谢任何提示,算法和论文(在相关算法上)。
编辑:对不起,忘了提及没有已知和固定的词汇。在不同的类别中可能会有相同的单词。 但是,我认为我错过的最重要的事情是:大多数条目都是正规的。所以我想我们可以用它来成长字典。
数据是如何生成的?这是你做的事吗?还是你从外部来源? – 2012-08-01 18:55:27
你对颜色,材质和形状有一个已知和固定的词汇吗?是否有重叠(例如,颜色=沙子和材质=沙子)? – 2012-08-01 18:57:11
查看编辑的答案@TedHopp – sorgenkind 2012-08-01 19:25:58