我有一个pretokenized句子的文件,其中一些语句是命令式的(隐式主语,动词第一等)。没有任何部分标记,斯坦福分析器错误地将第一个单词(动词)标记为大多数(但不是全部)这些命令性句子的主语中的名词。通过部分标记(我相当肯定我的工作正确 - 我编辑并重新编译了LexicalizedParser,以确保相关的命令行选项得到识别,并最终在lexicalizedParser.java中的正确位置)对这些句子的第一个单词(使用_VB),其行为否与如果标签不存在不同。强制斯坦福解析器接受未通过解析器词典许可的POS标签
按照lexparser package summary(看的方式约60%下降的页面“上有解释一些限制......”),这是因为把POS标签VB的一些这话实在是太怪异让解析器相信。
如何让解析器读取并遵循所有标记(最好来自命令行)?更新词典?
使用EnglishFactored.ser.gz而不是EnglishPCFG.ser.gz减轻了这个问题,但它并没有消失。
有人在几年前向stanford [parser-user]邮件列表发布了a similar question,但我似乎无法找到本文的答案。
编辑: 使用解析器的另一个版本(从2010年8月20日),这个问题似乎没有/////。
我的数据中包含下列词语(出现在基本形式中,如下所示,如“数字1至10的行数”或“删除”foo。“后面的”bar“的所有实例)解析器中最有问题的命令式动词: '显示,打印,删除,排序,提取,拆分,编号,计数,转换,插入,对齐,中心,替换,更改,反向,加入, strip' 除了一些值得注意的例外(编号,删除,打印)外,这个列表中的单词几乎不会被接受为我的数据中的动词。 – iltrn 2011-06-10 17:00:10