2015-07-11 55 views
0

我试图在运行Regexner注释器之前使标记正常化(可能需要合并它们)。斯坦福大学自然语言处理实施的令牌规范化?

在Stanford CoreNLP或斯坦福大学的NLP中是否已经实施了此项目?

如果不是,实施它的最佳方法是什么?在CoreNLP中编写自定义注释器?

+0

你能否提供更多关于你正在寻找什么样的标准化的细节?确实有一个注释的注释器。 QuantifiableEntityNormalizer也可以在NER之后运行,并对日期,金钱价值,时间,百分比等数字量进行标准化。您还考虑过哪些其他情况? – StanfordNLPHelp

+0

道歉,如果我没有说清楚我想要做什么。我需要将术语转换为规范形式,例如“收入”,“净收入”,“每股收益”,“每股收益”等。换句话说,引入和执行词典的标准化。引理和Tokenizer注释器似乎对此太低级别。 –

+0

好吧我认为这将需要一个自定义注释器。我现在陷入困境,但我可以稍后尝试编写一些代码来指导您朝这个方向发展! – StanfordNLPHelp

回答

0

标记归一化肯定有一些选项。使用包含所需选项的逗号分隔列表应用-options标志。

这更详细地描述此链接:

http://nlp.stanford.edu/software/tokenizer.shtml

靠近底部有一个关于选项部分示出的可能性的列表。

有没有其他规范化你感兴趣的不在该列表上?