斯坦福大学自然语言处理实施的令牌规范化？

我试图在运行Regexner注释器之前使标记正常化（可能需要合并它们）。斯坦福大学自然语言处理实施的令牌规范化？

在Stanford CoreNLP或斯坦福大学的NLP中是否已经实施了此项目？

如果不是，实施它的最佳方法是什么？在CoreNLP中编写自定义注释器？

2015-07-11 Gene M

你能否提供更多关于你正在寻找什么样的标准化的细节？确实有一个注释的注释器。 QuantifiableEntityNormalizer也可以在NER之后运行，并对日期，金钱价值，时间，百分比等数字量进行标准化。您还考虑过哪些其他情况？ – StanfordNLPHelp

道歉，如果我没有说清楚我想要做什么。我需要将术语转换为规范形式，例如“收入”，“净收入”，“每股收益”，“每股收益”等。换句话说，引入和执行词典的标准化。引理和Tokenizer注释器似乎对此太低级别。 –

好吧我认为这将需要一个自定义注释器。我现在陷入困境，但我可以稍后尝试编写一些代码来指导您朝这个方向发展！ – StanfordNLPHelp

标记归一化肯定有一些选项。使用包含所需选项的逗号分隔列表应用-options标志。

这更详细地描述此链接：

靠近底部有一个关于选项部分示出的可能性的列表。

有没有其他规范化你感兴趣的不在该列表上？

2015-07-11 05:21:24 StanfordNLPHelp

回答