2017-09-06 27 views
0

我正在开发OpenNLP项目并遇到一些诸如特征生成等内容。 “功能”一词到底意味着什么?如果你可以用laymans术语解释它,那将是非常好的OpenNLP中的术语“特征”是什么意思?或者一般在NLP中。外行期限会很好

+0

弗洛里安是正确的,但对于NLP功能的处理往往是复杂一点。你可以从这里开始(https://cleartk.github。io/cleartk/docs/tutorial/feature_extraction.html),尽管我只通过它浏览。 – sascha

回答

1

我不使用OpenNLP,但机器学习术语中的一个特性是分类器/回归器/其他模型的输入。

如果要归类羯羊人是男性还是女性的特点可能是:

  1. 尺寸
  2. 基于
  3. 列表项
  4. 重量
  5. 头发长度

这四个特征可以让你对男人或女人进行分类。

关于更复杂的数据特征生成可能意味着您总结了一些特征中的大量数据。 例如100个值的标准偏差。或最大或....

0

在机器学习功能意味着您的训练数据属性。或者你可以在训练数据集中说出一个列名。

假设这是你的训练数据集

Name Sex Age 
A  M  20 
B  F  30 
C  M  41 
D  F  51 
.  .  . 
.  .  . 
.  .  . 
.  .  . 

当年这里NameSexAge的特点。

0

其他答案给出了一个功能的一般概念。对于OpenNLP和大多数其他最大熵分类器,一个特征实际上是一个词是否出现在类中的指示函数,I(C,x)其中c是结果类,x是该词,如果学期与班级一起出现(详见presentation by Chris Manning以获得更好的描述)。 ]

在openNLP(和其他maxent软件包)中,很容易将该术语(实际上,我们应该将它称为谓词而非术语,通常是一个词)与该特征(函数)混淆。然而,如果你看看the simple football example that comes with OpenNLP(在美国,我们称它为足球),你会发现它不需要是一个单字;它可能像家庭=阿森纳一样。你昨晚可能会有[w-1:last,w:night]代表bigram。

您可能想知道的其他一些术语。一个事件是一个数据点,其中包含所有关于该数据点的谓词(以及训练结果)。上下文是用来训练/评估结果的一组谓词。所以,Predicates是你正在寻找的“条款”。

以下是openNLP football data set的一个示例。

home=man_united Beckham=false Scholes=true Neville=true Henry=true Kanu=true Parlour=false Ferguson=confident Wengler=tense arsenal_lost_previous man_united_won_previous arsenal 
home=arsenal Beckham=false Scholes=true Neville=true Henry=true Kanu=true Parlour=false Ferguson=confident Wengler=tense arsenal_lost_previous man_united_won_previous arsenal 
各方面的

(例如,家庭= man_united)是谓词(大多数人用这个词功能,但该功能是家庭= man_united和结果 - 阿森纳)。每条线都是一个事件。

我希望它有助于..

相关问题