2017-06-01 55 views
0

我正在使用我正在为自己的用例进行培训的自定义模型。我的用例是根据它是否是地址变更请求来分类电子邮件。如果地址变更请求可以从一个句子中理解,它可以正常工作,没有问题。但是,如果地址变更请求需要从多个句子中理解,则不起作用。 给予几个例子如下: - 例1: - 这是工作一)培训文件: -Apache Open NLP中的自定义模型

Guys I wish to <START:contactupdate> change my address <END> . 

我的新地址是68号赛特,考文垂,西米德兰兹郡,CV1 4ED。 完成后请确认。 谢谢。

b)使用以下语句测试模型: - String input =“男士我希望更改我的地址。我的新地址是68 Dorset Road,Coventry,West Midlands,CV1 4ED.Please confirm your done。谢谢。”; //工作

  1. 示例2: - 这不起作用。 可以说地址变更请求只能从多行中推断出来。

    “我的旧地址不再有效,需要更新它。”

如何在此场景中训练我的模型?如何为上述指定自定义标签?

您能否请帮助。我被卡住了。 很多谢谢

回答

0

你是什么意思与不工作?你想要检索的东西没有被检索?或者当标签分散在多行时,培训会崩溃?

通常,您在此过程中训练的(默认为MaxEnt)模型会尝试检测您正在训练的对象的常用特征。通常情况下,这些名称是人员,组织,地点等实体。并且在许多语言中,这些都包含典型的特征(例如分别为前缀Mr./M.,后缀,语素“街道”)。这可以通过模型拾取,并应用于新数据,从而识别您要识别的任何一个。然而,你正在尝试做的事情是非常先进的NLP。由于词组越长,可能的变化越大,挑选共性变得更加困难。我想说,对于你的用例,人们通常使用解析(或者选区或者依赖解析)或者其他更复杂的工具,而不仅仅是这种相对平坦的模式识别。所以你可能想要看看这些。我不知道您有多少数据可供您使用,从中您可以推断出不同的方式来表达改变客户数据库中地址的愿望。如果合理(即不只是几个句子),您可能需要手动注释它们,解析语料库,在分析树/图上使用机器学习来获取感兴趣的句子,并以这种方式进行处理。如前所述,在我看来,相当先进的NLP,而不是一个开箱即用的解决方案。