2012-07-21 75 views
2

我有一个应用程序可以从传入消息中提取信息。这些消息都包含相同的信息,但根据发送它们的源,它们具有不同的形式。我应该研究哪些机器学习领域,以自动从消息中提取某些信息

示例:从源甲

消息:从源B

A: You spent $50.00 at Macy's on 2/20/12 

消息:

Purchase, $50.00, Macy's, 2Feb2012, Balance $5000.00 

从单个源每个消息具有相同的形式,但。所以目前,我通过编写一组正则表达式来首先确定哪条消息正在尝试解码(即,它来自哪个源,所以我知道消息的形式),然后提取消息中的必要信息(在上面的示例中,我想知道交易金额,交易发生的商店以及日期)。如果我发现消息的新来源,或者消息来源更改消息的格式(不会经常发生但可能发生),则需要手动为该消息编写正则表达式。不过,我确定我可以使用某种机器学习技术来实现这一功能。我对机器学习知之甚少,我不知道该从哪里开始寻找适用于我的问题的技术。我希望有人能够指引我从哪里开始阅读的正确方向。

回答

3

为了检测和标记金额,日期,人名和类似信息,您可以使用名为实体识别技术。 Stanford Named Entity Recognizer附带预培训,随时可用的模型。 您还可以使用迄今为止生成的任何标记数据来学习应用程序的自定义模型。用于此目的的标准技术是条件随机场或序列感知器。有许多工具包实现这些模型,包括:

  • Wapiti - 一个简单快速的区分序列标记工具包。
  • Sequor - 基于Collins(2002)感知器的序列标签。
+0

谢谢,我来看看,如果我没有得到任何答案,请将此标记为已接受。 – RichardB 2012-07-24 12:47:01

+0

斯坦福工具看起来很有用。我需要一些时间来消化那里的东西,但是这确实指出了我的正确方向。谢谢! – RichardB 2012-08-01 12:43:58

相关问题