我有一个应用程序可以从传入消息中提取信息。这些消息都包含相同的信息,但根据发送它们的源,它们具有不同的形式。我应该研究哪些机器学习领域,以自动从消息中提取某些信息
示例:从源甲
消息:从源B
A: You spent $50.00 at Macy's on 2/20/12
消息:
Purchase, $50.00, Macy's, 2Feb2012, Balance $5000.00
从单个源每个消息具有相同的形式,但。所以目前,我通过编写一组正则表达式来首先确定哪条消息正在尝试解码(即,它来自哪个源,所以我知道消息的形式),然后提取消息中的必要信息(在上面的示例中,我想知道交易金额,交易发生的商店以及日期)。如果我发现消息的新来源,或者消息来源更改消息的格式(不会经常发生但可能发生),则需要手动为该消息编写正则表达式。不过,我确定我可以使用某种机器学习技术来实现这一功能。我对机器学习知之甚少,我不知道该从哪里开始寻找适用于我的问题的技术。我希望有人能够指引我从哪里开始阅读的正确方向。
谢谢,我来看看,如果我没有得到任何答案,请将此标记为已接受。 – RichardB 2012-07-24 12:47:01
斯坦福工具看起来很有用。我需要一些时间来消化那里的东西,但是这确实指出了我的正确方向。谢谢! – RichardB 2012-08-01 12:43:58