我正在写分析电子邮件应用程序,它会为我节省大量的时间,如果我可以使用Python库,将解析电子邮件文本分解成一个名为组件,如<salutation><body><signature><reply text>
等如何解析电子邮件文本,如<salutation><body><signature><reply text>等?
例如,下面的文字“Hi Dave,\nLets meet up this Tuesday\nCheers, Tom\n\nOn Sunday, 15 May 2011 at 5:02 PM, Dave Trindall wrote: Hey Tom,\nHow about we get together ...
”将被作为
Salutation: "Hi Dave,\n"
Body: "Lets meet up this Tuesday\n"
Signature: "Cheers, Tom\n\n"
Reply Text: "On Sunday, 15 May 2011 at 5:02 PM, Dave Trindal wrote: ..."
我知道有这类问题,做很好的近似,将有助于没有完美的解决方案,但即使是库解析。我在哪里可以找到一个?
是标准mbox格式的电子邮件吗? http://docs.python.org/library/mailbox.html – tMC 2011-05-17 01:13:37
号目前他们在一个MySQL表的文本字段,但是格式化成MBOX格式之前,如果需要的话就不会了解析将是一个非常随意的一步? – Trindaz 2011-05-17 01:26:48