2013-07-01 41 views
1

我有一个特殊的问题,因为我必须从word文件中提取信息。例如说我有一个简历和需要提取nameemail addressphone no.addressuniversityExperience必须从word文件中提取数据

每个其他人可能有不同format.So自己的简历有没有什么办法让我可以以编程方式提取我需要的信息?

我需要这些信息来填写注册表单。

+0

下Voter..Please给我解释一下你为什么要放弃减1 –

回答

1

使用aspose.net将word文档转换为html。
然后,您可以使用正则表达式来搜索单词和/或pdf文档。
或者您可以使用HTMLAgilityPack解析创建的HTML文档,并搜索特定的章节/路径。

PS:
如果你有一个短于一页的电子邮件正则表达式,那么正则表达式是不正确的。
只要您只需支持一个国家,手机应该可以管理。
至于姓名和地址,祝你好运。

编辑:
像这样

VB.NET:

Dim doc As New Aspose.Words.Document("filename.docORdocx") 
doc.Save("filename.html", Aspose.Words.SaveFormat.Html) 

C#:

Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx"); 
doc.Save("filename.html", Aspose.Words.SaveFormat.Html); 

组件是在这里:
http://www.aspose.com/.net/word-component.aspx

要找出一个有效的电子邮件地址是什么,读RFC 822:
http://www.faqs.org/rfcs/rfc822.html

+0

我如何转换Word文档到html..I我尝试就是System.IO.StreamReader –

+0

@sangram帕尔马阅读:加:) –

1

即使一开始你可能会通过使用COM互操作和Asp.net的想法所吸引,不这样做。

http://support.microsoft.com/kb/257757

这就是说,要知道哪个版本的Word,我们谈论的是很重要的。较新的格式允许将它们视为包含xml文件的zip文件,并且有免费的免费库。

http://docx.codeplex.com/