我有一个特殊的问题,因为我必须从word文件中提取信息。例如说我有一个简历和需要提取name
,email address
,phone no.
,address
,university
,Experience
等必须从word文件中提取数据
每个其他人可能有不同format.So自己的简历有没有什么办法让我可以以编程方式提取我需要的信息?
我需要这些信息来填写注册表单。
我有一个特殊的问题,因为我必须从word文件中提取信息。例如说我有一个简历和需要提取name
,email address
,phone no.
,address
,university
,Experience
等必须从word文件中提取数据
每个其他人可能有不同format.So自己的简历有没有什么办法让我可以以编程方式提取我需要的信息?
我需要这些信息来填写注册表单。
使用aspose.net将word文档转换为html。
然后,您可以使用正则表达式来搜索单词和/或pdf文档。
或者您可以使用HTMLAgilityPack解析创建的HTML文档,并搜索特定的章节/路径。
PS:
如果你有一个短于一页的电子邮件正则表达式,那么正则表达式是不正确的。
只要您只需支持一个国家,手机应该可以管理。
至于姓名和地址,祝你好运。
编辑:
像这样
VB.NET:
Dim doc As New Aspose.Words.Document("filename.docORdocx")
doc.Save("filename.html", Aspose.Words.SaveFormat.Html)
C#:
Aspose.Words.Document doc = new Aspose.Words.Document("filename.docORdocx");
doc.Save("filename.html", Aspose.Words.SaveFormat.Html);
组件是在这里:
http://www.aspose.com/.net/word-component.aspx
要找出一个有效的电子邮件地址是什么,读RFC 822:
http://www.faqs.org/rfcs/rfc822.html
我如何转换Word文档到html..I我尝试就是System.IO.StreamReader –
@sangram帕尔马阅读:加:) –
即使一开始你可能会通过使用COM互操作和Asp.net的想法所吸引,不这样做。
http://support.microsoft.com/kb/257757
这就是说,要知道哪个版本的Word,我们谈论的是很重要的。较新的格式允许将它们视为包含xml文件的zip文件,并且有免费的免费库。
下Voter..Please给我解释一下你为什么要放弃减1 –