2012-04-27 89 views
-2

我有大约30的.docx文档(简历)有关人的名字,技能等数据。我需要使用这些信息填充电子表格,并且为了减少手动工作,我认为我可以使用文本挖掘方法。文字挖掘MS Word文档?

是否有任何工具或途径,将是有益的采矿(排序的半结构化)从这些文件中的信息?

+0

你可以到文件的内容与工具,如[蟒蛇-的docx(https://github.com/mikemaccana/python-docx)。获取名字,技能等是困难的(假设他们不遵循相同的格式)。你可以尝试手动编写一些规则,但是如果你希望这样做更健壮,那里有商业工具[就像这样](http://www.daxtra.com/parsing.html)... – Dougal 2012-04-27 18:20:18

回答

0

最好的我可以拿出来使用Perl,因为我知道你可以使用Perl模块pull from word documents(尽管它本身可能会很棘手)和populate xml spreadsheets

我没有写在愤怒的Perl在很长一段时间,所以我不能提供的如何做到这一点的例子,但如果我把东西在一起,要做到这一点,我会推荐perl的。我相信有人会说python中有相当的函数,甚至可能在Ruby中,但是perl是我用过的,我发现它对于操作/匹配/解析/处理文本非常有效。

0

您可以尝试使用catdochttp://www.wagner.pp.ru/~vitus/software/catdoc/工具,该工具将从MS Word文件中提取文本内容,然后再进行所需的任何文本处理。我可能只是在grep的简历中存在对应于catdoc输出的某些单词。没有必要过度设计解决方案。