文字挖掘MS Word文档？

-2

我有大约30的.docx文档（简历）有关人的名字，技能等数据。我需要使用这些信息填充电子表格，并且为了减少手动工作，我认为我可以使用文本挖掘方法。文字挖掘MS Word文档？

是否有任何工具或途径，将是有益的采矿（排序的半结构化）从这些文件中的信息？

2012-04-27 dani

你可以到文件的内容与工具，如[蟒蛇-的docx（https://github.com/mikemaccana/python-docx）。获取名字，技能等是困难的（假设他们不遵循相同的格式）。你可以尝试手动编写一些规则，但是如果你希望这样做更健壮，那里有商业工具[就像这样]（http://www.daxtra.com/parsing.html）... – Dougal 2012-04-27 18:20:18

最好的我可以拿出来使用Perl，因为我知道你可以使用Perl模块pull from word documents（尽管它本身可能会很棘手）和populate xml spreadsheets。

我没有写在愤怒的Perl在很长一段时间，所以我不能提供的如何做到这一点的例子，但如果我把东西在一起，要做到这一点，我会推荐perl的。我相信有人会说python中有相当的函数，甚至可能在Ruby中，但是perl是我用过的，我发现它对于操作/匹配/解析/处理文本非常有效。

来源

2012-04-27 18:22:48 ebullient

您可以尝试使用catdochttp://www.wagner.pp.ru/~vitus/software/catdoc/工具，该工具将从MS Word文件中提取文本内容，然后再进行所需的任何文本处理。我可能只是在grep的简历中存在对应于catdoc输出的某些单词。没有必要过度设计解决方案。

来源

2012-05-08 05:14:00 Idr

文字挖掘MS Word文档？

回答

相关问题