我正在寻找一种方法将数据从Word文件中提取/抓取到数据库中。我们的公司程序与MS Word文件中记录的客户会议纪要有关,主要归因于历史和惯性。从MS Word中提取数据
我希望能够将这些会议记录中的操作项目拉到数据库中,以便我们可以从Web界面访问它们,将它们转换为任务并在完成时更新它们。
这是做到这一点的最好办法:创建CSV,然后上传到数据库从内字
- VBA宏?
- VBA宏与Word连接到DB(如何从VBA连接到MySQL?)
- Python脚本通过win32com然后上传到数据库?
最后一个对我来说很吸引人,因为使用Django构建了web界面,但是我从来没有使用过win32com或者尝试过从python脚本化脚本。
编辑:我已经开始使用VBA提取文本,因为它使它更容易处理Word对象模型。我遇到了一个问题 - 所有的文本都在表格中,当我从我想要的CELLS中拉出字符串时,每个字符串的末尾都会出现一个奇怪的小方块字符。我的代码如下所示:
sFile = "D:\temp\output.txt"
fnum = FreeFile
Open sFile For Output As #fnum
num_rows = Application.ActiveDocument.Tables(2).Rows.Count
For n = 1 To num_rows
Descr = Application.ActiveDocument.Tables(2).Cell(n, 2).Range.Text
Assign = Application.ActiveDocument.Tables(2).Cell(n, 3).Range.Text
Target = Application.ActiveDocument.Tables(2).Cell(n, 4).Range.Text
If Target = "" Then
ExportText = ""
Else
ExportText = Descr & Chr(44) & Assign & Chr(44) & _
Target & Chr(13) & Chr(10)
Print #fnum, ExportText
End If
Next n
Close #fnum
小小的控制字符框是怎么回事? Word中是否有某种字符代码?
“在python中从MS word文件中提取文本”的问题是关于在linux环境中工作的。除了cygwin之外,在Windows下不提供像antiword这样的工具,而这个海报愿意做COM的COM脚本。 – 2009-02-03 04:00:24
如果你没有什么好说的话...... 对这个问题的一些较高的投票答案根本不是linux特有的。我想你错过了那些。 – 2009-02-04 05:16:05