2011-02-23 79 views
5

请告诉我如何处理这个问题:从MS Word文档构建数据库的最佳方法是什么?

我有一个MS Word文档中的元数据顺序列表。其基本思想是创建一个Python算法来迭代信息,从数据库中检索PROCESS的名称,何时作为队列。

实施例的元数据:

过程:过程沃克(1965)
精确参考:沃克工艺设备公司诉食品机械公司

链接:http://caselaw.lp.findlaw.com/scripts/getcase.pl?court=US&vol=382&invol=

类型的程序:向提审的美国法院呼吁第七巡回赛。 缔约方:沃克工艺设备,公司

部门:系统是...

开始日期: 10月12-13日阿格达斯,1965年
摘要:食品机械公司已启动了通过使用通过欺诈获得的专利来阻止或减缓竞争者进入的过程。该案涉及在曝气设备用于污水处理系统“的膝部动作摆动扩散器”专利,问题是“专利局以欺诈手段获得专利的维护和执法”是否可能是反垄断处罚的依据。演化过程的
报告:申请人在回答回应...

重要性:一),它建立了纠纷的诊断分析第一种情况......

大约有200页包含上述信息。

我记得在Python中实现一个算法的想法是能够打破这个信息序列并尝试将它存储在一个Web数据库(我正在寻找的一个开源应用程序)中,以便允许免费咨询。

+0

难道这些总是有相同的部分,以相同的顺序? “过程:...”总是第一行吗? – Orbling 2011-02-23 23:57:49

+0

@ S.洛特:我认为这是一个完全合理的问题。这是一种数据格式,我怎样才能将数据转换为数据库。 – Orbling 2011-02-24 00:44:17

+0

是什么版本的Word?如果2007(.docx),那么你可以看看[Office Open XML](http://en.wikipedia.org/wiki/Office_Open_XML) – Jetti 2011-02-24 01:38:25

回答

3

退房AntiWord转换成纯文本文件,然后用grep和sed转换为一种格式,你可以管到你的脚本。

2

最新版本的Word允许您以XML格式保存文档。这可以通过显式“另存为”并选择XML,或解压缩.docx文件并解析其XML来完成。该XML格式的在线文档取决于Word的版本:2003 Office XML2007/2010 Office Open XML

任何更强大的功能(例如需要操作文档)都需要与.NET(MS Open XML SDKAspose.Words)对接。

相关问题