我收到了一堆.DOC文档。我甚至没有肯定他们是Word文档,但即使他们是,我也需要打开并用例如。 Python从中提取信息。哪个页面代码被用来编码这个DOC文档?
问题是,我无法弄清楚它们是如何编码的:无论我尝试使用哪种编码,UltraEdit的转换函数都不会纠正文本。 OpenOffice 3.2也无法正确显示内容(猜测Windows-1252)。
下面是一个例子,希望有人知道什么pagecode是:
“lÕAssemblŽegŽnŽrale”,而不是 “L'Assemblée兴业”
感谢您的任何提示。
我应该补充一点,我只会在一堆数量很大的时候使用绿宝石。 – Stephen 2010-03-03 20:07:26