1
我有大约两页文字格式的文字。该文本分为两列。我想解析文本。但是,我无法阅读第一栏和第二栏。我没有任何计划,因为我甚至不知道如何开始。我打算使用perl进行解析,但使用任何其他语言的帮助也会使我开始,甚至是一些大方向。用文本流解析
我有大约两页文字格式的文字。该文本分为两列。我想解析文本。但是,我无法阅读第一栏和第二栏。我没有任何计划,因为我甚至不知道如何开始。我打算使用perl进行解析,但使用任何其他语言的帮助也会使我开始,甚至是一些大方向。用文本流解析
如果是这样的MSWord,那么你可以使用带有Win32::OLE
下面的代码可能为你工作,或者至少让你开始自动化模型:
use strict;
use warnings;
use List::Util qw<first>;
use Win32::OLE qw<in>;
my $word = Win32::OLE->GetObject('C:\Path\Doc.doc');
my $doc = $word->{ActiveDocument};
my $col_sect
= first { $_-> {PageSetup}{TextColumns}{Count} > 1 } in $doc->Sections
;
my $text = $col_sect->{Range}{Text};
你可能想看看Text :: Extract :: Word,它不依赖于OLE,因此可以在非Windows系统上工作。 (无耻地插入自己的模块...) – 2011-06-02 00:58:02
M $词?祝你好运。这是一个格式错误的垃圾压缩文件... – Blender 2011-05-20 17:30:05
这个问题不是关于阅读文本,而是阅读特定流程中的文本。 – navzit 2011-05-20 18:06:14