2011-05-20 44 views
1

我有大约两页文字格式的文字。该文本分为两列。我想解析文本。但是,我无法阅读第一栏和第二栏。我没有任何计划,因为我甚至不知道如何开始。我打算使用perl进行解析,但使用任何其他语言的帮助也会使我开始,甚至是一些大方向。用文本流解析

+0

M $词?祝你好运。这是一个格式错误的垃圾压缩文件... – Blender 2011-05-20 17:30:05

+0

这个问题不是关于阅读文本,而是阅读特定流程中的文本。 – navzit 2011-05-20 18:06:14

回答

2

如果是这样的MSWord,那么你可以使用带有Win32::OLE

下面的代码可能为你工作,或者至少让你开始自动化模型:

use strict; 
use warnings; 
use List::Util qw<first>; 
use Win32::OLE qw<in>; 

my $word = Win32::OLE->GetObject('C:\Path\Doc.doc'); 
my $doc = $word->{ActiveDocument}; 
my $col_sect 
    = first { $_-> {PageSetup}{TextColumns}{Count} > 1 } in $doc->Sections 
    ; 
my $text = $col_sect->{Range}{Text}; 
+0

你可能想看看Text :: Extract :: Word,它不依赖于OLE,因此可以在非Windows系统上工作。 (无耻地插入自己的模块...) – 2011-06-02 00:58:02