2013-03-02 93 views
-2

我有一个维基链接@http://wiki.company.com/company/w/index.php?title=test&action=edit其数据看起来像下面的HTML ... 有没有一种方法,我可以得到测试组合块?任何内置的python模块,欣赏输入从链接读取数据

INPUT:- 

=== find === 

data1 

==== <font color="#008000">test Combo</font> ==== 

{| border="1" cellspacing="1" cellpadding="1" 
|- 
test 
|} 

==== next bloock === 

data3 

OUTPUT:- 
{| border="1" cellspacing="1" cellpadding="1" 
|- 
test 
|} 
+0

你会想看看正则表达式。 – 2013-03-02 02:54:03

+0

不要让我失望..我只需要输入一个算法..我会根据输入信息进行更新 – user1934146 2013-03-02 02:56:03

+0

如果你想访问一个页面的原始维基标记,并使用MediaWiki,请尝试将'action = edit'部分改为'动作= raw'。这可能是比生成的HTML更好的起点。 – 2013-03-02 03:00:15

回答

0

首先您需要一种方法来下载相关文件。这样做的标准python模块是urllib2。

然后你需要一种方法来处理HTML文件。两个适合该任务的优秀python模块是Beautiful Souplxml