2010-12-01 66 views
0

在网页中我有以下几个要素:如何检索onclick文本?

<a href="#" onClick="window.open('/link.php?webpage=45980a6f91ac0c850745e0500d612172" class="pagelink" >Page 1</a> 
<a href="#" onClick="window.open('/link.php?webpage=45980a6f91ac0c850745e05676787895" class="pagelink" >Page 2</a> 
<a href="#" onClick="window.open('/link.php?webpage=45980a6f91ac0c85786787666456fgg3" class="pagelink" >Page 3</a> 
<a href="#" onClick="window.open('/link.php?webpage=45980a6f91ac0c850734234324756767" class="pagelink" >Page 4</a> 
... 

,我需要检索的类“pagelink”所有A标签的window.open功能的文字:

/link.php?webpage=45980a6f91ac0c850745e0500d612172 
/link.php?webpage=45980a6f91ac0c850745e05676787895 
/link.php?webpage=45980a6f91ac0c85786787666456fgg3 
/link.php?webpage=45980a6f91ac0c850734234324756767 

我怎样才能做到这一点与Python?

+0

可能重复的[如何从网页检索这些元素?](http://stackoverflow.com/questions/4328167/how-to-retrieve-these-elements-from-a-webpage) – user225312 2010-12-01 19:38:27

回答

1
from html.parser import HTMLParser 

class MyHTMLParser(HTMLParser): 

    def handle_starttag(self, tag, attrs): 
     attr = dict(attrs) 
     if attrs["class"] == "pagelink": 
      add_to_result(attrs["onclick"]) 

替换add_to_result与聚集的对象(如表)和实际的代码,然后只需删除结果导致window.open

0

此问题已经回答here。您需要解析HTML以获取您可能需要的任何任何数据。解析是用美丽的汤完成的。

当然,有人可能会发布代码,因为它是这样的,但这不是很好玩吗?

如此反复,一定要仔细阅读了文件:)