我想呈现在Java中编写的PyQt的网站。第一个站点呈现没有问题,并为我需要的信息而被抓取,但是当我想用同一个类来渲染另一个站点并检索新数据时,它告诉我Render类中定义的框架没有定义(这是为第一个网站定义,在检索我需要的数据时工作得很好)。 那么,为什么会发生这种情况呢?我在Python中缺少什么基础?我的理解是,当第一个站点已经被渲染时,对象将被垃圾收集,第二个可以被渲染。下面是指代码:如何使用一个类来刮两个网站
import sys
from PyQt4.QtGui import *
from PyQt4.QtCore import *
from PyQt4.QtWebKit import *
from lxml import html
class Render(QWebPage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebPage.__init__(self)
self.loadFinished.connect(self._loadFinished)
self.mainFrame().load(QUrl(url))
self.app.exec_()
def _loadFinished(self, result):
self.frame = self.mainFrame()
self.app.quit()
urls = ['http://pycoders.com/archive/', 'http://us4.campaign-archive2.com/home/?u=9735795484d2e4c204da82a29&id=64134e0a27']
for url in urls:
r = Render(url)
result = r.frame.toHtml()
#This step is important.Converting QString to Ascii for lxml to process
#QString should be converted to string before processed by lxml
formatted_result = str(result)
#Next build lxml tree from formatted_result
tree = html.fromstring(formatted_result)
#Now using correct Xpath we are fetching URL of archives
archive_links = tree.xpath('//div[@class="campaign"]/a/@href')[1:5]
print (archive_links)
该错误消息我得到:
File "javaweb2.py", line 24, in <module>
result = r.frame.toHtml()
AttributeError: 'Render' object has no attribute 'frame'
任何帮助,将不胜感激!
我把建议的代码放入_loadfinished()方法中,并从主函数中调用类。它可以在一个url上正常工作,但只要我想一个接一个地呈现两个网站,它就会挂在第一个网站的第一个呈现对象上。看起来我不得不跳出渲染类(将范围从事件循环中移出)继续到第二个网站。有没有办法做到这一点?使用exit()只是退出程序。也许Python应用程序必须关闭并重新打开才能呈现下一页,这是不可能的,因为应用程序在终端中重新打开了? – PythonTAE
你可以发布一个单独的问题与代码,因为你已经修复它。谢谢。 – Schollii
这是另外一个问题:http://stackoverflow.com/questions/35311673/how-to-scrape-several-websites-with-pyqt4-scope-change – PythonTAE