2
我跟着关于JavaScript刮痧很多教程,但我真的不能设法把号码的开出,从这个表:动态文本刮
http://www.wsj.com/mdc/public/npage/2_3023_creditdervs.html
我尝试了最后一个Sentdex教程使用此代码:
import bs4 as bs
import sys
import urllib.request
from PyQt5.QtWebEngineWidgets import QWebEnginePage
from PyQt5.QtWidgets import QApplication
from PyQt5.QtCore import QUrl
class Page(QWebEnginePage):
def __init__(self, url):
self.app = QApplication(sys.argv)
QWebEnginePage.__init__(self)
self.html = ''
self.loadFinished.connect(self._on_load_finished)
self.load(QUrl(url))
self.app.exec_()
def _on_load_finished(self):
self.html = self.toHtml(self.Callable)
print('Load finished')
def Callable(self, html_str):
self.html = html_str
self.app.quit()
def main():
page = Page('http://www.wsj.com/mdc/public/npage/2_3023_creditdervs.html')
soup = bs.BeautifulSoup(page.html, 'html.parser')
tableSup = soup.find_all("td",{"class": "col2 yellowBack"})
print(tableSup)
if __name__ == '__main__': main()
它看起来像我出的目标......大家说话总是与那些出现在网页源代码,但随后在美丽的汤标签文本消失文本相关的脚本,但我可以”真的找到脚本的屁股与上面的页面主表中的值相关联?
任何关于我应该指导我的研究的建议?
太棒了!非常感谢。我注意到
@ user3755529我很乐意提供帮助!你可以找到所有的iframe,然后一次请求每一个iframe,检查它是否是'(“td”,{“class”:“col2 yellowBack”})',否则你继续下一个。 –