动态文本刮

我跟着关于JavaScript刮痧很多教程，但我真的不能设法把号码的开出，从这个表：动态文本刮

http://www.wsj.com/mdc/public/npage/2_3023_creditdervs.html

我尝试了最后一个Sentdex教程使用此代码：

import bs4 as bs 
import sys 
import urllib.request 
from PyQt5.QtWebEngineWidgets import QWebEnginePage 
from PyQt5.QtWidgets import QApplication 
from PyQt5.QtCore import QUrl 

class Page(QWebEnginePage): 
    def __init__(self, url): 
     self.app = QApplication(sys.argv) 
     QWebEnginePage.__init__(self) 
     self.html = '' 
     self.loadFinished.connect(self._on_load_finished) 
     self.load(QUrl(url)) 
     self.app.exec_() 

    def _on_load_finished(self): 
     self.html = self.toHtml(self.Callable) 
     print('Load finished') 

    def Callable(self, html_str): 
     self.html = html_str 
     self.app.quit() 


def main(): 
    page = Page('http://www.wsj.com/mdc/public/npage/2_3023_creditdervs.html') 
    soup = bs.BeautifulSoup(page.html, 'html.parser') 
    tableSup = soup.find_all("td",{"class": "col2 yellowBack"}) 
    print(tableSup) 

if __name__ == '__main__': main()

它看起来像我出的目标......大家说话总是与那些出现在网页源代码，但随后在美丽的汤标签文本消失文本相关的脚本，但我可以”真的找到脚本的屁股与上面的页面主表中的值相关联？

任何关于我应该指导我的研究的建议？

来源

2017-08-02 user3755529

注意你要刮的表是在iframe里面，你应该对这个iframe做一个请求，然后继续刮表。通过对元素的简单检查发现了iframe网址。使用requests一个例子代码如下所示：

from bs4 import BeautifulSoup 
import requests 

iframe = "https://web.apps.markit.com/WMXAXLP?YYY2220_zJkhPN/sWPxwhzYw8K4DcqW07HfIQykbYMaXf8fTzWQEqN6Sq2pe6I0o/TehV5qd" 
html = requests.get(iframe).text 
soup = BeautifulSoup(html,'html.parser') 

column = soup.findAll("td",{"class": "col2 yellowBack"}) 
values = [row.string for row in column]

看起来你有兴趣从该列中的值，因此values是所需的输出：

>>> values 
['56.37', '107.75', 'n.a.', '95.99', 'n.a.', '56.00', '52.32', '234.85', '81.21', '40.72', '76.29', '19.90', 'n.a.', '92.41', '12.83', '62.19', '78.28', '60.51', '4995.58', '92.99', '67.56', '175.24', '58.71', '82.14', '57.75', '46.86', '22.95', '70.06', '150.16', '6793.46', '31.07', '34.31', '50.39']

来源

2017-08-02 23:44:06

太棒了！非常感谢。我注意到的链接（src）一直在改变。尽管即使使用你的旧工作仍然是一样的。但是，你会说，首先从页面上刮掉“src”然后用它来抓取iframe？在分钟： https://web.apps.markit.com/WMXAXLP?YYY2220_zJkhPN/sWPxwhzYw8K4DcqW07HfIQykbYMaXf8fTzWQEqN6Sq2pe6PwCCgmYXXRr https://web.apps.markit.com/WMXAXLP?YYY2220_zJkhPN/sWPxwhzYw8K4DcqW07HfIQykbYMaXf8fTzWR9yg8rOgHmuTyfhedwbCc5 https：//开头的网络。 apps.markit.com/WMXAXLP?YYY2220_zJkhPN/sWPxwhzYw8K4DcqW07HfIQykbYMaXf8fTzWR9yg8rOgHmuU8m4w6Lgu+D – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/3755529/">user3755529</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">@ user3755529我很乐意提供帮助！你可以找到所有的iframe，然后一次请求每一个iframe，检查它是否是'（“td”，{“class”：“col2 yellowBack”}）'，否则你继续下一个。 – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4319274062" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">相关问题</div> <ul class="relative_list"> <li> 1. <a href="http://cn.voidcc.com/question/p-cpaejmxh-hz.html" target="_blank" title="动态刮解析"> 动态刮解析 </a> </li> <li> 2. <a href="http://cn.voidcc.com/question/p-fdosfhym-ua.html" target="_blank" title="刮动态信息"> 刮动态信息 </a> </li> <li> 3. <a href="http://cn.voidcc.com/question/p-diwuubuz-my.html" target="_blank" title="刮动态网站"> 刮动态网站 </a> </li> <li> 4. <a href="http://cn.voidcc.com/question/p-rtnvdtcf-eo.html" target="_blank" title="Java-JSoup刮动态网站"> Java-JSoup刮动态网站 </a> </li> <li> 5. <a href="http://cn.voidcc.com/question/p-rbcjjypu-km.html" target="_blank" title="刮动态网页（ASPX）"> 刮动态网页（ASPX） </a> </li> <li> 6. <a href="http://cn.voidcc.com/question/p-yyepjrec-x.html" target="_blank" title="刮可见文本"> 刮可见文本 </a> </li> <li> 7. <a href="http://cn.voidcc.com/question/p-owfuglvt-ve.html" target="_blank" title="如何刮动JavaScript动态网站"> 如何刮动JavaScript动态网站 </a> </li> <li> 8. <a href="http://cn.voidcc.com/question/p-bgfynaxq-sq.html" target="_blank" title="动态文本"> 动态文本 </a> </li> <li> 9. <a href="http://cn.voidcc.com/question/p-xdplmqag-eo.html" target="_blank" title="刮使用文本HTML agilitypack"> 刮使用文本HTML agilitypack </a> </li> <li> 10. <a href="http://cn.voidcc.com/question/p-myixmbnl-ep.html" target="_blank" title="动态文本框"> 动态文本框 </a> </li> <li> 11. <a href="http://cn.voidcc.com/question/p-oeinjpea-bn.html" target="_blank" title="动态文本块"> 动态文本块 </a> </li> <li> 12. <a href="http://cn.voidcc.com/question/p-ypspdlne-kk.html" target="_blank" title="AS3动态文本"> AS3动态文本 </a> </li> <li> 13. <a href="http://cn.voidcc.com/question/p-wwohncty-hr.html" target="_blank" title="TextBox动态文本"> TextBox动态文本 </a> </li> <li> 14. <a href="http://cn.voidcc.com/question/p-recscugt-a.html" target="_blank" title="动作动态文本"> 动作动态文本 </a> </li> <li> 15. <a href="http://cn.voidcc.com/question/p-okeqwgst-tr.html" target="_blank" title="如何动态刮取页面数据？"> 如何动态刮取页面数据？ </a> </li> <li> 16. <a href="http://cn.voidcc.com/question/p-hrjjuwdd-se.html" target="_blank" title="通过硒刮动态内容？"> 通过硒刮动态内容？ </a> </li> <li> 17. <a href="http://cn.voidcc.com/question/p-sugxslox-tq.html" target="_blank" title="Beautifulsoup - 刮网页 - 动态加载"> Beautifulsoup - 刮网页 - 动态加载 </a> </li> <li> 18. <a href="http://cn.voidcc.com/question/p-dutjpzkn-bq.html" target="_blank" title="在C中刮动态网页内容＃"> 在C中刮动态网页内容＃ </a> </li> <li> 19. <a href="http://cn.voidcc.com/question/p-xhnaufua-dx.html" target="_blank" title="XML网络动态密钥刮网站"> XML网络动态密钥刮网站 </a> </li> <li> 20. <a href="http://cn.voidcc.com/question/p-amnctwrz-ba.html" target="_blank" title="Python Web刮 - 带动态数据表"> Python Web刮 - 带动态数据表 </a> </li> <li> 21. <a href="http://cn.voidcc.com/question/p-ojdenmoa-he.html" target="_blank" title="动态编辑文本和文本框"> 动态编辑文本和文本框 </a> </li> <li> 22. <a href="http://cn.voidcc.com/question/p-rxdpspli-v.html" target="_blank" title="MFC动态文本控制？"> MFC动态文本控制？ </a> </li> <li> 23. <a href="http://cn.voidcc.com/question/p-btbpbrsp-dg.html" target="_blank" title="动态UILabel截断文本"> 动态UILabel截断文本 </a> </li> <li> 24. <a href="http://cn.voidcc.com/question/p-xfnmmmck-de.html" target="_blank" title="动态更改文本值"> 动态更改文本值 </a> </li> <li> 25. <a href="http://cn.voidcc.com/question/p-swdvnqir-bq.html" target="_blank" title="ActionbarSherlock动态文本覆盖"> ActionbarSherlock动态文本覆盖 </a> </li> <li> 26. <a href="http://cn.voidcc.com/question/p-tkghvavk-gt.html" target="_blank" title="动态文本框绑定"> 动态文本框绑定 </a> </li> <li> 27. <a href="http://cn.voidcc.com/question/p-vnjvgeii-mx.html" target="_blank" title="createjs动态文本重叠"> createjs动态文本重叠 </a> </li> <li> 28. <a href="http://cn.voidcc.com/question/p-vatstxeb-sh.html" target="_blank" title="Actionscript-3：动态文本"> Actionscript-3：动态文本 </a> </li> <li> 29. <a href="http://cn.voidcc.com/question/p-wkhfmdur-pb.html" target="_blank" title="Android：动态文本创建？"> Android：动态文本创建？ </a> </li> <li> 30. <a href="http://cn.voidcc.com/question/p-qcwvkwfp-cr.html" target="_blank" title="html5 canvas动态文本框"> html5 canvas动态文本框 </a> </li> </ul> </div> <div> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3534119089"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img2.voidcc.com/voidso/script/side.js?t=1652515421853"></script> <script type="text/javascript" src="http://img2.voidcc.com/voidso/plugin/highlight/highlight.pack.js"></script> <link href="http://img2.voidcc.com/voidso/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 每日一句 </div> <div class="panel-body m-b-sm m-t-sm clearfix"> 每一个你不满意的现在，都有一个你没有努力的曾经。 </div> </div> <div class="row"> <script async src="//pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>  <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="3862022848" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新问题 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://cn.voidcc.com/question/p-eubghacn-vh.html" target="_blank" title="在Windows10上安装OpenCV3 for Python 3.4"> 在Windows10上安装OpenCV3 for Python 3.4 </a> </li> <li class="side_article_list_item"> 2. <a href="http://cn.voidcc.com/question/p-ohpscbrh-ud.html" target="_blank" title="如何创建列描述（CD）文件Catboost"> 如何创建列描述（CD）文件Catboost </a> </li> <li class="side_article_list_item"> 3. <a href="http://cn.voidcc.com/question/p-bajyfghc-ue.html" target="_blank" title="如何打印二叉树？"> 如何打印二叉树？ </a> </li> <li class="side_article_list_item"> 4. <a href="http://cn.voidcc.com/question/p-mypqimgo-ud.html" target="_blank" title="从数列与百分比的饼图创建为标签"> 从数列与百分比的饼图创建为标签 </a> </li> <li class="side_article_list_item"> 5. <a href="http://cn.voidcc.com/question/p-knpvxuvn-tz.html" target="_blank" title="为什么jQuery悬停效果不起作用？"> 为什么jQuery悬停效果不起作用？ </a> </li> <li class="side_article_list_item"> 6. <a href="http://cn.voidcc.com/question/p-xvbaiygo-ue.html" target="_blank" title="HTTP状态500 - 为的servlet MVC-调度Servlet.init（）抛出异常"> HTTP状态500 - 为的servlet MVC-调度Servlet.init（）抛出异常 </a> </li> <li class="side_article_list_item"> 7. <a href="http://cn.voidcc.com/question/p-yrbnnicn-vq.html" target="_blank" title="的Javascript清单减速机的CouchDB"> 的Javascript清单减速机的CouchDB </a> </li> <li class="side_article_list_item"> 8. <a href="http://cn.voidcc.com/question/p-dmjmkqba-tb.html" target="_blank" title="如何重新排序Ruby中的XML文件"> 如何重新排序Ruby中的XML文件 </a> </li> <li class="side_article_list_item"> 9. <a href="http://cn.voidcc.com/question/p-wdqlgkca-va.html" target="_blank" title="为什么我没有获得领域的价值而不是领域本身？"> 为什么我没有获得领域的价值而不是领域本身？ </a> </li> <li class="side_article_list_item"> 10. <a href="http://cn.voidcc.com/question/p-wcpiwcpa-ss.html" target="_blank" title="html如何通过检查元素设置图像不工作"> html如何通过检查元素设置图像不工作 </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 相关问题</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://cn.voidcc.com/question/p-cpaejmxh-hz.html" target="_blank" title="动态刮解析"> 动态刮解析 </a> </li> <li class="side_article_list_item"> 2. <a href="http://cn.voidcc.com/question/p-fdosfhym-ua.html" target="_blank" title="刮动态信息"> 刮动态信息 </a> </li> <li class="side_article_list_item"> 3. <a href="http://cn.voidcc.com/question/p-diwuubuz-my.html" target="_blank" title="刮动态网站"> 刮动态网站 </a> </li> <li class="side_article_list_item"> 4. <a href="http://cn.voidcc.com/question/p-rtnvdtcf-eo.html" target="_blank" title="Java-JSoup刮动态网站"> Java-JSoup刮动态网站 </a> </li> <li class="side_article_list_item"> 5. <a href="http://cn.voidcc.com/question/p-rbcjjypu-km.html" target="_blank" title="刮动态网页（ASPX）"> 刮动态网页（ASPX） </a> </li> <li class="side_article_list_item"> 6. <a href="http://cn.voidcc.com/question/p-yyepjrec-x.html" target="_blank" title="刮可见文本"> 刮可见文本 </a> </li> <li class="side_article_list_item"> 7. <a href="http://cn.voidcc.com/question/p-owfuglvt-ve.html" target="_blank" title="如何刮动JavaScript动态网站"> 如何刮动JavaScript动态网站 </a> </li> <li class="side_article_list_item"> 8. <a href="http://cn.voidcc.com/question/p-bgfynaxq-sq.html" target="_blank" title="动态文本"> 动态文本 </a> </li> <li class="side_article_list_item"> 9. <a href="http://cn.voidcc.com/question/p-xdplmqag-eo.html" target="_blank" title="刮使用文本HTML agilitypack"> 刮使用文本HTML agilitypack </a> </li> <li class="side_article_list_item"> 10. <a href="http://cn.voidcc.com/question/p-myixmbnl-ep.html" target="_blank" title="动态文本框"> 动态文本框 </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div>  <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://cn.voidcc.com/contact">联系我们</a></li> <li>© 2020 CN.VOIDCC.COM</li> <li><a rel="nofollow" href="https://beian.miit.gov.cn/" target="_blank">沪ICP备13005482号-13</a></li> <li><script type="text/javascript" src="https://s9.cnzz.com/z_stat.php?id=1280098168&web_id=1280098168"></script></li> <li><a href="http://cn.voidcc.com/" target="_blank" title="程序问答园区">简体中文</a></li> <li><a href="http://hk.voidcc.com/" target="_blank" title="程序問答園區">繁體中文</a></li> <li><a href="http://ru.voidcc.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.voidcc.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.voidcc.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.voidcc.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.voidcc.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.voidcc.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.voidcc.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.voidcc.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.voidcc.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.voidcc.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.voidcc.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer>  <script async src="https://www.googletagmanager.com/gtag/js?id=UA-77509369-5"></script> <script> window.dataLayer = window.dataLayer || []; function gtag() { dataLayer.push(arguments); } gtag('js', new Date()); gtag('config', 'UA-77509369-5'); </script> <script> var _hmt = _hmt || []; (function () { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?67d4731349f0b00136755b80364ce381"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>

回答