web-scraping

    1热度

    1回答

    我正在尝试使用htmlunit库访问java中的网页。我可以成功地阅读常规桌面浏览器的页面,但现在我想阅读相同网页的移动版本,基本上是手机浏览器中显示的原始HTML,但我不能。 我试着用移动电话规范定义一个新的BrowserVersion类,如下所示。但是,当我阅读网页时,读取的值不是网页的移动版本(与网页的桌面版本相同)。 String applicationName = "Chrome";

    1热度

    1回答

    我刮一个XML站点地图包含特殊字符,如é,导致 ERROR: Spider error processing <GET [URL with '%C3%A9' instead of 'é']> 我如何获得Scrapy保持原来的网址不变,即用它的特殊性格? Scrapy == 1.3.3 的Python 3.5.2 == (我需要坚持这些版本) 更新:每https://stackoverflow.

    1热度

    2回答

    我使用findAll函数在beautifulsoup中刮取文本的网页并将结果返回到列表中。出于某种原因,当td容器中还存在链接时,它不会返回条目。例如: <html <tr> <td> Taken at. string without link, this is found </td> </tr> <tr> <td> Taken at. string followe

    0热度

    1回答

    我试图从WSJ期货中提取表格,但我希望能够更改网址中的日期。我的希望是使用下面的代码,但使网站的单元格参考。任何想法如何使这项工作或一个不同的代码,将使我与网站的单元格参考相同的结果? Sub GetWebTable() With ActiveSheet.QueryTables.Add(Connection:="http://www.wsj.com/mdc/public/page/2_3

    0热度

    1回答

    属性我真的不知道如何从data-image-large得到公正的src图像我得到这个: [<img alt="Adidas Originals NMD C2" class="img-responsive" data-image-large="https://hypebeast.imgix.net/http%3A%2F%2Fs3.store.hypebeast.com%2Fmedia%2Fimage

    0热度

    1回答

    我发现了一堆关于如何使用R从twitter中剔除推文的指南,但是我也有兴趣获取推文的日期和时间。有没有办法让我做到这一点?有没有人可以指导我的指导? https://www.r-bloggers.com/how-to-use-r-to-scrape-tweets-super-tuesday-2016/ 这是我用的导向。谢谢你的帮助。

    0热度

    2回答

    我需要刮这个HTML页面... http://www1.usl3.toscana.it/default.asp?page=ps&ospedale=3 ....使用PHP和XPath得到像值下字符串“CODICE BIANCO” (注意:如果您尝试浏览它,则可以在该页面看到不同的值......无所谓......,它们正在改变...) 我使用这个PHP代码示例打印的价值... <?php i

    0热度

    2回答

    我对网络抓取非常陌生,并且在从nba.com抓取一些NBA球员数据时遇到了一些麻烦。我首先试图用bs4来刮页面,但碰到一个问题,经过一些研究后,我认为这是由于我阅读的文章中的“XHR”。我能够找到json格式数据的网址,但我的python程序似乎陷入了困境,并且从未加载数据。再次,我在网络抓取方面很新颖,但是我想我会看看我是否在这里偏离轨道......有什么建议吗?谢谢! (下面的代码) impo

    0热度

    2回答

    我正在学习使用python进行网页抓取,但无法获得所需的结果。下面是我的代码和输出 代码 import bs4,requests url = "https://twitter.com/24x7chess" r = requests.get(url) soup = bs4.BeautifulSoup(r.text,"html.parser") soup.find_all("span",{"c

    1热度

    1回答

    我正在尝试为nba数据创建一个web刮板。当我运行下面的代码: import requests response = requests.get('https://stats.nba.com/stats/leaguedashplayerstats?College=&Conference=&Country=&DateFrom=10%2F20%2F2017&DateTo=10%2F20%2F2017