web-scraping

    0热度

    1回答

    我是Python新手,一般编码。我正试图通过Scrapy构建一个刮板。我正试图在Mac OS 10.12.6上做到这一点。我尽可能按照说明操作(https://doc.scrapy.org/en/latest/intro/tutorial.html),但是当我拨打 scrapy start项目教程我在下面得到以下输出。解决这个问题并理解未来错误消息的最好方法是什么? 谢谢! File "/usr/

    0热度

    2回答

    寻找使用卷曲抓取一束数据的问题是的是,数据需要的范围PARAM,即?范围= 1-1,范围= 2-2,范围= 3-3等 如何让curl同时增加两个值,这样我得到如上所述的输出? curl "http://test.abc.test&range=[0-100]-[0-100]" 将做结束,然后通过开始循环,这是不是我想要的。

    -1热度

    1回答

    我正在尝试使用Selenium/Python来读取基本的HTML表格。每一行被格式化这样的: <tr> <td bgcolor="#ffffbb"><font face="Arial"><font size=2><b><a href="https://www.lyngsat.com/tvchannels/id/TV-Polri.html">TV Polri</a></b></td> <td b

    0热度

    4回答

    我试图将webelement内容存储到python列表中。当它工作时,处理约2,000行需要约15分钟。 # Grab webelements via xpath rowt = driver.find_elements_by_xpath("//tbody[@class='table-body']/tr/th[@class='listing-title']") rowl = driver.fin

    0热度

    1回答

    我在一个函数中创建了一个小型web爬虫,upso_final。 如果我print(upso_final()),我得到15个名单,包括标题,地址,电话号码。不过,我只想打印出标题,所以我使用变量标题为全局字符串。当我打印它时,我只能得到1个标题,这是最后一个标题。我想获得全部15个冠军。 from __future__ import unicode_literals import request

    0热度

    1回答

    我正在学习如何使用R进行网页抓取。在这种情况下,我使用包“rvest”和一个名为follow_link的特定函数。 的想法是让拥有多个链接网页的信息。我希望我的代码能够进入这些链接并获取其中的表格。 这是代码: library(rvest) s <- html_session("http://fccee.uvigo.es/es/profesorado.html") link <- c("Der

    0热度

    1回答

    我是网络爬虫的新手,想要学习如何使用beautifulsoup将其集成到迷你项目中。我在他的youtube channel上关注美丽的新教程,然后就试图抓取Reddit。我想在Reddit/r/nba的每个NBA新闻中抓取冠军和链接,但没有取得任何成功。只有在终端返回的是“处理完成退出码0”。我有一种感觉,这是与我的选择?任何指导和帮助将不胜感激。 这是原来的代码,没有工作: import req

    0热度

    1回答

    我试图在Scrapy蜘蛛中使用urlparse.urljoin来编译一个url列表。目前,我的蜘蛛没有返回,但没有发现任何错误。所以我试图检查我是否正确地编译了这些URL。 我的尝试是使用str.join在闲置测试,如下图所示: >>> href = ['lphs.asp?id=598&city=london', 'lphs.asp?id=480&city=london', 'lphs.asp

    3热度

    1回答

    添加属性,这里是我的HTML结构凑: <div class='schedule-lists'> <ul> <li>...</li> <ul> <li>...</li> <ul class='showtime-lists'> <li>...</li> <li><a auditype="N"

    -2热度

    1回答

    当我尝试当我打电话使用 driver.find_elements_by_class_name('radio') or driver.find_elements_by_class_name('hidden-xs') or driver.find_elements_by_class_name('form-control') 为什么我看不到大小数凑这个链接 https://hbx.com/brand