web-scraping

    -2热度

    1回答

    感谢您提前给予您的帮助!我是这个东西的初学者,所以任何帮助表示赞赏。如果有一个有用的指导,使用美丽的方式来做到这一点,我会采取一个链接。无法使其工作。 我想刮this page从HREF链接wineRatings_initials和ul.wineRatings_list,span.pipSecContent_copy,并经/纬度wineRatings_rating和averageRating_av

    1热度

    2回答

    我已经在python中编写脚本并结合selenium来解析网页中的名称。该网站的数据不支持JavaScript。但是,下一页链接在JavaScript内。由于该网页的下一页链接对于requests库而言没有用处,因此我使用硒来解析来自该网站的数据,并遍历了25个页面。我在这里面临的唯一问题是,尽管我的刮板能够通过点击25页到达最后一页,但它仅从第一页获取数据。而且,即使点击了最后一页,刮刀仍然继续

    0热度

    1回答

    我编写了导航到特定网站(http://www.boxofficemojo.com/)的代码,然后将电影标题从电子表格复制/粘贴到搜索栏中以搜索该标题并打开其个人电影页面(第一种情况是“Rogue One:星球大战的故事”),这将最终用于从我的电子表格中为200部电影抓取数据 我的问题如下:当我当我手动运行它(f5)时,它无法可靠地工作 - 它可能会工作一次,但总是出轨,并最终导航到错误的网页。更奇

    0热度

    1回答

    假设我想从特定网站中删除“长”帖子。为了做到这一点,我创建了以下类: import requests class PostScraper: THRESHOLD = 100 def __init__(self, thread_id): self.url = 'foo.bar/thread-%s?pg=last' % thread_id def ge

    0热度

    2回答

    当我试图使用网址来抓取网页时,我发现一些元素只存在于某些页面中,而其他元素没有。让我们的代码,例如 代码: for urls in article_url_set: re=requests.get(urls) soup=BeautifulSoup(re.text.encode('utf-8'), "html.parser") title_tag = soup.sele

    0热度

    2回答

    关于python网页抓取的关于无关的知识。 我需要从this页面得到一个表: http://performance.morningstar.com/funds/etf/total-returns.action?t=IWF 我感兴趣的表是这样的: (忽略表上方的图表) 这是我现在有: from selenium import webdriver from bs4 import Beautifu

    0热度

    1回答

    我正在运行ELK堆栈进行日志分析,其中kibana被用作数据可视化。现在我想从kibana网页中提取一些字段。 我想提取CU和计数字段,你可以看到我附上了网页截图和相应的html源代码。 现在我试图使用python和“美丽的肥皂”库来废弃相同的网页,但是我看到的任何代码都是不同的。 请help.soso, 你可以建议我一些其他的方法,我可以提取所需的领域?

    0热度

    1回答

    我想用Python 3.5来抓取像this这样的页面。我使用BeautifulSoup来刮掉它的内容。我在刮取大小的数量时遇到问题。在此特定页面中,尺寸数量为9(FR 80 A,FR 80 B,FR 80 C等)。我想这个信息是json格式。我试图使用json包,但我找不到'开始'和'结束'。 我的代码如下所示: import requests import json page = requ

    0热度

    1回答

    我试图从表格中抓取数据,但是表格数据似乎有相同的xpath。这里是表的一个例子 - http://www.hpft.nhs.uk/services/find-our-services/hertfordshire/cheshunt 而当我使用response.xpath('//td/text()').extract()它返回整个表。 我想也许我可以使用绝对路径,例如response.xpath('/

    1热度

    1回答

    我想要的只是刮去所有的产品。为什么我也不能使用containers.div?当我的教程只有<div></div>时,我很困惑<div><\div><div>。 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url = 'https://hbx.com/categories