web-scraping

-2热度

1回答

感谢您提前给予您的帮助！我是这个东西的初学者，所以任何帮助表示赞赏。如果有一个有用的指导，使用美丽的方式来做到这一点，我会采取一个链接。无法使其工作。我想刮this page从HREF链接wineRatings_initials和ul.wineRatings_list，span.pipSecContent_copy，并经/纬度wineRatings_rating和averageRating_av

1热度

2回答

刮板无法从下一页获取名称

我已经在python中编写脚本并结合selenium来解析网页中的名称。该网站的数据不支持JavaScript。但是，下一页链接在JavaScript内。由于该网页的下一页链接对于requests库而言没有用处，因此我使用硒来解析来自该网站的数据，并遍历了25个页面。我在这里面临的唯一问题是，尽管我的刮板能够通过点击25页到达最后一页，但它仅从第一页获取数据。而且，即使点击了最后一页，刮刀仍然继续

0热度

1回答

在VBA中导航HTML - 不可靠的代码问题

我编写了导航到特定网站（http://www.boxofficemojo.com/）的代码，然后将电影标题从电子表格复制/粘贴到搜索栏中以搜索该标题并打开其个人电影页面（第一种情况是“Rogue One：星球大战的故事”），这将最终用于从我的电子表格中为200部电影抓取数据我的问题如下：当我当我手动运行它（f5）时，它无法可靠地工作 - 它可能会工作一次，但总是出轨，并最终导航到错误的网页。更奇

0热度

1回答

如何执行获取请求的单元测试类

假设我想从特定网站中删除“长”帖子。为了做到这一点，我创建了以下类： import requests class PostScraper: THRESHOLD = 100 def __init__(self, thread_id): self.url = 'foo.bar/thread-%s?pg=last' % thread_id def ge

0热度

2回答

Python：并非每个网页都有一定的元素

当我试图使用网址来抓取网页时，我发现一些元素只存在于某些页面中，而其他元素没有。让我们的代码，例如代码： for urls in article_url_set: re=requests.get(urls) soup=BeautifulSoup(re.text.encode('utf-8'), "html.parser") title_tag = soup.sele

0热度

2回答

使用Python从网页获取表格

关于python网页抓取的关于无关的知识。我需要从this页面得到一个表： http://performance.morningstar.com/funds/etf/total-returns.action?t=IWF 我感兴趣的表是这样的：（忽略表上方的图表）这是我现在有： from selenium import webdriver from bs4 import Beautifu

0热度

1回答

我的Kibana服务器的Web抓取

我正在运行ELK堆栈进行日志分析，其中kibana被用作数据可视化。现在我想从kibana网页中提取一些字段。我想提取CU和计数字段，你可以看到我附上了网页截图和相应的html源代码。现在我试图使用python和“美丽的肥皂”库来废弃相同的网页，但是我看到的任何代码都是不同的。请help.soso，你可以建议我一些其他的方法，我可以提取所需的领域？

0热度

1回答

以json格式抓取内容 - Python

我想用Python 3.5来抓取像this这样的页面。我使用BeautifulSoup来刮掉它的内容。我在刮取大小的数量时遇到问题。在此特定页面中，尺寸数量为9（FR 80 A，FR 80 B，FR 80 C等）。我想这个信息是json格式。我试图使用json包，但我找不到'开始'和'结束'。我的代码如下所示： import requests import json page = requ

0热度

1回答

Scrapy - 如何分割这张表中的数据？

我试图从表格中抓取数据，但是表格数据似乎有相同的xpath。这里是表的一个例子 - http://www.hpft.nhs.uk/services/find-our-services/hertfordshire/cheshunt 而当我使用response.xpath('//td/text()').extract()它返回整个表。我想也许我可以使用绝对路径，例如response.xpath('/

1热度

1回答

为什么我不能调用container.findAll（“h3”，{“class”：“name”}）？

我想要的只是刮去所有的产品。为什么我也不能使用containers.div？当我的教程只有<div></div>时，我很困惑<div><\div><div>。 from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup my_url = 'https://hbx.com/categories