beautifulsoup

0热度

2回答

我想在html页面中找到选择器。我的大多数选择器都返回正确的结果，除了那些在它们中都有一个id和class的结果。例子： soup = BeautifulSoup(html, "html.parser") selectors_giving_incorrect_value = ["input#symbol input.btn-primary", "input.stack

1热度

1回答

美丽的汤 - 选择没有类的下一个跨度元素的文本

我试图用美丽的汤从rottentomatoes.com刮电影报价。页面源是有趣的，因为报价直接由跨度类“bold quote_actor”继续，但报价本身处于没有类的跨度中，例如，（https://www.rottentomatoes.com/m/happy_gilmore/quotes/）： screenshot of web source 我想用美丽的汤的find_all来捕获所有的报价，没

-1热度

1回答

循环遍历python中的多个url请求的值列表

我试图从多个气象站获取多年的小时数据，并将它放入熊猫数据框中。我不能使用API，因为请求有限制，我不想支付数千美元来获取这些数据。我可以从脚本中获取所需的数据。当我尝试对其进行修改，使其循环遍历站点列表时，我得到一个406错误，或者它只返回来自列表中第一个站点的数据。我怎样才能遍历所有的电台？另外，如何存储站名以便将其添加到另一列的数据框中？这里是我的代码看起来像现在： stations

1热度

1回答

从BeautifulSoup 4.6中的两个HTML标记中提取HTML

我想用bs4获取两个标记之间的HTML。有没有办法在美丽的汤做javascript的.innerHTML？这是找到类“标题”的范围，并从中获取文本的代码。 def get_title(soup): title = soup.find('span', {'class': 'title'}) return title.text.encode('utf-8') 该函数错误地返回没有下标的范围的

0热度

1回答

如何在文件请求中运行多个URL

我试图从txt文件中的URL中取消多个网站。每行有一个url。我的代码是： Import requests from bs4 import BeautifulSoup file = open('url.txt', 'r') filelines = file.readline() urllist = requests.get(filelines) soup = BeautifulSou

0热度

2回答

仅在使用Python请求延迟数据加载后才能刮取html？

我想学习使用python的数据刮擦，并已使用Requests和BeautifulSoup4库。它适用于普通的html网站。但是当我试图从延迟数据加载的网站中获取一些数据时，我发现我得到了一个空值。一个例子是 from bs4 import BeautifulSoup from operator import itemgetter from selenium import webdriver

0热度

1回答

从GitHub Repo刮取文件路径产生400响应，但在浏览器中查看正常工作

我试图从链接中删除所有文件路径：https://github.com/themichaelusa/Trinitum/find/master，根本不使用GitHub API。上面的链接在HTML中包含一个data-url属性（table，id ='tree-finder-results'，class ='tree-browser css-truncate'），用于制作这样的URL ：https:/

-1热度

1回答

机械化不能登录？

我很新的蟒蛇，我试图刮使用BeautifulSoup，这需要登录的网页。到目前为止，我有 import mechanize import cookielib import requests from bs4 import BeautifulSoup # Browser br = mechanize.Browser() # Cookie Jar cj = cookielib.LW

0热度

1回答

获取从GEO数据集搜索结果的URL链接使用分页

我想从搜索结果页中的每一篇文章的所有链接： https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer 但我有问题越来越下一页的URL。从<div class="pagination">，它说： <a name="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page" title="Nex

-3热度

2回答

如何从Python中的字符串中去除？

我正在使用beautifulsoup来追加数组“get_link”中的所有链接。 get_link = [] for a in soup.find_all('a', href=True): if a.get_text(strip=True): get_link .append(a['href']) 输出get_link的： ['index.html?country=2',