beautifulsoup

-2热度

1回答

我想从网站上抓取HTML文本。的HTML代码：我想要得到的 “到达” 的文字。我试过这个： name = soup.find("div", {'class':'m-b-m'}).text 但它不工作。我究竟做错了什么？

1热度

3回答

我想在Python中使用BeautifulSoup库来从html脚本中提取jpg图像名称。无论你在哪里找到srcset，它总是以一个jpg文件名进行。我想以这种方式提取所有jpg文件，但是每当我运行以下代码时，它都会打印出None。但是在url中，在srcset之后总是有一个jpg文件名。例如，'srcset="https://img.shopstyle-cdn.com/pim/31/94/319

2热度

2回答

加载网页抓取结果为大熊猫数据帧

我有以下代码： sauce = urllib.request.urlopen('https://www.iproperty.com.my/sale/selangor/all-commercial/?q=UOA%20Business%20Park').read() soup = bs.BeautifulSoup(sauce,'html.parser') price = soup.find_al

0热度

2回答

如何使用BeautifulSoup3选择位于div标签内的span标签中的文本？

我有这行代码： scoreline_div = soup.find("div", { "class" : "score-line" }) 它选择页面上的div标签页，这是它的样子： <div class="score-line"><span class="home-team team team-900">South Africa</span><span class="score">27 - 2

0热度

1回答

在Python中使用美丽的汤网页刮 - JavaScript表

我试图从网站刮表，但我似乎无法用Python中的Beautifulsoup弄清楚。我不知道是否因为表格格式，但我基本上想把这个表格变成CSV。 from bs4 import BeautifulSoup import requests page = requests.geenter code heret("https://spotwx.com/products/grib_index.php?

0热度

1回答

从WebScraping结果创建Pandas Dataframe

我试图从espn中刮取一张表并将数据发送到熊猫数据框以便将其导出到excel。我已经完成了大部分的抓取工作，但我陷入了如何将每个'td'标记发送到我的for循环中的唯一数据框单元格的问题。（代码如下）有什么想法？谢谢！ import requests import urllib.request from bs4 import BeautifulSoup import re import

0热度

1回答

soup.prettify和print（soup.prettify）有什么区别？

嗨，我正在尝试美丽的汤为网刮，我使用jupyter笔记本电脑。我写了soup.prettify（）和print（soup.prettify（）），当我使用第一个时，html没有得到漂亮的打印，但是当我用它打印HTML时，是以结构化方式打印的？可能是什么原因？

0热度

1回答

确定

我做的这一切形式的使用要求和Beautifulsoup： from bs4 import BeautifulSoup import urllib.request import requests website='http://www.website.ro/' r=urllib.request.urlopen(website).read() soup = BeautifulSoup(r,

0热度

1回答

无需提交即可获取表单url - 使用Python

我有一个包含一个或多个表单的网页。我想要做的是：识别形式发送POST请求，赶上响应。我在第1点，我使用requests.get和Beautifulsoup来识别网页中的表单。我的问题是，我怎样才能得到没有提交表单的表单url？例子：我会搜索“测试”上https://stackoverflow.com/ 的URL看起来像这样：https://stackoverflow.com/search

0热度

1回答

如何使用BeautifulSoup来获取里面的内容过线标签

我想从HTML片段提取内容（“_ The_important_content_”）如下： <div class=" a:2 c:gray m:da " > _The_important_conten