beautifulsoup

1热度

1回答

在HTML表格中的每个粗体标题之后抽取行中的特定列使用BeautifulSoup

我试图在使用BeautifulSoup的一个HTML表格中的第一个和第二个粗体标题之后的下一行中提取第1列和第3列中的文本。粗体文本没有类或标识符，与上面和下面的行处于同一级别。我想我应该使用next_sibling，但我不确定究竟该如何去做。您可以找到表这里的HTML：https://github.com/Tokaalmighty/topmover_table_html/blob/master

0热度

2回答

从网页到文本文件的Python网页搜索列表

我在大学三年级时参加了一个Python课程，但已经忘记了很多。对于工作，我被要求尝试找到一种方法来网络从网站刮一些日期。我有一个python文件，为我使用的其他网站做了类似的工作。代码如下： from bs4 import BeautifulSoup import io import requests soup = BeautifulSoup(requests.get("https://

1热度

1回答

从PythonAnywhere

刮我从那里我试图运行下面的脚本，在本地工作只是罚款PythonAnywhere一个免费帐户。我想知道如果我的错误是由于技术原因或只是PythonAnywhere禁止人们从他们的平台仅针对特定网站报废？你知道的其他免费网站，在那里我会被允许放弃什么？ import requests from bs4 import BeautifulSoup as bs def scrapMarketwat

0热度

1回答

如何使用多个参数多处理for循环

我正在研究一个报废代码以从.aspx网页抓取信息。我想检索数据库中的所有记录，但我没有记录索引的列表。我只知道该索引是一个介于1到9000000之间的整数。因此，我正在考虑使用蛮力对索引使用for循环。我想从每条记录中检索某些信息。所以，我用beautifulsoup和pandas.DataFrame来存储我想要的信息。然后，我追加数据框来收集记录。例如： df_all = pandas.Da

0热度

1回答

如何在python中输入html

我想将html文档输入到我的python中。我得到这个错误： UnicodeDecodeError: 'cp950' codec can't decode byte 0xbb in position 362: illegal multibyte sequence 使用此代码时： from bs4 import BeautifulSoup soup = BeautifulSoup(open(

1热度

2回答

为什么find_all BeautifulSoup4函数什么都不返回？

新来美丽的汤4，当我在YouTube上搜索某些东西时，我无法获取这个简单的代码来获取标签的内容。当我打印容器时，它只是打印“[]”作为我假设的一个空变量。任何想法，为什么这不是挑选什么？这是否与不在YouTube上抓取正确的标签？在搜索HTML有一个结果如下标签： <a id="video-title" class="yt-simple-endpoint style-scope ytd-video

-1热度

1回答

acessing从特定的div父特定div标签（美丽的汤蟒蛇）

我试图做一个网站刮板，但我有问题 # encoding=utf8 import urllib2 from bs4 import BeautifulSoup indice = 0 print " " quote_page = "https://www.bloomberg.com/quote/INDU:IND" page = urllib2.urlopen(quote_page)

0热度

2回答

如果.find等于无，则给出默认值Python 3

我试图抓住亚马逊，试图获得页面中任何项目的价格，事实并非亚马逊页面中的所有项目都有价格有时它可以变成它等于无 import requests from bs4 import BeautifulSoup import itertools def spider(max_pages): search = str(input("Search whatever you want and I

0热度

3回答

无法刮掉BeautifulSoup中的一些细节

我正在使用BeautifulSoup来缩小数据，除了一件事情之外，一切都在我的代码中工作，那就是价格。我想刮一个房地产网站，无法刮price.Website是“https://www.proptiger.com/all-projects”下面是我的代码： from urllib.request import urlopen from bs4 import BeautifulSoup impo

0热度

1回答

Python简单的网络爬虫错误（无限循环爬行）

我在python中写了一个简单的爬虫。它似乎工作正常，并找到新的链接，但重复发现相同的链接，而不是下载找到的新网页。它似乎即使在达到设定的爬行深度限制后也会无限爬行。我没有收到任何错误。它只是永远运行。这是代码和运行。我在Windows 7 64位上使用Python 2.7。 import sys import time from bs4 import * import urllib2 i