beautifulsoup

    1热度

    1回答

    我试图在使用BeautifulSoup的一个HTML表格中的第一个和第二个粗体标题之后的下一行中提取第1列和第3列中的文本。粗体文本没有类或标识符,与上面和下面的行处于同一级别。我想我应该使用next_sibling,但我不确定究竟该如何去做。 您可以找到表这里的HTML:https://github.com/Tokaalmighty/topmover_table_html/blob/master

    0热度

    2回答

    我在大学三年级时参加了一个Python课程,但已经忘记了很多。对于工作,我被要求尝试找到一种方法来网络从网站刮一些日期。我有一个python文件,为我使用的其他网站做了类似的工作。代码如下: from bs4 import BeautifulSoup import io import requests soup = BeautifulSoup(requests.get("https://

    1热度

    1回答

    刮我从那里我试图运行下面的脚本,在本地工作只是罚款PythonAnywhere一个免费帐户。 我想知道如果我的错误是由于技术原因或只是PythonAnywhere禁止人们从他们的平台仅针对特定网站报废? 你知道的其他免费网站,在那里我会被允许放弃什么? import requests from bs4 import BeautifulSoup as bs def scrapMarketwat

    0热度

    1回答

    我正在研究一个报废代码以从.aspx网页抓取信息。我想检索数据库中的所有记录,但我没有记录索引的列表。我只知道该索引是一个介于1到9000000之间的整数。因此,我正在考虑使用蛮力对索引使用for循环。 我想从每条记录中检索某些信息。所以,我用beautifulsoup和pandas.DataFrame来存储我想要的信息。然后,我追加数据框来收集记录。 例如: df_all = pandas.Da

    0热度

    1回答

    我想将html文档输入到我的python中。 我得到这个错误: UnicodeDecodeError: 'cp950' codec can't decode byte 0xbb in position 362: illegal multibyte sequence 使用此代码时 : from bs4 import BeautifulSoup soup = BeautifulSoup(open(

    1热度

    2回答

    新来美丽的汤4,当我在YouTube上搜索某些东西时,我无法获取这个简单的代码来获取标签的内容。当我打印容器时,它只是打印“[]”作为我假设的一个空变量。任何想法,为什么这不是挑选什么?这是否与不在YouTube上抓取正确的标签?在搜索HTML有一个结果如下标签: <a id="video-title" class="yt-simple-endpoint style-scope ytd-video

    -1热度

    1回答

    我试图做一个网站刮板,但我有问题 # encoding=utf8 import urllib2 from bs4 import BeautifulSoup indice = 0 print " " quote_page = "https://www.bloomberg.com/quote/INDU:IND" page = urllib2.urlopen(quote_page)

    0热度

    2回答

    我试图抓住亚马逊,试图获得页面中任何项目的价格,事实并非亚马逊页面中的所有项目都有价格有时它可以变成它等于无 import requests from bs4 import BeautifulSoup import itertools def spider(max_pages): search = str(input("Search whatever you want and I

    0热度

    3回答

    我正在使用BeautifulSoup来缩小数据,除了一件事情之外,一切都在我的代码中工作,那就是价格。我想刮一个房地产网站,无法刮price.Website是“https://www.proptiger.com/all-projects”下面 是我的代码: from urllib.request import urlopen from bs4 import BeautifulSoup impo

    0热度

    1回答

    我在python中写了一个简单的爬虫。它似乎工作正常,并找到新的链接,但重复发现相同的链接,而不是下载找到的新网页。它似乎即使在达到设定的爬行深度限制后也会无限爬行。我没有收到任何错误。它只是永远运行。这是代码和运行。我在Windows 7 64位上使用Python 2.7。 import sys import time from bs4 import * import urllib2 i