beautifulsoup

    -1热度

    1回答

    <TABLE cellSpacing=0 cellPadding=0 width=700 border=0 617px; HEIGHT: 22px 23px 536px;> ... </TABLE> 我想选择的所有元素就像以上:所述标签是TABLE,并且有几个属性(cellSpacing=0,cellPadding=0,width=700,border=0)。 我尝试以下Pytho

    -2热度

    1回答

    编辑:我已根据需要更改了代码,但是抛出了不同的错误消息。 我是一个美丽的汤和编码到一定程度的相对菜单,只是寻找一个快速指针,看看我要去哪里错了。基本上我会刮我的网站,并返回价格和产品名称的清单。 import csv from datetime import datetime quote_page = 'http://www.golfspikesdirect.com/all-golf-spi

    0热度

    2回答

    我已安装bs4。你如何从文本文件中删除HTML标签?简而言之,我有一个脚本,将ESRI元数据项目写入该元数据HTML页面的文本文件中,对于这些项目中的一些项目,HTML格式代码也是由于某种原因编写的。我如何使用BeautifulSoup删除这段代码?它看起来马虎。 此附件的说明项具有HTML:Textfile

    0热度

    1回答

    寻求帮助,以循环访问网站上的所有选项卡以捕获所有相关信息。 在以下站点中,有几个标签分别标记为5x5,5x10x5,10x10等。我不确定如何构造它,以便它会通过选项卡并在我的脚本中编写循环。感谢您的帮助。 下面是python脚本; from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup

    0热度

    2回答

    我在网站上做过网页抓取。它只在页面中取得前20个元素。如果我们向下滚动,其余元素将被加载。如何刮这些元素呢?有没有什么不同的方法来做到这一点? import requests from bs4 import BeautifulSoup r=requests.get("https://www.century21.com/real-estate/rock-spring-ga/LCGAROCKSP

    0热度

    1回答

    我对Python的webscraping世界很陌生,但我想开发的终极技能是将刮取的数据存储到数据库中并定期刷新数据。 我的问题是:如何节省数据请求(时间,带宽使用),只请求自上次运行脚本以来新增的数据? 例如,我的代码返回在网站上Autotrader汽车的上市: from bs4 import BeautifulSoup import requests #URL and headers so

    1热度

    3回答

    长话短说,我试图用美丽的汤用强烈的标签取代b标签。 汤需要一些投入,包括 <b>Words:</b> attributes <b>Other Words:</b> other attributes 我有以下python3代码: strong_tag = soup.new_tag("strong") if(soup.find('b')): for b_tag in soup.fin

    2热度

    4回答

    我想从网站上刮取一些数据。这是html格式。我想凑字"No description for 632930413867". HTML代码: <div class="col-xs-6 col-sm-6 col-md-6 col-lg-6"> <table class="table product_info_table"> <tbody> <tr> <td>G

    1热度

    1回答

    我想写一些代码来刮一个网站的链接列表,然后我会做一些事情之后。我发现一些代码here,我试图去适应,以便打印列表而不是将它添加到一个系列中。我的代码如下: import pandas as pd from bs4 import BeautifulSoup from urllib.parse import urljoin user_agent = {'User-agent': 'Mozilla

    1热度

    1回答

    我试图抓取10-K文件的一部分。我有一个问题来确定'项目7(a)'的位置。从beautifulsoup返回的文本,尽管它有单词。但是下面的代码正在处理我制作的包含'item 7(a)'的字符串。 import urllib2 import re import bs4 as bs url=https://www.sec.gov/Archives/edgar/data/1580608/00015