beautifulsoup

    5热度

    4回答

    鉴于像 <a href="urltxt" class="someclass" close="true">texttxt</a> 的HTML链接我如何可以隔离链接和文本? 更新 我用美丽的汤,而我无法弄清楚如何做到这一点。 我做 soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url)) links = soup.findAll('a')

    3热度

    2回答

    如何使用美丽的汤和selectorgadget来刮掉网站。例如,我有一个网站 - (a newegg product),我希望我的脚本能够返回该产品的所有规格(点击规格),我的意思是 - 英特尔,台式机......,2.4GHz,1066Mhz,。 .....,3年有限。 使用selectorgadget后,我得到了与字符串 .desc 如何使用呢? 谢谢:)

    4热度

    7回答

    我想用BeautifulSoup解析html页面,但看起来BeautifulSoup根本不喜欢html或那个页面。当我运行下面的代码时,prettify()方法只返回页面的脚本块(参见下文)。有人有一个想法,为什么会发生? import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.futureshop.c

    1热度

    1回答

    我正在处理某些从美味中吸引网址的内容,然后使用这些网址发现关联的Feed。 但是,一些美味的书签不是html链接,并导致BS到barf。基本上,我想扔掉一个链接,如果BS提取它,它看起来不像HTML。 现在,这就是我所得到的。 trillian:Documents jauderho$ ./d2o.py "green data center" processing http://www.green

    3热度

    3回答

    我在用BeautifulSoup解析一些狡猾的HTML时遇到了麻烦。事实证明,在较新版本中使用的HTMLParser比以前使用的SGMLParser具有更小的容错性。 BeautifulSoup有某种调试模式吗?我试图找出如何阻止它borking一些讨厌的HTML我从倔网站加载: <HTML> <HEAD> <TITLE>Title</TITLE> <HTTP-E

    15热度

    3回答

    我需要能够修改HTML文档中的每一个链接。我知道我需要使用SoupStrainer,但我不完全肯定如何实施它。如果有人能指导我一个很好的资源或提供一个代码示例,它将非常感激。 谢谢。

    4热度

    1回答

    使用BeautifulSoup 3.1.0.1和Python 2.5.2,并尝试使用法语解析网页。然而,当我打电话的findAll,我得到以下错误: UnicodeEncodeError: 'ASCII' 编解码器不能编码字符U '\ xe9' 在1146的位置是:序数不在范围内(128) 下面是代码我目前正在运行: import urllib2 from BeautifulSoup impor

    6热度

    3回答

    我一直在试图从HTML文件中去除一些数据。我有编码的逻辑来获得正确的单元格。现在我在努力让 '细胞' 的实际内容: ,这里是我的htm剪断 那么headerRows [0] [10] .contents [<font size="+0"><font face="serif" size="1"><b>Apples Produced</b><font size="3"> </font></

    1热度

    1回答

    我想嵌入<p>标签哪里有\ r \ n \ r \ n。 “最后斯里兰卡出现了,阻止了他们的第一场5-0系列的洗牌,并且在连续9场ODI夺冠的情况下停止了印度。\ r \ n \ r \ n对于62个球,Yuvraj Singh打了一个梦,敲门,保持\ n \ n \ n或许这个折腾起了很大的作用,这是马赫拉贾亚瓦德内在过去11次中用硬币击败马亨德拉辛格多尼的第二次。\ r \ n \ r \ n

    2热度

    4回答

    这是HTML我有: p_tags = '''<p class="foo-body"> <font class="test-proof">Full name</font> Foobar<br /> <font class="test-proof">Born</font> July 7, 1923, foo, bar<br /> <font class="test-pro