beautifulsoup

    4热度

    4回答

    我正在使用BeautifulSoup阅读网页的内容。我想要的只是抓住<a href>,以http://开头。我知道在美丽的你可以通过属性进行搜索。我想我只是有一个语法问题。我会想象它会像这样。 page = urllib2.urlopen("http://www.linkpages.com") soup = BeautifulSoup(page) for link in soup.findAl

    5热度

    1回答

    我有一个文件这样之间的兄弟节点: <p class="top">I don't want this</p> <p>I want this</p> <table> <!-- ... --> </table> <img ... /> <p> and all that stuff too</p> <p class="end>But not this and nothing

    5热度

    2回答

    我有这样的代码,获取使用BeautifulSoup从页面中的一些文本 soup= BeautifulSoup(html) body = soup.find('div' , {'id':'body'}) print body 我想使这是一个可重复使用的函数,它在一定的htmlText和与之相匹配的,如标签以下 def parse(html, atrs): soup= BeautifulSo

    5热度

    1回答

    例如,如果我用元素的属性,像ID搜索: soup.findAll('span',{'id':re.compile("^score_")}) 我回来匹配整个跨度元素(我喜欢)的列表。 但如果我尝试用的innerText这样的HTML元素的搜索: soup.findAll('a',text = re.compile("discuss|comment")) 我回来只是元素的innerText部分

    18热度

    4回答

    我正在尝试为提取的网页提取元描述。但是在这里我正面临着BeautifulSoup的大小写敏感问题。 由于部分页面有<meta name="Description,有些页面有<meta name="description。 我的问题是非常相似的Question on Stackoverflow 唯一的区别是,我无法使用LXML ..我必须坚持Beautifulsoup。

    4热度

    2回答

    嗨即时建设一个使用python 2.5和beautifulsoup刮板 ,但即时通讯stuble问题...网页的一部分产生 用户点击某个按钮后,启动ajax请求通过使用适当的参数调用特定的javacsript函数 有没有一种方法来模拟用户交互并获得此结果?我碰到过一个机械化模块,但在我看来,这主要是用来处理表单工作... 我将不胜感激任何链接或一些代码样本 感谢

    53热度

    5回答

    我试图提取网页上特定“输入”标记中的单个“值”属性的内容。我使用下面的代码: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s)

    12热度

    1回答

    我试图与特定HTML文件 from BeautifulSoup import BeautifulSoup import re import codecs import sys f = open('test1.html') html = f.read() soup = BeautifulSoup(html) body = soup.body.contents para = soup.

    9热度

    1回答

    我可以使用urllib来获取html页面,并使用BeautifulSoup来解析html页面,并且它看起来像我必须生成要从BeautifulSoup中读取的文件。 import urllib sock = urllib.urlopen("http://SOMEWHERE") htmlSource = sock.read() sock.close()

    4热度

    1回答

    我运行得分作为分数。 score = soup.find('div', attrs={'class' : 'summarycount'}) 我运行'打印得分'得到如下。 <div class=\"summarycount\">524</div> 我需要提取数字部分。我用re模块但失败了。 m = re.search("[^\d]+(\d+)", score) TypeError: