beautifulsoup

    86热度

    8回答

    基本上,我想使用BeautifulSoup在网页上严格抓取可见文本。例如,this webpage是我的测试用例。我主要想获得正文(文章),甚至可以在这里和那里获得一些标签名称。我已经尝试了这个SO question中的建议,它返回很多<script>标签和html注释,我不想要。我无法弄清功能findAll()所需的参数,以便在网页上显示可见文本。 那么,我应该如何找到所有可见的文本,不包括脚本

    14热度

    1回答

    我正在学习Python和BeautifulSoup从网上抓取数据,并读取一个HTML表格。我可以将它读入Open Office,它说它是表#11。 它似乎是BeautifulSoup是首选,但任何人都可以告诉我如何抓住一个特定的表和所有的行?我已经看过模块文档,但无法摆脱困境。我在网上找到的许多例子似乎比我需要的要多。

    2热度

    3回答

    我有一个小脚本,它使用urllib2来获取网站内容,查找所有链接标记,在顶部和底部附加一小段HTML,然后尝试对其进行美化。它一直返回TypeError:序列项目1:期望的字符串,找到标签。我环顾四周,我找不到问题。与往常一样,任何帮助,非常感谢。 import urllib2 from BeautifulSoup import BeautifulSoup import re reddit

    6热度

    4回答

    我有一个网站,我刮了,有以下类似的结构。我希望能够从CData块中获取信息。 我正在使用BeautifulSoup将其他信息从页面中拉出来,所以如果解决方案可以使用它,它将有助于保持我的学习曲线,因为我是一名python新手。 具体而言,我想了解隐藏在CData语句中的两种不同类型的数据。第一个只是文本我很确定我可以给它一个正则表达式,并得到我需要的东西。对于第二种类型,如果我可以将具有html元

    17热度

    2回答

    我试图解析来自该网站的信息(HTML表格):http://www.511virginia.org/RoadConditions.aspx?j=All&r=1 目前我使用BeautifulSoup,我有这个样子的 from mechanize import Browser from BeautifulSoup import BeautifulSoup mech = Browser() ur

    3热度

    4回答

    下面是一段HTML代码(美味的): <h4> <a rel="nofollow" class="taggedlink " href="http://imfy.us/" >Generate Secure Links with Anonymous Referers & Anti-Bot Protection</a> <span class="saverem"> <em class

    1热度

    3回答

    我想凑 http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104 并获得“业主姓名(或名称)” 我有什么工作,但实在是太丑了,而不是最好的,我敢肯定,所以我要寻找一个更好的办法。 以下是我有: soup = BeautifulSoup(url_opener.open(url)) x = soup('table', text

    2热度

    4回答

    我可以将这两个块合并为一个: 编辑:除了像Yacoby合并循环以外的其他方法。 for tag in soup.findAll(['script', 'form']): tag.extract() for tag in soup.findAll(id="footer"): tag.extract() 也可以予多个块到一个: for tag in soup.findAll

    2热度

    1回答

    分裂一个带有链接的逗号分隔的列表我有一个逗号在HTML文档中的表格单元格分隔列表,但一些在列表中的项目链接: <table> <tr> <td>Names</td> <td>Fred, John, Barry, <a href="http://www.example.com/">Roger</a>, James</td> </tr> </table>

    1热度

    2回答

    我试图提取帧标签,它是内部document.write功能的页面上,如下所示的属性: <script language="javascript"> . . . document.write('<frame name="nav" src="/nav/index_nav.html" marginwidth="0" marginheight="0" scrolling="no" framebor