beautifulsoup

86热度

8回答

基本上，我想使用BeautifulSoup在网页上严格抓取可见文本。例如，this webpage是我的测试用例。我主要想获得正文（文章），甚至可以在这里和那里获得一些标签名称。我已经尝试了这个SO question中的建议，它返回很多<script>标签和html注释，我不想要。我无法弄清功能findAll()所需的参数，以便在网页上显示可见文本。那么，我应该如何找到所有可见的文本，不包括脚本

14热度

1回答

如何使用BeautifulSoup从特定表中获取所有行？

我正在学习Python和BeautifulSoup从网上抓取数据，并读取一个HTML表格。我可以将它读入Open Office，它说它是表＃11。它似乎是BeautifulSoup是首选，但任何人都可以告诉我如何抓住一个特定的表和所有的行？我已经看过模块文档，但无法摆脱困境。我在网上找到的许多例子似乎比我需要的要多。

2热度

3回答

无法在BeautifulSoup中对美化的html进行美化

我有一个小脚本，它使用urllib2来获取网站内容，查找所有链接标记，在顶部和底部附加一小段HTML，然后尝试对其进行美化。它一直返回TypeError：序列项目1：期望的字符串，找到标签。我环顾四周，我找不到问题。与往常一样，任何帮助，非常感谢。 import urllib2 from BeautifulSoup import BeautifulSoup import re reddit

6热度

4回答

我如何抓取CData出BeautifulSoup

我有一个网站，我刮了，有以下类似的结构。我希望能够从CData块中获取信息。我正在使用BeautifulSoup将其他信息从页面中拉出来，所以如果解决方案可以使用它，它将有助于保持我的学习曲线，因为我是一名python新手。具体而言，我想了解隐藏在CData语句中的两种不同类型的数据。第一个只是文本我很确定我可以给它一个正则表达式，并得到我需要的东西。对于第二种类型，如果我可以将具有html元

17热度

2回答

BeautifulSoup HTML表格解析

我试图解析来自该网站的信息（HTML表格）：http://www.511virginia.org/RoadConditions.aspx?j=All&r=1 目前我使用BeautifulSoup，我有这个样子的 from mechanize import Browser from BeautifulSoup import BeautifulSoup mech = Browser() ur

3热度

4回答

Python和BeautifulSoup，没有找到 'A'

下面是一段HTML代码（美味的）： <h4> <a rel="nofollow" class="taggedlink " href="http://imfy.us/" >Generate Secure Links with Anonymous Referers & Anti-Bot Protection</a> <span class="saverem"> <em class

1热度

3回答

Beautifulsoup在表中获取价值

我想凑 http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104 并获得“业主姓名（或名称）” 我有什么工作，但实在是太丑了，而不是最好的，我敢肯定，所以我要寻找一个更好的办法。以下是我有： soup = BeautifulSoup(url_opener.open(url)) x = soup('table', text

2热度

4回答

我可以将两个'findAll'搜索块合并成一个吗？

我可以将这两个块合并为一个：编辑：除了像Yacoby合并循环以外的其他方法。 for tag in soup.findAll(['script', 'form']): tag.extract() for tag in soup.findAll(id="footer"): tag.extract() 也可以予多个块到一个： for tag in soup.findAll

2热度

1回答

与beautifulsoup

分裂一个带有链接的逗号分隔的列表我有一个逗号在HTML文档中的表格单元格分隔列表，但一些在列表中的项目链接： <table> <tr> <td>Names</td> <td>Fred, John, Barry, <a href="http://www.example.com/">Roger</a>, James</td> </tr> </table>

1热度

2回答

如何通过脚本标签使用python解析和beautifulsoup

我试图提取帧标签，它是内部document.write功能的页面上，如下所示的属性： <script language="javascript"> . . . document.write('<frame name="nav" src="/nav/index_nav.html" marginwidth="0" marginheight="0" scrolling="no" framebor