beautifulsoup

4热度

1回答

比方说，我想从HTML删除元音： <a href="foo">Hello there!</a>Hi! 成为 <a href="foo">Hll thr!</a>H! 我想，这是美丽的汤的工作。我怎样才能选择标签之间的文本，并像这样操作呢？

0热度

2回答

我对the script from this answer做了一些修改。而我在使用unicode时遇到问题。一些问题最终被写得不好。一些答案和响应最终看起来像： Yeah.. I know.. I’m a simpleton.. So what’s a Singleton? (2) 我怎样才能让’被翻译成正确的汉字？注意：如果有问题，我在法语窗口上使用pyt

2热度

2回答

python- is beautifulsoup misreporting my html？

我有两台机器，据我所知，运行python 2.5和BeautifulSoup 3.1.0.1。我想刮http://utahcritseries.com/RawResults.aspx，使用： from BeautifulSoup import BeautifulSoup import urllib2 base_url = "http://www.utahcritseries.com/Raw

1热度

3回答

在Python中动态改变范围？

所以说我正在使用BeautifulSoup解析页面，我的代码数据表明至少有7个页面用于查询。分页看起来像 1 2 3 4 5 6 7 Next 如果我一路分页到7，有时也有超过7页，所以如果我7页上，分页貌似 1 2 3 7 8 9 10 Next 所以现在，我知道至少还有3页。我使用的是初始通弄清楚有多少页，即get_num_pages回报7 什么我做的是遍历每个页面上的项目，所以我有

7热度

2回答

我在哪里可以找到一些“你好世界” - 简单的美丽汤例子？

我想用美丽的汤做一个非常简单的替换。假设我想访问页面中的所有A标签并将“？foo”附加到它们的href中。有人可以发布或链接到如何做一些简单的例子吗？

19热度

1回答

如何遍历Beautiful Soup元素的HTML属性？

如何遍历Beautiful Soup元素的HTML属性？一样，给出： <foo bar="asdf" blah="123">xyz</foo> 我想 “吧” 和 “嗒嗒”。

4热度

2回答

美丽的汤和uTidy

我想传递的utidy到美丽的汤，结果，鼻翼： page = urllib2.urlopen(url) options = dict(output_xhtml=1,add_xml_decl=0,indent=1,tidy_mark=0) cleaned_html = tidy.parseString(page.read(), **options) soup = BeautifulSoup(cl

0热度

2回答

在美丽的汤中使用replaceWith时动态指定标签

以前我问过this的问题，并找回了这个BeautifulSoup示例代码，经过一些本地咨询后，我决定与之合作。 >>> from BeautifulSoup import BeautifulStoneSoup >>> html = """ ... <config> ... <links> ... <link name="Link1" id="1"> ... <encapsulation>

2热度

2回答

刮多个html文件为CSV

我想刮掉我的硬盘上超过1200个.htm文件的行。在我的电脑上，他们在这里'file：///home/phi/Data/NHL/pl07-08/PL020001.HTM'。这些.htm文件从* 20001.htm开始依次为* 21230.htm。我的计划是最终通过电子表格应用程序在MySQL或SQLite中抛出数据，或者直接从这个过程中获得一个干净的.csv文件。这是我第一次尝试代码（Pytho

8热度

1回答

为什么我在Python中使用BeautifulSoup时，'ResultSet'没有属性'findAll'“？

因此，我正在慢慢学习Python，并试图制作一个简单的函数，它将从网络游戏的高分页面中绘制数据。这是别人的代码，我重写了一个函数（这可能是问题），但我得到这个错误。这里是代码： >>> from urllib2 import urlopen >>> from BeautifulSoup import BeautifulSoup >>> def create(el): source =