web-scraping

1热度

2回答

我现在正在使用BeautifulSoup刮一些网站，但是我有一些特定字符的问题，UnicodeDammit内的代码似乎表明这（再）是一些微软发明的。我使用BeautifulSoup的最新版本（3.0.8.1），因为我仍在使用的python2.5 下面的代码说明我的问题： from BeautifulSoup import BeautifulSoup soup = BeautifulSoup('

0热度

3回答

使用BeautifulSoup抓取数据的问题

我已经撰写了以下试用代码，以从欧洲议会撤回立法行为的标题。 import urllib2 from BeautifulSoup import BeautifulSoup search_url = "http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-%.4d&language

0热度

1回答

新gwt接口自动化测试

因此，我们的前端GUI正在对基于GWT的新应用程序进行大范围的修改。我一直致力于在一些tcl/expect脚本中使用cURL创建旧前端的自动化脚本。当我看到新的应用程序时，我开始越来越意识到cURL不可能完成这些网络交互，并且想知道是否有人对用GWT制作的Web应用程序进行测试有一些想法/经验？任何帮助将不胜感激！

0热度

7回答

如何使用此输出？ JavaScript删除连续字符是给定的字符串是相同的吗？（轰炸机算法）

如何使用此输出？ Javascript来除去连续的字符是一个给定的字符串是相同（轰炸机算法）例如：输入1：aabcccdee aabcccdee-> bcccdee-> bdee-> BD OUTPUT1：BD 输入2：abcdeedcbfgf abcdeedcbfgf- > eeabcddcbfgf-> abcddcbfgf-> abccbfgf-> abbfgf->的aFGF 输出2：的a

1热度

2回答

在txt模式下的网页抓取

我目前使用watir做网站抓取隐藏所有数据来自通常的HTML源的网站。如果我没有错，他们正在使用XML和AJAX技术来隐藏它。 Firefox可以看到它，但它通过“DOM源选择”显示。一切工作正常，但现在我正在寻找一个等效的工具watir，但一切都需要在没有浏览器的情况下完成。一切都需要在txt文件中完成。事实上，现在watir正在使用我的浏览器来模拟页面，并将我看到的整个html代码返回给我

-2热度

2回答

定时触发器和动画

你能帮我回答下列问题吗？人们通常如何在游戏中实现定时事件？示例：您到达某个时间点时会发生一些事情，如出现新的敌人浪潮或类似情况。制作精灵动画的最佳方法是什么？示例：Android游戏中的爆炸。

56热度

9回答

用Java抓取网页

我无法找到任何好的网页抓取基于Java的API。我需要刮的网站也不提供任何API;我想用一些pageID迭代所有的网页，并在他们的DOM树中提取HTML标题/其他东西。除了网页抓取以外，还有其他方法吗？感谢

0热度

3回答

确定网站的数量在网站上的蟒蛇

我有以下链接： http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-0001&language=EN URL的参考部分包含以下信息： A7 ==议会（目前为第七议会，前者是A6等） 2010年== 0001 ==文档编号对于每年和议会，我想确定网站上的文件数量。例如，2010年的

4热度

2回答

Perl网页抓取工具，从DIV中提取内容只有“风格”标签？

我被困在这一点，一直都是一天..我仍然很新，解析/刮在Perl中，但我认为我把它放下，直到这..我一直在尝试这与不同的perl模块（tokeparser， tokeparser：简单的，网页解析器和其他一些）...我有以下字符串（实际上它实际上是一个完整的HTML页面，但这只是显示相关的部分..我试图提取“text1”和“text1_a ” ..等（以下简称‘text1’中，等的只是把在那里为例）

0热度

2回答

cURL错误 - “无法解析主机：www.bbb.org（;没有请求类型的数据记录”

我想用cURL访问http://www.bbb.org/us/Find-Business-Reviews/的数据现在我使用HTTPFox来查看此站点发送的数据并作出相应的阵列，以“POST”的页面，但我有在访问第2,3,4,5问题... 这里是阵列 - $array = Array(); $array['__EVENTTARGET'] = 'ctl12$gc1$s$gridResults$ctl