web-scraping

    1热度

    2回答

    我现在正在使用BeautifulSoup刮一些网站,但是我有一些特定字符的问题,UnicodeDammit内的代码似乎表明这(再)是一些微软发明的。 我使用BeautifulSoup的最新版本(3.0.8.1),因为我仍在使用的python2.5 下面的代码说明我的问题: from BeautifulSoup import BeautifulSoup soup = BeautifulSoup('

    0热度

    3回答

    我已经撰写了以下试用代码,以从欧洲议会撤回立法行为的标题。 import urllib2 from BeautifulSoup import BeautifulSoup search_url = "http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-%.4d&language

    0热度

    1回答

    因此,我们的前端GUI正在对基于GWT的新应用程序进行大范围的修改。我一直致力于在一些tcl/expect脚本中使用cURL创建旧前端的自动化脚本。当我看到新的应用程序时,我开始越来越意识到cURL不可能完成这些网络交互,并且想知道是否有人对用GWT制作的Web应用程序进行测试有一些想法/经验? 任何帮助将不胜感激!

    0热度

    7回答

    如何使用此输出? Javascript来除去连续的字符是一个给定的字符串是相同(轰炸机算法) 例如: 输入1:aabcccdee aabcccdee-> bcccdee-> bdee-> BD OUTPUT1:BD 输入2:abcdeedcbfgf abcdeedcbfgf- > eeabcddcbfgf-> abcddcbfgf-> abccbfgf-> abbfgf->的aFGF 输出2:的a

    1热度

    2回答

    我目前使用watir做网站抓取隐藏所有数据来自通常的HTML源的网站。如果我没有错,他们正在使用XML和AJAX技术来隐藏它。 Firefox可以看到它,但它通过“DOM源选择”显示。 一切工作正常,但现在我正在寻找一个等效的工具watir,但一切都需要在没有浏览器的情况下完成。一切都需要在txt文件中完成。 事实上,现在watir正在使用我的浏览器来模拟页面,并将我看到的整个html代码返回给我

    -2热度

    2回答

    你能帮我回答下列问题吗? 人们通常如何在游戏中实现定时事件? 示例:您到达某个时间点时会发生一些事情,如出现新的敌人浪潮或类似情况。 制作精灵动画的最佳方法是什么? 示例:Android游戏中的爆炸。

    56热度

    9回答

    我无法找到任何好的网页抓取基于Java的API。我需要刮的网站也不提供任何API;我想用一些pageID迭代所有的网页,并在他们的DOM树中提取HTML标题/其他东西。 除了网页抓取以外,还有其他方法吗? 感谢

    0热度

    3回答

    我有以下链接: http://www.europarl.europa.eu/sides/getDoc.do?type=REPORT&mode=XML&reference=A7-2010-0001&language=EN URL的参考部分包含以下信息: A7 ==议会(目前为第七议会,前者是A6等) 2010年== 0001 ==文档编号 对于每年和议会,我想确定网站上的文件数量。例如,2010年的

    4热度

    2回答

    我被困在这一点,一直都是一天..我仍然很新,解析/刮在Perl中,但我认为我把它放下,直到这..我一直在尝试这与不同的perl模块(tokeparser, tokeparser:简单的,网页解析器和其他一些)...我有以下字符串(实际上它实际上是一个完整的HTML页面,但这只是显示相关的部分..我试图提取“text1”和“text1_a ” ..等(以下简称‘text1’中,等的只是把在那里为例)

    0热度

    2回答

    我想用cURL访问http://www.bbb.org/us/Find-Business-Reviews/的数据现在我使用HTTPFox来查看此站点发送的数据并作出相应的阵列,以“POST”的页面,但我有在访问第2,3,4,5问题... 这里是阵列 - $array = Array(); $array['__EVENTTARGET'] = 'ctl12$gc1$s$gridResults$ctl