screen-scraping

2热度

1回答

我目前正在开发一个使用SpicIE的IE插件。这个插件做一些网页刮类似于发布MSDN上的例子： WebRequest request = WebRequest.Create ("http://www.contoso.com/default.html"); request.Credentials = CredentialCache.DefaultCredentials; HttpWebRe

0热度

3回答

我该如何屏幕抓取网页邮件页面？

我正在做一个项目，其中我需要登录到一个网站和刮网页内容。我试了下面的代码： protected void Page_Load(object sender, EventArgs e) { WebClient webClient = new WebClient(); string strUrl = "http://www.mail.yahoo.com?username=sakth

0热度

2回答

卷曲功能选择从一个选择框，自动选择提交

我是一个新手，并尝试不同的事情每天总是来这里时，我坚持的东西。我想用curl和php编写一个脚本到这个链接：http://tools.cisco.com/WWChannels/LOCATR/openBasicSearch.do然后遍历每个国家的每个页面，捕获每个国家每个合作伙伴的列表并将其保存到数据库。我没有想法脚本将如何选择国家一个接一个地从选择框，重定向页面，国家页面......这是应该做

5热度

1回答

Python获取来自asp.net AJAX应用程序的数据

使用Python，我试图读取http://utahcritseries.com/RawResults.aspx上的值。我可以很好地阅读该页面，但无法更改年份组合框的值，以查看其他年份的数据。我怎样才能读取2002年以外的其他年份的数据？该页面在年份组合框更改后似乎正在执行HTTP Post。该控件的名称是ct100 $ ContentPlaceHolder1 $ ddlSeries。我尝试使用u

0热度

2回答

是否有可能从Myspace页面即将获得即将举办的活动/展示信息而无需刮脸？

我想从myspace艺术家那里获取演出信息。我可以做到这一点的一个方法是让艺术家输入他们的MySpace网址，我可以尝试抓取页面。我真正想要做的是向艺术家索取他们的myspace凭证，并使用myspace api获取他们的演出数据。我无法找到如何在myspace开发者网站上做到这一点。有人知道吗？而作为一个侧面的问题，如果我决定去页面抓取路线，这是合法的吗？我觉得很多人都这样做。

2热度

3回答

如何以最佳方式代表第三方筛选密码保护网站？

我想编写一个程序，分析你的幻想棒球队，并通知你建议的行动，可能每天多次。问题是，你不是在我的网站上玩奇幻棒球，你是在雅虎，cbs或espn等游戏。在大多数这些网站上，幻想团队和联盟都不公开，所以您必须先登录并加入联盟成员才能看到联盟的球队。我需要的是每个这些网站上的团队页面的纯HTML，这些网站将发送到我的服务器，然后我可以解析并分析该文件并发送用户通知。问题是我需要用户名/密码组合来轻松地

3热度

4回答

如何使用Perl登录YouTube？

我正在尝试编写一个Perl脚本来连接到我的YouTube帐户，但它似乎不起作用。基本上我只想连接到我的帐户，但显然它不工作。我甚至没有关于如何调试的想法！也许这与https协议有关？请赐教！提前致谢。 use HTTP::Request::Common; use LWP::UserAgent; use strict; my $login="test"; my $pass = "test

0热度

2回答

.NET WebRequest/WebResponse可以正确转换重音标记，变音标记和实体吗？

我是使用.NET的WebRequest作为临时黑客“屏幕抓取”自己的页面。这很好，但重音字符和变音字符不能正确翻译。我想知道是否有一种方法可以使用.NET的许多内置属性和方法正确转换它们。这里是我用抢的页面代码： private string getArticle(string urlToGet) { StreamReader oSR = null; //Here'

2热度

2回答

python- is beautifulsoup misreporting my html？

我有两台机器，据我所知，运行python 2.5和BeautifulSoup 3.1.0.1。我想刮http://utahcritseries.com/RawResults.aspx，使用： from BeautifulSoup import BeautifulSoup import urllib2 base_url = "http://www.utahcritseries.com/Raw

4热度

2回答

美丽的汤和uTidy

我想传递的utidy到美丽的汤，结果，鼻翼： page = urllib2.urlopen(url) options = dict(output_xhtml=1,add_xml_decl=0,indent=1,tidy_mark=0) cleaned_html = tidy.parseString(page.read(), **options) soup = BeautifulSoup(cl