screen-scraping

    2热度

    1回答

    我目前正在开发一个使用SpicIE的IE插件。 这个插件做一些网页刮类似于发布MSDN上的例子: WebRequest request = WebRequest.Create ("http://www.contoso.com/default.html"); request.Credentials = CredentialCache.DefaultCredentials; HttpWebRe

    0热度

    3回答

    我正在做一个项目,其中我需要登录到一个网站和刮网页内容。我试了下面的代码: protected void Page_Load(object sender, EventArgs e) { WebClient webClient = new WebClient(); string strUrl = "http://www.mail.yahoo.com?username=sakth

    0热度

    2回答

    我是一个新手,并尝试不同的事情每天总是来这里时,我坚持的东西。 我想用curl和php编写一个脚本到这个链接:http://tools.cisco.com/WWChannels/LOCATR/openBasicSearch.do然后遍历每个国家的每个页面,捕获每个国家每个合作伙伴的列表并将其保存到数据库。 我没有想法脚本将如何选择国家一个接一个地从选择框,重定向页面,国家页面......这是应该做

    5热度

    1回答

    使用Python,我试图读取http://utahcritseries.com/RawResults.aspx上的值。我可以很好地阅读该页面,但无法更改年份组合框的值,以查看其他年份的数据。我怎样才能读取2002年以外的其他年份的数据? 该页面在年份组合框更改后似乎正在执行HTTP Post。该控件的名称是ct100 $ ContentPlaceHolder1 $ ddlSeries。我尝试使用u

    0热度

    2回答

    我想从myspace艺术家那里获取演出信息。我可以做到这一点的一个方法是让艺术家输入他们的MySpace网址,我可以尝试抓取页面。 我真正想要做的是向艺术家索取他们的myspace凭证,并使用myspace api获取他们的演出数据。我无法找到如何在myspace开发者网站上做到这一点。有人知道吗? 而作为一个侧面的问题,如果我决定去页面抓取路线,这是合法的吗?我觉得很多人都这样做。

    2热度

    3回答

    我想编写一个程序,分析你的幻想棒球队,并通知你建议的行动,可能每天多次。问题是,你不是在我的网站上玩奇幻棒球,你是在雅虎,cbs或espn等游戏。 在大多数这些网站上,幻想团队和联盟都不公开,所以您必须先登录并加入联盟成员才能看到联盟的球队。 我需要的是每个这些网站上的团队页面的纯HTML,这些网站将发送到我的服务器,然后我可以解析并分析该文件并发送用户通知。 问题是我需要用户名/密码组合来轻松地

    3热度

    4回答

    我正在尝试编写一个Perl脚本来连接到我的YouTube帐户,但它似乎不起作用。基本上我只想连接到我的帐户,但显然它不工作。我甚至没有关于如何调试的想法!也许这与https协议有关? 请赐教!提前致谢。 use HTTP::Request::Common; use LWP::UserAgent; use strict; my $login="test"; my $pass = "test

    0热度

    2回答

    我是使用.NET的WebRequest作为临时黑客“屏幕抓取”自己的页面。 这很好,但重音字符和变音字符不能正确翻译。 我想知道是否有一种方法可以使用.NET的许多内置属性和方法正确转换它们。 这里是我用抢的页面代码: private string getArticle(string urlToGet) { StreamReader oSR = null; //Here'

    2热度

    2回答

    我有两台机器,据我所知,运行python 2.5和BeautifulSoup 3.1.0.1。 我想刮http://utahcritseries.com/RawResults.aspx,使用: from BeautifulSoup import BeautifulSoup import urllib2 base_url = "http://www.utahcritseries.com/Raw

    4热度

    2回答

    我想传递的utidy到美丽的汤,结果,鼻翼: page = urllib2.urlopen(url) options = dict(output_xhtml=1,add_xml_decl=0,indent=1,tidy_mark=0) cleaned_html = tidy.parseString(page.read(), **options) soup = BeautifulSoup(cl