screen-scraping

7热度

2回答

是否可以为受表单登录保护的网站编写屏幕截图。当然，我有权访问该网站，但我不知道如何登录该网站并将其凭据保存在C＃中。另外，任何C＃中的屏幕清理器的例子都将非常感谢。这已经完成了吗？

3热度

1回答

所以我试图提取我的网站使用红宝石机械化和hpricot的电子邮件。什么我试图做我的行政管理方面的所有页面上的循环，并用hpricot.so解析页面非常好。然后我得到： Exception `Net::HTTPBadResponse' at /usr/lib/ruby/1.8/net/http.rb:2022 - wrong status line: *SOME HTML CODE HERE*

2热度

2回答

使用Adblock Plus订阅从下载页面中移除广告

我想使用adblosck plus订阅从我即将废弃的网页中移除广告。有没有人使用过这种方法？这种解决方案的性能如何？扩展名本身使用的算法是什么？

0热度

2回答

XULRunner下的javascript服务器失败

我试图调试一个DOM包装打包叫crowbar。总之，当我运行我得到： Error: [Exception... "Component returned failure code: 0xc1f30001 (NS_ERROR_NOT_INITIALIZED) [nsIServerSocket.asyncListen]" nsresult: "0xc1f30001 (NS_ERROR_NOT_INITI

4热度

2回答

如何使机械化不失败与此页上的窗体？

import mechanize url = 'http://steamcommunity.com' br=mechanize.Browser(factory=mechanize.RobustFactory()) br.open(url) print br.request print br.form for each in br.forms(): print each

2热度

2回答

刮多个html文件为CSV

我想刮掉我的硬盘上超过1200个.htm文件的行。在我的电脑上，他们在这里'file：///home/phi/Data/NHL/pl07-08/PL020001.HTM'。这些.htm文件从* 20001.htm开始依次为* 21230.htm。我的计划是最终通过电子表格应用程序在MySQL或SQLite中抛出数据，或者直接从这个过程中获得一个干净的.csv文件。这是我第一次尝试代码（Pytho

0热度

1回答

如何从使用javascript的stackoverflow页面中获取用户号码？

我想设置一个页面（如果它是堆栈溢出的一部分）会生成一个Stackoverflow Flair Blogger小工具。

4热度

3回答

识别敌对网络爬虫

我想知道是否有任何技术来识别收集非法使用信息的网络爬虫。说白了，数据被盗用来创建一个网站的副本。理想情况下，该系统会检测来自未知来源的抓取模式（如果不在列表中，则使用Google抓取工具等），并将伪造信息发送给抓取抓取工具。如果作为防御者，我会定期检测到一个未知的爬行器，它会定时击中站点，攻击者会随机分配这些间隔。如果作为防御者，我检测到相同的代理/ IP，攻击者会随机分配代理。而这正是我

8热度

4回答

使用.NET通过SSL抓取屏幕

通过SSL使用.NET屏幕抓取站点有什么解决方案？我的用例是我需要登录到合作伙伴网站（https），浏览动态层次结构并下载压缩的报告文件。如果.NET中没有好的可行选项，无论是框架还是OSS，我当然可以使用其他屏幕抓取工具。

2热度

2回答

自动化WebTrends分析

每周我都会访问由WebTrends处理的服务器日志（约7个配置文件），并将广告点击和访问者信息复制到Excel电子表格中。很多只是访问某些部分并找到正确的标题，然后复制独特的访问者信息。我尝试过使用WebTrends的内置查询工具，但实际上做得很差（只使用拖放系统而不是基于文本），它有最大数量的参数和查询的最大长度用查询。据我所知，WebTrends中的工具不适合我实现自动化整个Web度量收集过