screen-scraping

    7热度

    2回答

    是否可以为受表单登录保护的网站编写屏幕截图。当然,我有权访问该网站,但我不知道如何登录该网站并将其凭据保存在C#中。另外,任何C#中的屏幕清理器的例子都将非常感谢。 这已经完成了吗?

    3热度

    1回答

    所以我试图提取我的网站使用红宝石机械化和hpricot的电子邮件。 什么我试图做我的行政管理方面的所有页面上的循环,并用hpricot.so解析页面非常好。然后我得到: Exception `Net::HTTPBadResponse' at /usr/lib/ruby/1.8/net/http.rb:2022 - wrong status line: *SOME HTML CODE HERE*

    2热度

    2回答

    我想使用adblosck plus订阅从我即将废弃的网页中移除广告。有没有人使用过这种方法?这种解决方案的性能如何?扩展名本身使用的算法是什么?

    0热度

    2回答

    我试图调试一个DOM包装打包叫crowbar。总之,当我运行我得到: Error: [Exception... "Component returned failure code: 0xc1f30001 (NS_ERROR_NOT_INITIALIZED) [nsIServerSocket.asyncListen]" nsresult: "0xc1f30001 (NS_ERROR_NOT_INITI

    4热度

    2回答

    import mechanize url = 'http://steamcommunity.com' br=mechanize.Browser(factory=mechanize.RobustFactory()) br.open(url) print br.request print br.form for each in br.forms(): print each

    2热度

    2回答

    我想刮掉我的硬盘上超过1200个.htm文件的行。在我的电脑上,他们在这里'file:///home/phi/Data/NHL/pl07-08/PL020001.HTM'。这些.htm文件从* 20001.htm开始依次为* 21230.htm。我的计划是最终通过电子表格应用程序在MySQL或SQLite中抛出数据,或者直接从这个过程中获得一个干净的.csv文件。 这是我第一次尝试代码(Pytho

    0热度

    1回答

    我想设置一个页面(如果它是堆栈溢出的一部分)会生成一个Stackoverflow Flair Blogger小工具。

    4热度

    3回答

    我想知道是否有任何技术来识别收集非法使用信息的网络爬虫。说白了,数据被盗用来创建一个网站的副本。 理想情况下,该系统会检测来自未知来源的抓取模式(如果不在列表中,则使用Google抓取工具等),并将伪造信息发送给抓取抓取工具。 如果作为防御者,我会定期检测到一个未知的爬行器,它会定时击中站点,攻击者会随机分配这些间隔。 如果作为防御者,我检测到相同的代理/ IP,攻击者会随机分配代理。 而这正是我

    8热度

    4回答

    通过SSL使用.NET屏幕抓取站点有什么解决方案? 我的用例是我需要登录到合作伙伴网站(https),浏览动态层次结构并下载压缩的报告文件。 如果.NET中没有好的可行选项,无论是框架还是OSS,我当然可以使用其他屏幕抓取工具。

    2热度

    2回答

    每周我都会访问由WebTrends处理的服务器日志(约7个配置文件),并将广告点击和访问者信息复制到Excel电子表格中。很多只是访问某些部分并找到正确的标题,然后复制独特的访问者信息。 我尝试过使用WebTrends的内置查询工具,但实际上做得很差(只使用拖放系统而不是基于文本),它有最大数量的参数和查询的最大长度用查询。据我所知,WebTrends中的工具不适合我实现自动化整个Web度量收集过