screen-scraping

    0热度

    3回答

    总体规划 让我的类信息来自动优化并利用其 企业登录引擎登录选择我的单班时间表的网站 整个算法 登录到 查找我当前的学期及其 相关科目(预设) 导航到正确的页面,并从各相关 被摄体的数据(讲座,实用, 车间倍) 地带无用 信息 排名的数据,更接近 对方更高的班,在 随机天低 的人解决一个最佳时机解表 输出我 最好的情况下信息 输出我的详细清单的详细列表可能的类信息(一些 可能已满例如) 获得程序来选

    6热度

    5回答

    我需要从网站上抓取一些数据,因为它不能通过他们的网络服务获得。以前我需要这样做时,我使用Apache的HTTP客户端库自己编写了Java代码,以使相关的HTTP调用可以下载数据。通过点击浏览器中的相关屏幕,同时使用Charles web proxy来记录相应的HTTP调用,我想出了需要做出的相关调用。 你可以想象这是一个相当乏味的过程,如果有一个工具可以实际生成对应于浏览器会话的Java代码,我期

    4热度

    1回答

    使用BeautifulSoup 3.1.0.1和Python 2.5.2,并尝试使用法语解析网页。然而,当我打电话的findAll,我得到以下错误: UnicodeEncodeError: 'ASCII' 编解码器不能编码字符U '\ xe9' 在1146的位置是:序数不在范围内(128) 下面是代码我目前正在运行: import urllib2 from BeautifulSoup impor

    0热度

    2回答

    我正在编写一个应用程序,它需要打开浏览器窗口(可能会坚持IE)到使用表单身份验证的网站。诀窍是他们需要进行身份验证,以节省时间,因为我们需要进入的网站数量众多。 (最后我会在屏幕抓取他们和处理数据......但我仍然需要得到认证件工作,使他们能够通过在需要时点击真正的网站。) 我已经得到了Forms Authentication工作,因为我可以使用HttpWebRequest来获取html并将其传

    5热度

    9回答

    在HTML页面上识别结构化数据的最佳算法是什么? 例如Google会在电子邮件中识别住宅/公司的地址,并提供该地址的地图。

    9热度

    2回答

    所有这些类型的网站是否只是非法刮谷歌或其他搜索引擎? 据我可以告诉他们没有'合法'的方式来获得这个数据的商业网站..雅虎! api(http://developer.yahoo.com/search/siteexplorer/V1/inlinkData.html)仅用于非商业用途,Yahoo!老板不允许自动查询等 任何想法?

    1热度

    2回答

    你会如何解决这个问题? 你在刮博客的HTML。博客的某些HTML是博客文章,其中一些是格式化,侧边栏等。您希望能够分辨HTML中的哪些文本属于哪个帖子(即永久链接)(如果有的话)。 我知道你在想什么:你可以看看RSS并忽略HTML!但是,RSS通常只包含非常短的摘录或删除您可能感兴趣的链接。您希望通过同一页面的HTML和RSS一起打败RSS的摘录。 的RSS条目如下: title excer

    12热度

    5回答

    我需要从Windows应用程序中抓取数据以在另一个程序中运行查询。有谁知道在.NET中做这件事的好起点吗?

    3热度

    2回答

    我正在开发一个电子商务搜索引擎,可以让您搜索很多电子商务网站上的产品。 我该如何处理此事? 我需要一个应用程序,它能够扫描网站,解析它们的HTML并确定网站中的哪些图像是产品图像,即产品说明,即产品价格。 很高兴听到任何想法,例如。 在此先感谢。 编辑: 我的问题不是如何从网站获取HTML(称为屏幕抓取),而是关于如何解析该信息并了解哪些html包含我正在查找的实际数据,以及这不是。

    0热度

    5回答

    虽然主题听起来像我正在寻找做一些shifty,我不是;我维护几百个电话运营商使用的内部网站,并且想要添加以下功能: 我想在所有网页的标题中添加一个控件,以捕捉整个图像桌面并将图像作为文件保存到共享网络驱动器,以帮助解决生产问题。这个屏幕截图应用程序将被JavaScript调用。 我已经研究了有关拍摄截图本网站许多线程,和所有的应用程序提供不符合我的需要在以下两种方法之一: 屏幕捕获应用程序有一个G