screen-scraping

0热度

3回答

总体规划让我的类信息来自动优化并利用其企业登录引擎登录选择我的单班时间表的网站整个算法登录到查找我当前的学期及其相关科目（预设）导航到正确的页面，并从各相关被摄体的数据（讲座，实用，车间倍）地带无用信息排名的数据，更接近对方更高的班，在随机天低的人解决一个最佳时机解表输出我最好的情况下信息输出我的详细清单的详细列表可能的类信息（一些可能已满例如）获得程序来选

6热度

5回答

自动生成HTTP屏幕抓取Java代码

我需要从网站上抓取一些数据，因为它不能通过他们的网络服务获得。以前我需要这样做时，我使用Apache的HTTP客户端库自己编写了Java代码，以使相关的HTTP调用可以下载数据。通过点击浏览器中的相关屏幕，同时使用Charles web proxy来记录相应的HTTP调用，我想出了需要做出的相关调用。你可以想象这是一个相当乏味的过程，如果有一个工具可以实际生成对应于浏览器会话的Java代码，我期

4热度

1回答

使用BeautifulSoup 3.1.0.1和Python 2.5.2的UnicodeEncodeError

使用BeautifulSoup 3.1.0.1和Python 2.5.2，并尝试使用法语解析网页。然而，当我打电话的findAll，我得到以下错误： UnicodeEncodeError： 'ASCII' 编解码器不能编码字符U '\ xe9' 在1146的位置是：序数不在范围内（128）下面是代码我目前正在运行： import urllib2 from BeautifulSoup impor

0热度

2回答

如何将Cookie传递到外部网络浏览器？

我正在编写一个应用程序，它需要打开浏览器窗口（可能会坚持IE）到使用表单身份验证的网站。诀窍是他们需要进行身份验证，以节省时间，因为我们需要进入的网站数量众多。（最后我会在屏幕抓取他们和处理数据......但我仍然需要得到认证件工作，使他们能够通过在需要时点击真正的网站。）我已经得到了Forms Authentication工作，因为我可以使用HttpWebRequest来获取html并将其传

5热度

9回答

识别网页物理地址的算法

在HTML页面上识别结构化数据的最佳算法是什么？例如Google会在电子邮件中识别住宅/公司的地址，并提供该地址的地图。

9热度

2回答

像Hubspot这样的网站如何跟踪入站链接？

所有这些类型的网站是否只是非法刮谷歌或其他搜索引擎？据我可以告诉他们没有'合法'的方式来获得这个数据的商业网站..雅虎！ api（http://developer.yahoo.com/search/siteexplorer/V1/inlinkData.html）仅用于非商业用途，Yahoo！老板不允许自动查询等任何想法？

1热度

2回答

将RSS条目映射到HTML主体w。非精确搜索

你会如何解决这个问题？你在刮博客的HTML。博客的某些HTML是博客文章，其中一些是格式化，侧边栏等。您希望能够分辨HTML中的哪些文本属于哪个帖子（即永久链接）（如果有的话）。我知道你在想什么：你可以看看RSS并忽略HTML！但是，RSS通常只包含非常短的摘录或删除您可能感兴趣的链接。您希望通过同一页面的HTML和RSS一起打败RSS的摘录。的RSS条目如下： title excer

12热度

5回答

屏幕抓取c中的Windows应用程序＃

我需要从Windows应用程序中抓取数据以在另一个程序中运行查询。有谁知道在.NET中做这件事的好起点吗？

3热度

2回答

编写一个C＃程序，扫描电子商务网站，并从中提取产品图片+价格+描述

我正在开发一个电子商务搜索引擎，可以让您搜索很多电子商务网站上的产品。我该如何处理此事？我需要一个应用程序，它能够扫描网站，解析它们的HTML并确定网站中的哪些图像是产品图像，即产品说明，即产品价格。很高兴听到任何想法，例如。在此先感谢。编辑：我的问题不是如何从网站获取HTML（称为屏幕抓取），而是关于如何解析该信息并了解哪些html包含我正在查找的实际数据，以及这不是。

0热度

5回答

有没有人知道可以从JavaScript调用来创建和保存桌面屏幕截图的无GUI应用程序？

虽然主题听起来像我正在寻找做一些shifty，我不是;我维护几百个电话运营商使用的内部网站，并且想要添加以下功能：我想在所有网页的标题中添加一个控件，以捕捉整个图像桌面并将图像作为文件保存到共享网络驱动器，以帮助解决生产问题。这个屏幕截图应用程序将被JavaScript调用。我已经研究了有关拍摄截图本网站许多线程，和所有的应用程序提供不符合我的需要在以下两种方法之一：屏幕捕获应用程序有一个G