screen-scraping

2热度

1回答

我想制作一个既难以筛选又难以访问的网站。那是一个oxymoron？

0热度

2回答

在Wordpress网站上，我既有一个我希望Google检测到的正常博客，也有一个RSS源，用于向其他网站发送链接。我不需要/想让机器人获得其他RSS源，也不希望人们能够获取链接以供自己使用。我已经成功禁用了主博客的RSS，但不确定如何加密/保护/隐藏RSS链接以获取此附加提要。我不确定Facebook如何在没有RSS的情况下运行新闻传递，但是他们这样做可能超出了我的复制手段/经验。如果这些

1热度

1回答

如何操作Joomla！易于屏幕抓取的网站

我得到了Joomla的所有者（谁不了解网站开发）的许可！网站从网站中提取文章（真实！）我从RSS提要中获得了网址，但该提要没有包含全文。你知道一种方法来操纵index.php参数来让文章变得干净吗？的URL现在的样子： http://www.example.com/index.php?option=com_content&task=view&id=2093&Itemid=1

3热度

1回答

使用Google App Engine的网页/屏幕抓图 - 代码适用于python解释器，但不适用于GAE

我想用GAE做网页抓取。（无限校园学生信息门户，fyi）。此服务需要您登录才能进入该网站。我有一些代码在正常的python中使用机械化。当我得知我无法在Google App Engine中使用机械化时，我最终使用了urllib2 + ClientForm。我无法让它登录到服务器，所以经过几个小时的cookie处理后，我在普通的python解释器中运行完全相同的代码，并且它工作正常。我找到了日志

2热度

4回答

我应该可以同时打开多少个Java HttpURLConnections？

我在写一个多线程的Java Web爬虫。根据我对网络的理解，当用户加载网页时，浏览器请求第一个文档（例如index.html），并且当它接收到HTML时，它将查找需要包含的其他资源（图像，CSS，JS ）并同时要求这些资源。我的搜寻器只请求原始文档。出于某种原因，我无法每5秒钟刮掉2到5页。我为每个HttpURLConnection创建一个新线程。我似乎应该至少能够每秒钟扫描20-40页。如果我

7热度

4回答

涉及具有属性的HTML标记的Python网络抓取

我正在试图制作一个网络抓取工具，它将解析出版物的网页并提取作者。该网页的骨骼结构如下： <html> <body> <div id="container"> <div id="contents"> <table> <tbody> <tr> <td class="author">####I want whatever is located here ###</td> </tr> <

0热度

4回答

如何从表单上的隐藏字段中提取值

我有我想要提取的隐藏值的表单（在我自己的博客/ cms安装中，我想玩一下）。问题是该页面上有两个表单，每个表单都带有该值的隐藏字段。在每个表单字段名称是相同的，只有隐藏的值不同。类似这样的： <input type="hidden" id="_hiddenname" name="_hiddenname" value="valuehere"/> 两者在html源代码中看起来相同。所以，为了帮助自

4热度

3回答

如何查询我的数据库中用户的排名，但只考虑每个用户的最新条目？

可以说我有所谓的“刮”可能设置像一个数据库表： UserID (int) UserName (varchar) Wins (int) Losses (int) ScrapeDate (datetime) 我想能够根据他们的胜利/损失比率排名我的用户。但是，每周我都会为用户提供新的数据，并在Scrape表中创建另一个条目。如何查询根据胜/损失排序的用户列表，但仅考虑最近的条目（Scra

0热度

3回答

如何使用PHP和DOM文档获取特定内容？

我有一个我想抢的网址。我只想要一小段内容。有问题的内容是一个具有样本ID的div。 <div id="sample"> Content </div> 我可以抓取文件像这样： $url= file_get_contents('http://www.example.com/'); 但我怎么只选择样品股利。任何想法？

2热度

1回答

C＃ - 从现有流程中读取文本

我们必须从现有VB6应用程序中读取文本。所以我们在kernel32中使用FindWindow，GetWindowText和EnumChildWindows方法，并且可以在这个过程中枚举和读取显示的文本。我们能够使用我们的方法读取90％的文本，但总体上有一个我们无法阅读的特定控件（或框）。我们不能使用UI间谍类型程序来定位我们需要阅读的文本，所以我假设他们必须将它直接渲染到GDI/GDI +的屏