screen-scraping

    2热度

    1回答

    我想制作一个既难以筛选又难以访问的网站。 那是一个oxymoron?

    0热度

    2回答

    在Wordpress网站上,我既有一个我希望Google检测到的正常博客,也有一个RSS源,用于向其他网站发送链接。我不需要/想让机器人获得其他RSS源,也不希望人们能够获取链接以供自己使用。 我已经成功禁用了主博客的RSS,但不确定如何加密/保护/隐藏RSS链接以获取此附加提要。 我不确定Facebook如何在没有RSS的情况下运行新闻传递,但是他们这样做可能超出了我的复制手段/经验。 如果这些

    1热度

    1回答

    我得到了Joomla的所有者(谁不了解网站开发)的许可!网站从网站中提取文章(真实!) 我从RSS提要中获得了网址,但该提要没有包含全文。 你知道一种方法来操纵index.php参数来让文章变得干净吗? 的URL现在的样子: http://www.example.com/index.php?option=com_content&task=view&id=2093&Itemid=1

    3热度

    1回答

    我想用GAE做网页抓取。 (无限校园学生信息门户,fyi)。此服务需要您登录才能进入该网站。 我有一些代码在正常的python中使用机械化。当我得知我无法在Google App Engine中使用机械化时,我最终使用了urllib2 + ClientForm。我无法让它登录到服务器,所以经过几个小时的cookie处理后,我在普通的python解释器中运行完全相同的代码,并且它工作正常。我找到了日志

    2热度

    4回答

    我在写一个多线程的Java Web爬虫。根据我对网络的理解,当用户加载网页时,浏览器请求第一个文档(例如index.html),并且当它接收到HTML时,它将查找需要包含的其他资源(图像,CSS,JS )并同时要求这些资源。 我的搜寻器只请求原始文档。出于某种原因,我无法每5秒钟刮掉2到5页。我为每个HttpURLConnection创建一个新线程。我似乎应该至少能够每秒钟扫描20-40页。如果我

    7热度

    4回答

    我正在试图制作一个网络抓取工具,它将解析出版物的网页并提取作者。该网页的骨骼结构如下: <html> <body> <div id="container"> <div id="contents"> <table> <tbody> <tr> <td class="author">####I want whatever is located here ###</td> </tr> <

    0热度

    4回答

    我有我想要提取的隐藏值的表单(在我自己的博客/ cms安装中,我想玩一下)。问题是该页面上有两个表单,每个表单都带有该值的隐藏字段。在每个表单字段名称是相同的,只有隐藏的值不同。类似这样的: <input type="hidden" id="_hiddenname" name="_hiddenname" value="valuehere"/> 两者在html源代码中看起来相同。所以,为了帮助自

    4热度

    3回答

    可以说我有所谓的“刮”可能设置像一个数据库表: UserID (int) UserName (varchar) Wins (int) Losses (int) ScrapeDate (datetime) 我想能够根据他们的胜利/损失比率排名我的用户。但是,每周我都会为用户提供新的数据,并在Scrape表中创建另一个条目。 如何查询根据胜/损失排序的用户列表,但仅考虑最近的条目(Scra

    0热度

    3回答

    我有一个我想抢的网址。我只想要一小段内容。有问题的内容是一个具有样本ID的div。 <div id="sample"> Content </div> 我可以抓取文件像这样: $url= file_get_contents('http://www.example.com/'); 但我怎么只选择样品股利。 任何想法?

    2热度

    1回答

    我们必须从现有VB6应用程序中读取文本。所以我们在kernel32中使用FindWindow,GetWindowText和EnumChildWindows方法,并且可以在这个过程中枚举和读取显示的文本。 我们能够使用我们的方法读取90%的文本,但总体上有一个我们无法阅读的特定控件(或框)。 我们不能使用UI间谍类型程序来定位我们需要阅读的文本,所以我假设他们必须将它直接渲染到GDI/GDI +的屏