web-crawler

5热度

4回答

我想开发一个使用Erlang，Mnesia & Yaws的网络搜索引擎。是否有可能使用这些软件制作功能强大且速度最快的网络搜索引擎？它需要做什么来完成这个任务，以及我如何开始？

11热度

9回答

我刚开始考虑今天创建/定制网络爬虫，并且对网络爬虫/机器人礼仪知之甚少。我发现的大部分礼仪文章看起来都很老旧，很尴尬，所以我想从网络开发者社区获得一些当前（和实用）的见解。我想使用爬虫遍历“网络”以实现超级简单的目的 - “网站XYZ的标记是否满足条件ABC？”。这引发了很多问题要问我，但我想我需要走出的第一方式的两个主要问题是：感觉有点“玄乎”从一开始走 - 这种事情是可以接受的吗？抓取

2热度

1回答

是否有一个搜索引擎，包括索引bot，可以通过向bot提供某些属性来构成特殊目录？

我们的应用程序（C＃/。NET）需要大量的查询来搜索。 Google每天的50,000条政策是不够的。我们需要通过我们设置的特定规则（例如国家/地区域）来抓取互联网网站，并收集网址，文本，关键字和网站名称，并创建我们自己的内部目录，这样我们就不会受限于任何大规模的外部搜索引擎像谷歌或雅虎。有没有免费的开源解决方案可以用来在我们的服务器上安装？重新发明车轮没有意义。

8热度

2回答

HttpBrowserCapabilities.Crawler属性.NET

HttpBrowserCapabilities.Crawler属性（http://msdn.microsoft.com/en-us/library/aa332775(VS.71).aspx）如何工作？我需要检测合作伙伴的自定义爬虫，并且此属性返回false。 Where /如何添加他的用户代理，以便该属性返回true？除了创建我自己的用户代理检测机制之外的任何其他方式？

18热度

5回答

如何设置一个只允许网站默认页面的robot.txt

假设我有一个网站http://example.com。我真的想让机器人看到主页，但任何其他页面都需要封锁，因为它对蜘蛛毫无意义。换句话说 http://example.com & http://example.com/应该被允许，但 http://example.com/anything和http://example.com/someendpoint.aspx应该被阻止。而且这将是巨大的，如果我

0热度

4回答

将asp.net动态网站转换为静态网站的工具

是否有任何工具可以蜘蛛网站并创建静态网站？

168热度

4回答

保持rsync删除未完成的源文件

我有两台机器，速度和质量。速度有一个快速的互联网连接，并运行一个抓取器，它将大量文件下载到磁盘。质量有很多磁盘空间。我想在完成下载后将文件从速度转移到大量文件。理想情况下，我只是运行： $ rsync --remove-source-files speed:/var/crawldir . 但我担心rsync将取消尚未完成下载的源文件的链接。（我查看了源代码，但没有看到任何保护措施。）有什么建

7热度

5回答

你如何将一个动态站点变成一个可以从CD演示的静态站点？

我需要找到一种方法来抓取我们公司的一个Web应用程序，并从中创建一个静态网站，该网站可以刻录成CD，供旅游销售人员用来演示网站。后端数据存储分布在许多系统中，因此仅仅在销售人员的笔记本电脑上的虚拟机上运行该站点将不起作用。他们不会在某些客户端访问互联网（没有互联网，手机......原始人，我知道）。有没有人有任何可以处理链接清理，flash，ajax，css等的抓取工具的好建议？我知道赔率很渺茫