2012-01-14 58 views
0

我正在asp.net中创建一个网站,但我有一些问题。如何在asp.net后端运行爬虫?

我编写了一个程序,可以抓取给定的网页,即thenextweb.com的链接,以及内容和图像。

现在我想将这些已抓取的数据存储在我的表* Crawlr_Data *中。

我希望爬行器每隔30分钟运行一次,并使用新链接更新表(如果可用)。

{在我的网站我显示存储在数据库中的信息的主页}

我如何可以运行在后端的履带和更新数据库? 什么技术,如(Web服务,WCF)我应该使用或在Visual Studio中的任何其他东西我可以用,这样我如果主机网站在线履带式推土机在后台继续运行和更新表}

请建议 感谢

回答

0

有两种方法可以在Microsoft堆栈中执行此操作。

  1. 创建一个服务在服务器上运行。服务在唤醒和爬行时可以自行管理。

  2. 创建一个控制台应用程序进行爬网。尽可能经常地使用Windows任务计划程序作为计划任务运行控制台应用程序。

我想有其他的方法来做到这一点 - 所以说,只有两个是不完全准确 - 有第三方程序,会为你做它也......我希望大多数如果不是所有这些都是作为服务来实现的。您也可以编写一个在服务器上运行的程序,而不是作为控制台应用程序或服务。但这通常是一个糟糕的主意。

+0

控制台应用程序能够在线共享主机上运行吗?那么Web服务呢? (共享托管计划) – ItsLockedOut 2012-01-14 06:14:33

+0

可能不是。取决于你的主机公司。 – Hogan 2012-01-14 06:21:40