编写一个C＃程序，扫描电子商务网站，并从中提取产品图片+价格+描述

我正在开发一个电子商务搜索引擎，可以让您搜索很多电子商务网站上的产品。编写一个C＃程序，扫描电子商务网站，并从中提取产品图片+价格+描述

我该如何处理此事？

我需要一个应用程序，它能够扫描网站，解析它们的HTML并确定网站中的哪些图像是产品图像，即产品说明，即产品价格。

很高兴听到任何想法，例如。

在此先感谢。

编辑：我的问题不是如何从网站获取HTML（称为屏幕抓取），而是关于如何解析该信息并了解哪些html包含我正在查找的实际数据，以及这不是。

它被称为屏幕刮。查看标签。 – Cerebrus 2009-02-06 07:08:53

听起来像http://www.shopbot.com.au/ – Simon 2009-02-07 01:59:16

您可能会感兴趣this thread对您的任务很有帮助。我已经概述了那里的基本步骤。以下是SO上标记为“Screen-scraping”的所有问题的链接。此外，网上有很多资料 - Google。

2009-02-06 07:11:10 Cerebrus

大部分你会被抓取的网站（更准确地说是web-scraping）都有合作伙伴的API用于“经销商”类型的交易。为了规避屏幕抓取，您的IP很快会被他们的流量服务器阻止，并有可能使您处于法律状态。

这是道德上可疑的充其量。

2009-02-06 07:14:12 annakata

回答