2009-02-06 62 views
3

我正在开发一个电子商务搜索引擎,可以让您搜索很多电子商务网站上的产品。编写一个C#程序,扫描电子商务网站,并从中提取产品图片+价格+描述

我该如何处理此事?

我需要一个应用程序,它能够扫描网站,解析它们的HTML并确定网站中的哪些图像是产品图像,即产品说明,即产品价格。

很高兴听到任何想法,例如。

在此先感谢。

编辑: 我的问题不是如何从网站获取HTML(称为屏幕抓取),而是关于如何解析该信息并了解哪些html包含我正在查找的实际数据,以及这不是。

+0

它被称为屏幕刮。查看标签。 – Cerebrus 2009-02-06 07:08:53

+0

听起来像http://www.shopbot.com.au/ – Simon 2009-02-07 01:59:16

回答

2

您可能会感兴趣this thread对您的任务很有帮助。我已经概述了那里的基本步骤。以下是SO上标记为“Screen-scraping”的所有问题的链接。此外,网上有很多资料 - Google

1

大部分你会被抓取的网站(更准确地说是web-scraping)都有合作伙伴的API用于“经销商”类型的交易。为了规避屏幕抓取,您的IP很快会被他们的流量服务器阻止,并有可能使您处于法律状态。

这是道德上可疑的充其量。