2012-07-22 63 views
0

我真的很新的c#编程。我想从你们那里得到一些帮助(如果可能的话)。我有一个网站(这是一个购物网站)与数据:产品,价格,描述等。我想要做的是:由于网站具有搜索功能,所以我想通过查询搜索链接并从中获取重要数据(产品编号,名称,价格和描述)从中获取数据。当我执行搜索时,我会看到许多页面,每当我按下下一页时,就会获得带有额外产品列表的新页面。我怎样才能简单地实现这些任务的自动化?查询网站并从中检索公开的数据

我在互联网上搜索了很多我发现我需要使用webclient()正则表达式,我认为可能在页面内容和搜索结果页面上循环是必要的。 你认为家伙怎么样?

Website Example.

I'll欣赏从你身边的任何努力。

+0

为什么你需要刮?如果你有一个网站,你有数据。只需从 – 2012-07-22 16:09:58

回答

0

你所描述的内容叫做刮擦。

你会想要的是使用类似HtmlAgilityPack的东西来获取网站。然后通过使用DOM找到你感兴趣的节点,并阅读它们的内部文本。

整个过程相当复杂,但至少我让你朝正确的方向发展。大多数情况下,搜索网址往往具有相同的格式。

在你的链接,例如

http://cdon.se/hemelektronik/advanced-search?manufacturer-id=&title=.&title-matchtype=1&genre-id=&page-size=15&sort-order=142&page=2

您可以更改“页”是smething否则,你可以去通过这种方式的所有网页。

加入: 也不要尝试使用正则表达式来解析html。它推动一个特定的人疯了......

RegEx match open tags except XHTML self-contained tags

+0

获取它们的存储位置,将“页面”更改为其他内容意味着什么? – 2012-07-22 16:51:29

+0

看看网址。你传递了许多参数。其中之一是(在这种情况下)page = 2。你可以通过page = 3,page = 4等等来获得其余的。你可以把它放到一个循环中,并增加你传递的值。 – Haedrian 2012-07-22 18:21:17