2012-05-23 51 views
0

我有一个项目正在努力。我使用php和mysql作为后端。问题是我需要为超过10k个产品创建一个在线目录...每个产品都有pdf文件作为附件。现在我无法一一浏览他们......所以在这里,请您向专家提出建议。如何从供应商网页获得这些数据,并且有一些扩展名为.jsp?有没有一种方法可以在不逐一提取大量数据的情况下?谢谢你,期待你的建议。从网站提取数据php

+2

它被称为屏幕抓取,你不应该这样做。询问您的供应商是否具有导出功能或进行批量数据传输的方式。 –

+2

您的供应商是否提供了某种API来交谈?未经同意,刮刮不允许。首先请您的供应商简单地访问他们的产品列表。 – Styxxy

+0

我们正在努力做到这一点...要求他们给我们提供数据,但即使他们没有适当的媒介来传递这些数据(因为它没有格式或在一个地方)。但是,如果我们从他们的网站上复制任何我们想要的东西,他们并不介意。 –

回答

1

是的,请联系您的供应商获取产品信息。如果你刮和重新发布他们的网站,他们不会感到好笑。

有没有办法提取这个庞大的数据量,而不是一个一个地去做?

不,没有其他方法可以比访问每个产品页面。你不能存储你没有收到的数据。

1

这是非常糟糕的做法 - 它很慢,您的供应商不会喜欢它我猜,当供应商的html代码在他们的网站上发生变化时,您的代码会变成垃圾。

所以最好的方法是使用一些API,如果他们提供任何。如果你真的需要解析其他网站的HTML代码,你应该试试cURL

0

询问供应商他们是否有可以与之互动的Web服务或API。