2012-03-15 45 views
0

我正在实现链接抓取系统,如Facebook的链接共享功能,即用户输入一个通过ajax传递给我们服务器的url,然后我们的服务器执行get请求(使用requests库)并分析响应html Beautiful Soup以捕获有关页面的相关信息。链接抓取系统的安全风险

在这种类型的系统中,显然一个人可以输入他们想要的任何url。我试图想象在这种情况下,我们的服务器可能会面临哪种类型的安全风险?这样的设置是否会被恶意利用?

回答

1

您可能想要确保您的服务器不执行任何插件或复制任何视频/图像。

Javascript更棘手,如果你忽略它,你会错过一些链接,如果你执行它,那么你最好确定你没有被用来做类似发送垃圾邮件的事情。

如果你问这个问题,你可能不太确定!

+0

由于涉及风险,您最好不要尝试执行任何JavaScript。 – SilverlightFox 2012-03-16 14:02:30

1

您应该对RFI/LFI(远程/本地)文件包含漏洞和Iframe攻击执行谷歌搜索。如果你从这两次攻击中获得安全,那么你很好。

1

我已经建立了不少小型&大型爬行系统。其实不知道你在谈论什么样的安全风险。我不清楚你的要求。

但是,如果你正在做的是使用BeautifulSoup &然后提取有关页面的某些东西,如title标签& meta标签信息等获取HTML &然后存储这些数据。我没有看到任何问题。

除非你不盲目地做某种eval无论是在网址的响应或用户输入的东西,你都觉得安全。