我正在实现链接抓取系统,如Facebook的链接共享功能,即用户输入一个通过ajax传递给我们服务器的url,然后我们的服务器执行get请求(使用requests库)并分析响应html Beautiful Soup以捕获有关页面的相关信息。链接抓取系统的安全风险
在这种类型的系统中,显然一个人可以输入他们想要的任何url。我试图想象在这种情况下,我们的服务器可能会面临哪种类型的安全风险?这样的设置是否会被恶意利用?
我正在实现链接抓取系统,如Facebook的链接共享功能,即用户输入一个通过ajax传递给我们服务器的url,然后我们的服务器执行get请求(使用requests库)并分析响应html Beautiful Soup以捕获有关页面的相关信息。链接抓取系统的安全风险
在这种类型的系统中,显然一个人可以输入他们想要的任何url。我试图想象在这种情况下,我们的服务器可能会面临哪种类型的安全风险?这样的设置是否会被恶意利用?
您可能想要确保您的服务器不执行任何插件或复制任何视频/图像。
Javascript更棘手,如果你忽略它,你会错过一些链接,如果你执行它,那么你最好确定你没有被用来做类似发送垃圾邮件的事情。
如果你问这个问题,你可能不太确定!
我已经建立了不少小型&大型爬行系统。其实不知道你在谈论什么样的安全风险。我不清楚你的要求。
但是,如果你正在做的是使用BeautifulSoup &然后提取有关页面的某些东西,如title
标签& meta
标签信息等获取HTML &然后存储这些数据。我没有看到任何问题。
除非你不盲目地做某种eval
无论是在网址的响应或用户输入的东西,你都觉得安全。
由于涉及风险,您最好不要尝试执行任何JavaScript。 – SilverlightFox 2012-03-16 14:02:30