2009-12-17 62 views
0

试图解析/抓取孟菲斯的课程网站。该网站是“https://spectrumssb2.memphis.edu/pls/PROD/bwckgens.p_proc_term_date”。它似乎是某种JavaScript问题,或动态生成的文本。我可以用livehttpdheaders/Firefox中看到潜在的DOM结构,而不是当我简单地查看该页面的底层源/文..大学课程网站的网页抓取/解析

思想/评论/指针,将不胜感激......

+0

哦。忘了提。一旦我找出如何实际访问底层文本/数据,我最终将使用python/urllib/mechanize来解析网站。 谢谢! – 2009-12-17 00:40:17

+3

如果没有登录,则无法查看。 – phoebus 2009-12-17 00:40:54

回答

0

嗯,这现代现场可能会在几个步骤内组装。首先拉入主结构,然后通常根据用户的身份执行额外的AJAX调用。最好的办法是嗅探HTTP看到什么样的网站之间发出的请求的最初要求,当由于您使用萤火虫它完全建立

你可以得到HttpFox add-on它给你什么,你需要

+0

嘿... 感谢您的回复。看起来像是在浏览器中设置cookie的问题。当cookies被禁用时,我可以看到源/文本,我需要创建一个快速python测试来获取文本的饼干disbaled,以查看文本是否通过... 谢谢! – 2009-12-17 15:27:54