大学课程网站的网页抓取/解析

试图解析/抓取孟菲斯的课程网站。该网站是“https://spectrumssb2.memphis.edu/pls/PROD/bwckgens.p_proc_term_date”。它似乎是某种JavaScript问题，或动态生成的文本。我可以用livehttpdheaders/Firefox中看到潜在的DOM结构，而不是当我简单地查看该页面的底层源/文..大学课程网站的网页抓取/解析

思想/评论/指针，将不胜感激......

2009-12-17 tom smith

哦。忘了提。一旦我找出如何实际访问底层文本/数据，我最终将使用python/urllib/mechanize来解析网站。谢谢！ – 2009-12-17 00:40:17

如果没有登录，则无法查看。 – phoebus 2009-12-17 00:40:54

嗯，这现代现场可能会在几个步骤内组装。首先拉入主结构，然后通常根据用户的身份执行额外的AJAX调用。最好的办法是嗅探HTTP看到什么样的网站之间发出的请求的最初要求，当由于您使用萤火虫它完全建立

你可以得到HttpFox add-on它给你什么，你需要

2009-12-17 01:15:47 Bostone

嘿... 感谢您的回复。看起来像是在浏览器中设置cookie的问题。当cookies被禁用时，我可以看到源/文本，我需要创建一个快速python测试来获取文本的饼干disbaled，以查看文本是否通过... 谢谢！ – 2009-12-17 15:27:54

回答