0
我是新来的python。我想从CNN网站中提取一些文本。
我想使用python win32com模块。
编辑:关于[为什么win32com]
由于在网站中的JavaScript ...我想用win32com;我已经寻找其他解决方案,但在我的要求方面没有成功。事实上,我想使用机械化或类似的解决方案,但这并不适合[对我]。与python的win32com和解析html问题
是否有可能使用beautifulsoup或LXML与win32com?
任何人都知道如何从cnn webiste中提取一些文本,请帮助我! 具体来说,我想从'赞助链接“钱”
import win32com.client
from time import sleep
from win32com.client import Dispatch
import urllib,urllib2
from BeautifulSoup import BeautifulSoup
ie = Dispatch("InternetExplorer.Application")
ie.Visible = 1
ie.Navigate("http://www.cnn.com")
sleep(15)
ie.Quit()
嗨,因为在网站中的JavaScript ...我想使用win32com。我被寻找其他解决方案,但没有太多的成功与我的要求。如果可能的话,其实我想用机械化或类似的解决方案,但不能成功 – paul 2009-10-25 03:30:05
也许这篇文章中的信息将有所帮助:http://stackoverflow.com/questions/1546089/web-scraping-a-problem-site否则,请张贴您想要做的更多细节。你想要关注右侧的赞助商链接和顶部的金钱链接吗? – foosion 2009-10-25 10:55:42
你好, 其实即时通讯网刮板。 和刮是没有问题的JavaScript。 做了刮板后,我会添加一些其他功能,那时候我会遇到很多javascript, 为什么我尝试使用PAMIE或IE http://elca.pastebin.com/m52e7d8e0 我附上了当前刮板脚本源代码。 尤其是我想将'thepage = urllib.urlopen(theurl).read()'改为PAMIE方法。如果可能的话,你可以检查它并纠正我吗? 在此先感谢.. – paul 2009-10-26 02:09:54