2009-10-24 75 views
0

我是新来的python。我想从CNN网站中提取一些文本。
我想使用python win32com模块。
编辑:关于[为什么win32com]
由于在网站中的JavaScript ...我想用win32com;我已经寻找其他解决方案,但在我的要求方面没有成功。事实上,我想使用机械化或类似的解决方案,但这并不适合[对我]。与python的win32com和解析html问题

是否有可能使用beautifulsoupLXMLwin32com
任何人都知道如何从cnn webiste中提取一些文本,请帮助我! 具体来说,我想从'赞助链接

import win32com.client 
from time import sleep 
from win32com.client import Dispatch 
import urllib,urllib2 
from BeautifulSoup import BeautifulSoup 

ie = Dispatch("InternetExplorer.Application") 
ie.Visible = 1 
ie.Navigate("http://www.cnn.com") 
sleep(15) 
ie.Quit() 

回答

1

你试图解析在CNN的网站一些文字在CNN网站上提取文本?

您可以

import urllib 
f = urllib.urlopen('http://www.cnn.com') 
page = f.read() 
f.close() 

获取页面然后可以使用BeautifulSoup找到什么是你正在寻找的页面上。

为什么选择win32com,dispatch等?

+0

嗨,因为在网站中的JavaScript ...我想使用win32com。我被寻找其他解决方案,但没有太多的成功与我的要求。如果可能的话,其实我想用机械化或类似的解决方案,但不能成功 – paul 2009-10-25 03:30:05

+0

也许这篇文章中的信息将有所帮助:http://stackoverflow.com/questions/1546089/web-scraping-a-problem-site否则,请张贴您想要做的更多细节。你想要关注右侧的赞助商链接和顶部的金钱链接吗? – foosion 2009-10-25 10:55:42

+0

你好, 其实即时通讯网刮板。 和刮是没有问题的JavaScript。 做了刮板后,我会添加一些其他功能,那时候我会遇到很多javascript, 为什么我尝试使用PAMIE或IE http://elca.pastebin.com/m52e7d8e0 我附上了当前刮板脚本源代码。 尤其是我想将'thepage = urllib.urlopen(theurl).read()'改为PAMIE方法。如果可能的话,你可以检查它并纠正我吗? 在此先感谢.. – paul 2009-10-26 02:09:54