与python的win32com和解析html问题

我是新来的python。我想从CNN网站中提取一些文本。
我想使用python win32com模块。
编辑：关于[为什么win32com]
由于在网站中的JavaScript ...我想用win32com;我已经寻找其他解决方案，但在我的要求方面没有成功。事实上，我想使用机械化或类似的解决方案，但这并不适合[对我]。与python的win32com和解析html问题

是否有可能使用beautifulsoup或LXML与win32com？
任何人都知道如何从cnn webiste中提取一些文本，请帮助我！具体来说，我想从'赞助链接“钱”

import win32com.client 
from time import sleep 
from win32com.client import Dispatch 
import urllib,urllib2 
from BeautifulSoup import BeautifulSoup 

ie = Dispatch("InternetExplorer.Application") 
ie.Visible = 1 
ie.Navigate("http://www.cnn.com") 
sleep(15) 
ie.Quit()

来源

2009-10-24 paul

你试图解析在CNN的网站一些文字在CNN网站上提取文本？

您可以

import urllib 
f = urllib.urlopen('http://www.cnn.com') 
page = f.read() 
f.close()

获取页面然后可以使用BeautifulSoup找到什么是你正在寻找的页面上。

为什么选择win32com，dispatch等？

来源

2009-10-24 23:43:44 foosion

嗨，因为在网站中的JavaScript ...我想使用win32com。我被寻找其他解决方案，但没有太多的成功与我的要求。如果可能的话，其实我想用机械化或类似的解决方案，但不能成功 – paul 2009-10-25 03:30:05

也许这篇文章中的信息将有所帮助：http://stackoverflow.com/questions/1546089/web-scraping-a-problem-site否则，请张贴您想要做的更多细节。你想要关注右侧的赞助商链接和顶部的金钱链接吗？ – foosion 2009-10-25 10:55:42

你好，其实即时通讯网刮板。和刮是没有问题的JavaScript。做了刮板后，我会添加一些其他功能，那时候我会遇到很多javascript，为什么我尝试使用PAMIE或IE http://elca.pastebin.com/m52e7d8e0 我附上了当前刮板脚本源代码。尤其是我想将'thepage = urllib.urlopen（theurl）.read（）'改为PAMIE方法。如果可能的话，你可以检查它并纠正我吗？在此先感谢.. – paul 2009-10-26 02:09:54

与python的win32com和解析html问题

回答

相关问题