2011-09-30 117 views
-3

我想制作一个小程序,它将使用来自任何网站的每个单词 - 意思词 它意味着在python中,我听说过BeautifulSoup,但我不太清楚如何用它来达到这个目的......小教程? :p 或者正如正则表达式那么简单?像: re.compile('<.*>(.*)<.*>') 所以括号内的所有内容? 换行之类的东西已经完成;)Python屏幕刮掉整个网站

thanx提前家伙,遗憾的未成年人英语...

+2

什么是“意义”? –

+0

这似乎与HTML没有任何关系......你能否提供更多关于每个“单一的东西 - 含义词”是什么意思的信息? – element119

+0

可以说,我的意思是说,如果你想去那个网站,选择一切,然后将其粘贴到notapad中......不需要标记 – user973760

回答

1

Scrapy使得网络抓取容易。它也有很好的文档,并且scrapy startproject命令将为您构建一个框架项目。

1

Mechanize是一个python库,允许您执行http请求,甚至提供一些解析html和提取您正在寻找的数据的能力。它的主要特点是可以像浏览器一样处理认证和cookie等事情。

正则表达式在处理XML/HTML(你会看到)时并不理想。如果您喜欢解析库,可以将BeautifulSoup与机械化结合使用。学习像XPath这样的东西可以让你的生活更简单。

机械化和BeautifulSoup都有教程,所以开始阅读一些代码!