大任务:我正在尝试获取网页摘要的几行内容。即我想有一个函数可以接收一个URL并返回该页面中最具信息量的段落。 (这通常是实际内容文本的第一段,与导航栏等“垃圾文本”形成鲜明对比)。Python:检测字符串中的实际文本段落
因此,我设法通过删除标签来将HTML页面缩减为一堆文本,扔出<HEAD>
和所有脚本。但有些文字仍然是“垃圾文字”。我想知道文本的实际段落在哪里开始。 (理想情况下,它应该与人类语言无关,但如果您只有英文解决方案,这可能也有帮助。)
如何确定哪些文本是“垃圾文本”,哪一个是实际内容?
更新:我看到一些人指出我使用HTML解析库。我正在使用美丽的汤。我的问题是不解析HTML;我已经摆脱了所有的HTML标签,我只是有一堆文本,我想分离文本和垃圾文本。
你能后你有文本的样本?你想要它成为什么?关于用正则表达式解析HTML - 强制性链接 - http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – Oded 2010-07-24 16:18:13
这是一个来自网页:http://cool-rr.com/sample_text.delete_me.txt它恰好是来自Python文档的页面。 – 2010-07-24 16:41:16
我删除了'[regex]'标签,因为它似乎在欺骗人们认为你想用正则表达式从页面中提取文本,但这不是你的问题。这实际上是一个文本处理问题。它几乎没有任何与HTML有关的事情;从网页中提取文本的事实并不重要,除非您希望尝试使用HTML标记来帮助您识别重要的文本片段。 – 2010-07-24 18:39:18