2010-02-10 57 views
2

如果我正在创建一个简单的网页抓取工具(从根网址抓取所有链接,然后从这些链接抓取所有电子邮件),使用HTML敏捷包是否值得?我实际上并没有浏览HTML标签,我只是想在整个文档中扫描电子邮件。HTML敏捷包vs正则表达式

使用HTML敏捷包会更高效吗?

我严格剥离它们,因为它是必要的我有这些电子邮件,并且有大约100个链接。只有大约500封电子邮件将被抄袭。不用担心,我在这里牢记道德规范。

+0

在HTML文件中刮掉电子邮件地址。尼斯。 – 2010-02-10 13:46:18

回答

2

关于这个问题有很多问题 - 我读过的大多数人都说 - 不使用正则表达式进行网页报废。另一方面 - 如果所有你想要的都是文本解析,而不考虑文本的HTML性质(如果我正确理解你的话,你会这样做),那么使用正则表达式可能会更好。

+0

谢谢,这正是我发布这个的原因。我已经阅读了很多关于这个...的线索,但是如果你不关心它是否包含HTML,那么就不会。 – cam 2010-02-10 13:51:34