我想制作一个程序,它将检索一些URL信息。 例如我给下面的网址,从 librarything从url中检索信息
我怎样才能检索到所有下方的“标签”选项卡中的话,像
黑图书馆幻想Thanquol & Boneripper Thanquol和骨开膛手战锤?
我正在考虑使用java,并设计一个数据挖掘封装,但我不知道如何开始。任何人都可以给我一些建议吗?
编辑: 你给了我很好的帮助,但我想问别的。 对于每个标签,我们可以看到每个标签被使用了多少次,当我们按下“数字”按钮时。我怎样才能找回这个号码呢?
如果您要删除HTML,我建议使用Python或Perl。当我编写类似于您的示例的程序时,我对Python有很好的体验,但目前无法真正分享任何内容。有一个特别为[在Python中解析HTML]而制作的库(http://docs.python.org/library/htmlparser.html),您也可以查看[regex](http://docs.python.org/ library/re.html)和[urllib](http://docs.python.org/library/urllib.html)。 – Griffin
@Griffin:这似乎是一个基于DOM的解析器,只会导致丑陋的样板代码。此外,使用正则表达式来解析HTML是普通[疯狂](http://www.codinghorror.com/blog/2009/11/parsing-html-the-cthulhu-way.html)。 – BalusC
@BalusC我自己并没有使用HTML解析器,使用正则表达式后,我被重定向到Freenode上Python通道上的库。对此,似乎有不同的看法,有些人说没关系,有些人说这不好。感谢您的链接,我会检查出来。 – Griffin