2009-08-11 69 views
2

我正在寻找我想要关注的一群英语报纸的编辑和操作页面的聚合器。我们的目标是生成一个HTML,它只是我想在国际上遵循的十几份报纸的一个编辑部分的集合,以便我可以在早上打印出来。由于这是一个非常狭窄的要求,我找不到任何可用的东西,所以我正在考虑自己写一个。现在哪种语言最适合此编辑器和选定聚合器项目?

,我曾经是一个〜8年在我以前的生活(现在已经被动摇的“阴暗面”,也就是华尔街我的MBA后)程序员。今天我对编程缺乏足够的了解,无法对脚本语言做出很好的选择,所以我不确定哪种语言最适合它(性能不是关键问题,用于解析HTML,文本处理以及关闭数据的库活网页更重要)。

PS:我不介意学习一门新的语言几乎完全在Win32的环境中(以前我广泛地与x86的ASM,C和Visual C++/MFC工作)。

回答

1

使用Python和优秀lxml库刮HTML。它支持CSS选择器,这非常方便,而且速度很快。它也处理破碎的HTML。

+0

确保你看看lxml.html模块。这些文档可能有点令人困惑,所以试着在交互式Python shell中试用它 - 这就是我学会如何使用它的原因。 – aehlke 2009-08-12 14:15:01

0

解释型语言代码生成做好,你应该想想Perl或红宝石

相关问题