2013-05-13 63 views
0

我想编写一个脚本来检查关键字 文档并指定包含它们的html文档节点(可能 分配唯一标识符)。获取html文档中的节点包含单词

我不是一个专业的程序员,也不知道底层语言和PLO的实力。我害怕做一些非常糟糕和不受支持的事情。

如何隔离所需的节点?

我的经验 - js和php - php仅适用于非常简单的事情。另外,我 不想使用此机会与js节点一起工作 。我的想法:

  • 使HTML
  • 一串验证的话存在的页面
  • 上,如果页面上的字存在:在主体元素,我得到第一个和最后一个位置 的foreach节点(例如,我们看到每个字符的开始标签,我们最初知道的位置为 ,因此我们计算第一个 位置,其中标签打开,最后在关闭位置,以此类推)。

我们知道这个词(如192,199 )的位置和在什么范围内它得到了检查(在这种情况下 ,这些乐队 - 节点html文件)。

我需要有经验的程序员的想法。 无论你是什么语言 编程(除了面向网络) - 每一个意见对我来说都很重要。有可能是 有库解决这样的 问题。我非常希望你会 了解我。英语不是我的本地语言 。

回答

1

我总是建议Beautiful Soup这种事情。它是一个Python库,允许您真正快速地解析XML/HTML文档。你可以很快得到一些东西,从每个div元素中提取我想象中的文本。然后使用Pythons内置的字符串操作工具,我确定搜索特定的单词会相当简单。

相关问题