2011-12-14 65 views
0

我有一堆html文件(5000)。寻找特定的文本并转换成链接

我的业务需求定义了一个参考格式,假设它是XXX-YY(Year)-ZZZ。

我想通过这样的链接来代替,在所有的HTML文件,这样的格式的任何发生:

<a href='~/app/document/XXX-YY(Year)-ZZZ'>XXX-YY(Year)-ZZZ</a>

虽然这听起来很“简单”的使用标准正则表达式替换,它实际上更困难因为我认为这个过程可以运行多次。

我现在的过程将“鸟巢”的替代品,以产生这样的:

<a href='~/app/document/<a href='~/app/document/XXX-YY(Year)-ZZZ>XXX-YY(Year)-ZZZ</a>><a href='~/app/document/XXX-YY(Year)-ZZZ>XXX-YY(Year)-ZZZ</a></a>

我怎样才能达到我的目标是什么?

PS:性能是不是一个问题(当它停留至少合理的)

回答

0

所有你需要的是:HTML Agility Pack

检查这一个:c# html agility pack和大量的关于在这里的其他问题在SO; - )

这是因为你最好使用一个理解HTML树的解析器,而不仅仅是正则表达式或文本解析,这可能会因具体标记而失败......