我的问题归结为,我有多个版本的同一个HTML页面,并且我想知道这个页面是否使用Perl进行了更改。这些文件包含html/javascript和书面英语。这些更改将在Web界面中显示给用户,因为用户可以决定要跟踪哪些页面进行更改。包含网站的服务器上的Perl脚本会随着时间的推移下载这些页面并检查它们之间的差异。使用Perl识别添加或删除的HTML文件中的文本
到目前为止,我可以识别如果页面已更改,但未添加或删除的内容。这是通过将文件格式化为只在他们自己的行上的文字并逐行比较来完成的。我知道这种变化很可能会被写出来,即新的句子已被添加或删除。我希望能够指出这一变化。
我花了一段时间试图使用Text :: ParagraphDiff,但无济于事。我最终得到了一个长文件,它多次重复这两个内容,但没有突出显示的变化。
所以我想我会问是否有人知道最佳做法或首选的方法来做到这一点。我害怕我将不得不开发一些冗长的算法来跟踪文件何时更改以及何时再次匹配。
确定'文字:: ParagraphDiff'是正确的工具,而不仅仅是'文本:: Diff'?无论如何,请显示您尝试用来识别更改的代码。 – 2013-03-05 15:40:29
如果我接近/卡住,我将只给出Text :: Diff去并发布我的发现。感谢 – Chris 2013-03-05 15:44:08
根据您对程序的描述,在下面的Jim Black中,我认为您应该使用版本控制系统并使用Perl来连接它。 – 2013-03-05 15:52:35