2009-12-11 216 views
0

我正在尝试获取HTML页面的子部分。我正在寻找的功能与大多数博客上实现的功能类似。通常,在博客的主页上,您只能看到帖子的一部分,当您点击标题时,您将获得该博客文章的完整内容。 必须有代码才能获取该子部分而不会破坏HTML。获取HTML文档的子部分

有谁知道有很好的.NET代码吗?

编辑:我需要保持内容的HTML格式,所以剥离所有的HTML是不是一个真正的选择。我不介意以固定长度的内容子字符串(即前800个字符),但不打破HTML将是一场噩梦。

谢谢!

+0

是你的数据源的HTML页面?或者你有一个数据库中的条目? – 2009-12-11 17:30:26

+0

我的数据源是一个带有条目的数据库,所以我从一个包含我的文章的所有内容的字符串开始。这是SharePoint,因此内容存储在我的列表的一个字段中。 – 2009-12-11 18:13:34

回答

0

通常这样做了的方式不是通过分块了一块的HTML。相反,有一个包含博客文章的数据库,而Main页面有它自己的HTML/CSS,它只动态加载每篇博文的前X个段落。

1

通常总能采取的是博客文章的内容,一个子博客文章被渲染成HTML之前。

+0

但是,那么你会失去你的文章(链接,表格等)的所有HTML? – 2009-12-11 17:01:15

+0

你需要从你的帖子中去掉html标签 - 丹尼尔斯回答链接是一个很好的方法。 – Justin 2009-12-11 19:46:50

1

这不会通过直接切割页面输出(与HTML混合)来完成。

手柄与服务器端代码显示该博客的内容的修剪。

0

在我看来,“可能有用的最简单的东西”是扫描您想要总结的博客文章,直到您找到第一个近段</p>标记。

不要被诱惑scan the HTML with a regex