2012-08-07 48 views
0

注入HTML成母版我想开发一种方式,它有可能缠上网站的正确的外观和感觉。净MVC的Web应用程序,它是被链接到。屏幕抓取页面使用C#和MVC

基本上我要存储一个“参考页”针对我的应用程序将使用屏幕抓取的页眉/页脚从HTML在其母版页使用无所不包站点的URL。

所以,如果/当网站(从CMS输出)改变其结构/图像/颜色我的应用程序将只使用新创建的“模板”,并相应地包装自己。

在'template'中设置了开始/结束div标签,因此我只需要屏蔽HTML,在相关点分割它,并以某种方式将其注入到我的应用程序的MasterPage中。

的屏幕抓取部分看起来相当简单,它是注入到主网页,其中我有问题整理出来。

任何帮助将不胜感激。 :)

编辑 - 我目前在我的脑海规划这一点,并没有代码来发布。正如我所说的,屏幕抓图部分看起来不错,但是我将如何将从页眉/页脚的“参考页面”中提取的相关HTML插入/注入到我的应用程序正在使用的主页中?

+0

您好MrSharky - 不幸的是,这个问题(?)的范围太广泛,而且在您寻找的实际帮助方面还不太清楚。你描述了很多,但没有解释你在哪里遇到问题,你曾经尝试过什么,以及你需要什么样的帮助。 – Oded 2012-08-07 09:37:00

+0

你可以在主页中使用文字吗?你可以将头部HTML细分,然后将其存储在一个字符串中,然后在主页面代码中设置literal = header头部 – dtsg 2012-08-07 09:37:28

+0

@Oded道歉,目前这并不是什么问题,你是对的。我会编辑它以更具体一点。谢谢 – MrSharky 2012-08-07 10:05:05

回答

0

我知道你可能已经解决了这一点,但这里要说的是母版页和MVC(和ASP.Net形式,以及)有效的解决方案。

我首先尝试覆盖母版页的Render方法,然后使用RenderControl渲染ContentPlaceHolders,并用渲染结果替换模板中的某些标记。这适用于ASP.Net表单,但不适用于MVC - 这种方式<% using (Html.BeginForm("A","B")) { %>总是会导致在doctype之前在页面的顶部呈现表单标记。

解决方案

检索模板,并将其分割成其组成部分,有些是文字部分,有些是占位符部分。在您的母版页中,您有一个HTML文档和您的占位符 - 不仅是您的占位符。这样VS设计师就不会抱怨。但是,渲染时,首先清除Controls集合,然后将每个部分添加为LiteralControl或ContentPlaceHolder。您只需将实际渲染保留到ASP.Net。以下是灵感代码。

母版页:

<!DOCTYPE html> 
<html xmlns="http://www.w3.org/1999/xhtml"> 
<head runat="server"> 
    <title runat="server"></title> 
    <asp:PlaceHolder ID="HeadPlaceHolder" runat="server"> 
     <script type="text/javascript" src="/cnnet/Resources/Js/jquery-1.8.1.min.js"></script> 
    </asp:PlaceHolder> 
    <asp:ContentPlaceHolder ID="HeadContentPlaceHolder" runat="server"/> 
</head> 
<body> 
    <asp:ContentPlaceHolder ID="MainContentPlaceHolder" runat="server" /> 
</body> 
</html> 

母版页的代码隐藏:

private HtmlHead originalPageHeader; 
static readonly Regex HeadStartRegex = new Regex(@"^\s*<head[^>]*>"); 
static readonly Regex HeadEndRegex = new Regex(@"</head>\s*$"); 
static readonly Regex TitleRegex = new Regex(@"<title>[^<]*</title>"); 

public Default() { Init += Default_Init; } 

private void Default_Init(object sender, EventArgs e) { DoScraping(); } 

protected override void Render(HtmlTextWriter writer) 
{ 
    // get content from html head control generated via Page.Header: 
    string headHtml = RenderControl(originalPageHeader); 
    Controls.Remove(originalPageHeader); 
    headHtml = HeadStartRegex.Replace(headHtml, string.Empty); 
    headHtml = HeadEndRegex.Replace(headHtml, string.Empty); 
    headHtml = TitleRegex.Replace(headHtml, string.Empty); 
    // head.Controls.Add(new LiteralControl(headHtml)); doesnt work if head content placeholder contains code blocks (i.e. <% ... %>) 
    // Instead add content this way: 
    int headIndex = Controls.IndexOf(HeadContentPlaceHolder); 
    if (headIndex != -1) 
     Controls.AddAt(headIndex + 1, new LiteralControl(headHtml)); 

    base.Render(writer); 
} 

private void DoScraping() 
{ 
    IList<PagePart> parts = ... // do your scraping and splitting into parts 
    Controls.Clear(); 

    foreach (PagePart part in parts) 
    { 
     var literalPart = part as LiteralPart; 
     if (literalPart != null) 
     { 
      Controls.Add(new LiteralControl(literalPart.Text)); 
     } 
     else 
     { 
      var placeHolderPart = part as PlaceHolderPart; 
      switch (placeHolderPart.Type) 
      { 
       case PlaceHolderType.Title: 
        Controls.Add(new LiteralControl(HttpUtility.HtmlEncode(Page.Title))); 
        break; 
       case PlaceHolderType.Head: 
        Controls.Add(HeadPlaceHolder); 
        Controls.Add(HeadContentPlaceHolder); 
        break; 
       case PlaceHolderType.Main: 
        Controls.Add(new LiteralControl("<div class='boxContent'>")); 
        Controls.Add(MainContentPlaceHolder); 
        Controls.Add(new LiteralControl("<div/>")); 
        break; 
      } 
     } 
    } 
} 

private string RenderControl(Control control) 
{ 
    string innerHtml; 
    using (var stringWriter = new StringWriter()) 
    { 
     using (var writer = new HtmlTextWriter(stringWriter)) 
     { 
      control.RenderControl(writer); 
      writer.Flush(); 
      innerHtml = stringWriter.ToString(); 
     } 
    } 
    return innerHtml; 
} 

配件:

public class PagePart {} 

public class LiteralPart : PagePart 
{ 
    public LiteralPart(string text) { Text = text; } 
    public string Text { get; private set; } 
} 

public class PlaceHolderPart : PagePart 
{ 
    public PlaceHolderPart(PlaceHolderType type) { Type = type; } 
    public PlaceHolderType Type { get; private set; } 
} 

public enum PlaceHolderType { Title, Head, Main } 

分裂:

class PlaceHolderInfo 
{ 
    public PlaceHolderInfo(PlaceHolderType type, Regex splitter) 
    { 
     Type = type; 
     Splitter = splitter; 
    } 

    public PlaceHolderType Type { get; private set; } 
    public Regex Splitter { get; private set; } 
} 

private static readonly List<PlaceHolderInfo> PlaceHolderInfos = new List<PlaceHolderInfo> 
    { 
     new PlaceHolderInfo(PlaceHolderType.Title, new Regex(TitleString)), 
     new PlaceHolderInfo(PlaceHolderType.Head, new Regex(HeadString)), 
     new PlaceHolderInfo(PlaceHolderType.Main, new Regex(MainString)), 
    }; 

private static List<PagePart> SplitPage(string html) 
{ 
    var parts = new List<PagePart>(new PagePart[] { new LiteralPart(html) }); 
    foreach (PlaceHolderInfo info in placeHolderInfos) 
    { 
     var newParts = new List<PagePart>(); 
     foreach (PagePart part in parts) 
     { 
      if (part is PlaceHolderPart) 
      { 
       newParts.Add(part); 
      } 
      else 
      { 
       var literalPart = (LiteralPart)part; 
       // Note about Regex.Split: if match is found in beginning or end of string, an empty string is returned in corresponding end of returned array. 
       string[] split = info.Splitter.Split(literalPart.Text); 
       for (int i = 0; i < split.Length; i++) 
       { 
        newParts.Add(new LiteralPart(split[i])); 
        if (i + 1 < split.Length) // If result of Split returned more than one string, it means there was a match and we insert the placeholder between each string 
         newParts.Add(new PlaceHolderPart(info.Type)); 
       } 
      } 
     } 
     parts = newParts; 
    } 
    return parts; 
} 

请注意,此解决方案很容易扩展到更多占位符(面包屑,菜单,您的名称)。它不会假定模板中占位符的顺序或其存在的顺序。

编辑1: 我原来从Render方法调用DoScraping。事实证明,这是有问题的,因为它重新编制了Web表单中的控件名称(例如ctl00 $ MainContentPlaceHolder $ RequestingRepeater $ ctl01 $ ctl01)。它搞砸了数字到OnCommand在中继器内的按钮停止工作的点。控件的重新排序必须尽可能早地发生,以避免这种情况,所以现在已将它移动到Init

编辑2: 某些页面使用Page.Header生成样式和脚本标记。为了支持这个功能,我添加了一些黑客来保留原始<head>标记并在渲染时插入生成的内容。