2010-10-02 47 views

回答

2

curl <url>这样的调用结果仅为纯HTML页面,并且不会加载图像。但是,如果您想从下载的HTML中移除img标签,则可以使用xmlstarlet的简单XSLT。

这是XSLT(一个例子,我发现在http://www.usingxml.com/Transforms/XslIdentity的变化)​​:

<?xml version="1.0" encoding="UTF-8"?> 
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" 
version="1.0"> 

    <!-- Remove img tag --> 
    <xsl:template match="img" /> 

    <!-- IdentityTransform --> 
    <xsl:template match="/ | @* | node()"> 
    <xsl:copy> 
     <xsl:apply-templates select="@* | node()" /> 
    </xsl:copy> 
    </xsl:template> 

</xsl:stylesheet> 

然后调用xmlstarlet与--html选项:

curl <url> | xmlstarlet tr --html delimg.xslt > output.html 
相关问题