html-parsing

    2热度

    1回答

    我有工作正常以下时,有没有孩子的h4标签: if (BS.find('div', {"id" : "table_content"}).find('h4', text=re.compile(".*Super Users.*"))): print "Found Super Users!" 然而,当h4标签有小孩,打印从不发生。我已经尝试使用调试以下内容: for h4 in BS.fin

    0热度

    1回答

    我目前正在尝试使用Kanna和Swift解析来自website的图像链接。 但是,当我尝试使用doc.css或doc.xcpath时,它不起作用。我已经使用doc.css解析标题和日期,但是,我不确定如何解析图像源。如果可能的话,如果你可以在你的答案中包含一个在我的UIImageView中使用图像链接的方法(通过IBOutlet链接),我希望它。 下面是我尝试过的代码,也是网站本身的检查元素功能的

    1热度

    1回答

    我刚刚开始探索Jsoup并面临以下问题:当我尝试从仅属于维基百科英文版的https://en.wikipedia.org/wiki/Knowledge中提取链接时,正常工作。 Document document = Jsoup.connect("https://en.wikipedia.org/wiki/Knowledge").timeout(6000).get(); Elements

    0热度

    2回答

    我是新的蟒蛇,我非常抱歉,如果我的问题是非常基本的。在我的程序中,我需要分析一个html网页并提取其中的所有链接。假设我的网页内容,如下面: <html><head><title>Fakebook</title><style TYPE="text/css"><!-- #pagelist li { display: inline; padding-right: 10px; } --></styl

    0热度

    1回答

    我就开始玩简单的HTML末日解析器和我有一些麻烦: 的HTML代码如下: <div class="players"> <ul class="dane"> <li> <div class="name">Messi</div> <div class="value">Barcelona</div> </li> <li>

    0热度

    1回答

    我尝试使用下面的代码阅读Slashdot的RSS订阅阅读RSS提要: var htmlparser = require("htmlparser"); var sys = require("sys"); var handler = new htmlparser.RssHandler(function (error, dom) { if(error) throw error;

    0热度

    1回答

    我的特殊用例是构建具有占位符值的HTML电子邮件模板,这些模板稍后将替换为实际数据。 例子: hello <span class='placeholder' data-slug='contact.name'>contact.name</span> ...变成 “你好,约翰的” 占位符被替换时。 我有这些占位符的50+,并正在使用引入nokogiri更换使用实时数据的占位符: placehold

    0热度

    2回答

    我正在使用beautifulsoup获取页面中的所有链接。我的代码是: import requests from bs4 import BeautifulSoup url = 'http://www.acontecaeventos.com.br/marketing-promocional-sao-paulo' r = requests.get(url) html_content = r

    0热度

    1回答

    我想从HTML片段提取内容(“_ The_important_content_”)如下: <div class=" a:2 c:gray m:da " > _The_important_conten

    1热度

    1回答

    假设我在该文件夹中有一组文本.html文件。 我需要处理每个文件并删除特定HTML标记的内容,包括标记本身。处理后必须重写文件。 例子: 删除所有<script>块 删除所有<div class="test-class">块包括内部内容 正则表达式的工具,如sed -i -e 's/REGEX//g' *.html不利于HTML处理。所以我正在寻找解决方案,主要基于例如在XPATH上的HTML解析