html-parsing

2热度

1回答

我有工作正常以下时，有没有孩子的h4标签： if (BS.find('div', {"id" : "table_content"}).find('h4', text=re.compile(".*Super Users.*"))): print "Found Super Users!" 然而，当h4标签有小孩，打印从不发生。我已经尝试使用调试以下内容： for h4 in BS.fin

0热度

1回答

如何从网站获取图像源 - Swift和Kanna

我目前正在尝试使用Kanna和Swift解析来自website的图像链接。但是，当我尝试使用doc.css或doc.xcpath时，它不起作用。我已经使用doc.css解析标题和日期，但是，我不确定如何解析图像源。如果可能的话，如果你可以在你的答案中包含一个在我的UIImageView中使用图像链接的方法（通过IBOutlet链接），我希望它。下面是我尝试过的代码，也是网站本身的检查元素功能的

1热度

1回答

jsoup - 如何从维基百科文章的文本中获取链接

我刚刚开始探索Jsoup并面临以下问题：当我尝试从仅属于维基百科英文版的https://en.wikipedia.org/wiki/Knowledge中提取链接时，正常工作。 Document document = Jsoup.connect("https://en.wikipedia.org/wiki/Knowledge").timeout(6000).get(); Elements

0热度

2回答

帕尔斯和HTML网页内容中提取网址，而无需使用BeautifulSoup或urlib库

我是新的蟒蛇，我非常抱歉，如果我的问题是非常基本的。在我的程序中，我需要分析一个html网页并提取其中的所有链接。假设我的网页内容，如下面： <html><head><title>Fakebook</title><style TYPE="text/css"></styl

0热度

1回答

PHP简单的HTML DOM解析器 - 环

我就开始玩简单的HTML末日解析器和我有一些麻烦：的HTML代码如下： <div class="players"> <ul class="dane"> <li> <div class="name">Messi</div> <div class="value">Barcelona</div> </li> <li>

0热度

1回答

无法使用节点的HTMLParser

我尝试使用下面的代码阅读Slashdot的RSS订阅阅读RSS提要： var htmlparser = require("htmlparser"); var sys = require("sys"); var handler = new htmlparser.RssHandler(function (error, dom) { if(error) throw error;

0热度

1回答

使用Nokogiri替换HTML占位符标记

我的特殊用例是构建具有占位符值的HTML电子邮件模板，这些模板稍后将替换为实际数据。例子： hello <span class='placeholder' data-slug='contact.name'>contact.name</span> ...变成 “你好，约翰的” 占位符被替换时。我有这些占位符的50+，并正在使用引入nokogiri更换使用实时数据的占位符： placehold

0热度

2回答

从页面获取所有链接美丽的汤

我正在使用beautifulsoup获取页面中的所有链接。我的代码是： import requests from bs4 import BeautifulSoup url = 'http://www.acontecaeventos.com.br/marketing-promocional-sao-paulo' r = requests.get(url) html_content = r

0热度

1回答

如何使用BeautifulSoup来获取里面的内容过线标签

我想从HTML片段提取内容（“_ The_important_content_”）如下： <div class=" a:2 c:gray m:da " > _The_important_conten

1热度

1回答

使用CMD或JavaScript批量查找和删除HTML文件的部分

假设我在该文件夹中有一组文本.html文件。我需要处理每个文件并删除特定HTML标记的内容，包括标记本身。处理后必须重写文件。例子：删除所有<script>块删除所有<div class="test-class">块包括内部内容正则表达式的工具，如sed -i -e 's/REGEX//g' *.html不利于HTML处理。所以我正在寻找解决方案，主要基于例如在XPATH上的HTML解析