html-parsing

0热度

1回答

我使用Jsoup的parseBodyFragment()和parse()方法来处理由脚本，无脚本和样式标记组成的代码块。目标不是清理它们 - 只需要select()，分析并输出它们。 select()部分工作得很好。但问题是它会自动编码src属性的url参数。所以，当输入是这样的： <noscript> <img height="1" width="1" style="display:none

1热度

1回答

如何使用python为Web元素生成Xpath（在运行时在我的脚本中）？

我想在文本文件中使用python [data scraping]导出任何网页的页面对象。另外，我正在为元素提供硬编码的Selenium Web驱动程序语法。我可以通过使用id属性来实现此目的。例如我发现有text类型的属性id和输入的所有网页元素： from htmldom import htmldom URL = "https://www.fundsindia.com/content/js

0热度

1回答

解析，在PHP中使用curl和xpath，在表单之前使用HTML页面

我使用PHP和xpath来解析一些HTML页面：在上一期（rif。Parsing an HTML page using curl and xpath in PHP）中，我已经解决了如何解析页面来提取一些值。现在我已经在另一个页面中，在获取我想要解析的值之前，我必须选择一个值（图片中的Venezia ...，组合框“Provincia”中的... ...）），然后点击一个按钮（图片中的“CERC

0热度

1回答

反应-HTML解析器意外错误

我传递HTML字符串从我的后台，我现在用的反应-HTML解析器我的html字符串转换成反应成分反应成分。但得到错误。 ERROR在./~/entities/maps/entities.json 模块解析失败：/Users/PrashantKumarKatariya/teabox_web/teabox_django/static/node_modules/entities/maps/entities

0热度

1回答

解析2标签美丽蟒python

我想提取所有链接http://example.com/1并忽略2 标签与beautifulsoup之后的所有链接。 <div class="compost"> <a target="_blank" href="http://example.com/1">text 2</

1热度

1回答

如何使用Nutch解析和检索图像

在学习了很多关于StackOverflow的文章和一些问题之后，我知道我需要为此目的编写一个定制的解析器插件，并且我也知道如何做到这一点，但我被困在如何进行。事实上，我对系统的“流程图”感到困惑，这可能需要对Nutch抓取和解析机制进行深入研究。从哪儿开始？定制HTML解析过程，然后解析相关页面上的img标签，最后使用JSoup等工具完成该过程。例如，让我必须抓取网络并收集某个特定品牌商品的所

2热度

1回答

在python

中解析http [s] weboages，直到最近我才能从网站here解析表数据。我注意到传输协议从http改为https，我相信这是原因，旧的代码不再工作。我得到这个错误：IOError: Error reading file 'https:/....我的代码基本上是 import lxml.html page = lxml.html.parse(url) table = [page.xpa

0热度

1回答

数据解析了多重嵌套网页

的基本上我们有一个网站，有一堆不同的项目数据，并布置成能够描述在树中的项目状结构（http://www.isoldwhat.com/getcats/fullcategorytree.php）。我们希望打破所有类别并将它们导出到Json文件。我遇到的问题是要打开每个类别，我需要点击它并让它重新加载。我想我必须模仿每个类别的点击次数。解析这些数据的最佳方法是什么？我可能会使用一些jQuery，但我打开

0热度

1回答

BeautifulSoup递归解析数据和维护结构时输出

我想创建一个json文件，可以打破树形结构中所有类别的项目列表，并维护类别所在的嵌套顺序（从本网站http://www.isoldwhat.com/getcats/fullcategorytree.php）。目前，我有以下代码来解析所有类别的： #!/usr/bin/env python import sys import urllib2 from pprint import pprint

0热度

1回答

美丽的汤：如何判断何时嵌套html的递归解析

我有一些我正在使用BeautifulSoup解析的HTML。我使用下面的代码获得所有的类别了DOM的： def dataList(element): categoryList = [] try: for ul in categorySoup('ul', recursive=False): for li in ul('li', recursive=Tru