html-parsing

    0热度

    1回答

    我使用Jsoup的parseBodyFragment()和parse()方法来处理由脚本,无脚本和样式标记组成的代码块。目标不是清理它们 - 只需要select(),分析并输出它们。 select()部分工作得很好。 但问题是它会自动编码src属性的url参数。所以,当输入是这样的: <noscript> <img height="1" width="1" style="display:none

    1热度

    1回答

    我想在文本文件中使用python [data scraping]导出任何网页的页面对象。另外,我正在为元素提供硬编码的Selenium Web驱动程序语法。 我可以通过使用id属性来实现此目的。 例如我发现有text类型的属性id和输入的所有网页元素: from htmldom import htmldom URL = "https://www.fundsindia.com/content/js

    0热度

    1回答

    我使用PHP和xpath来解析一些HTML页面:在上一期(rif。Parsing an HTML page using curl and xpath in PHP)中,我已经解决了如何解析页面来提取一些值。 现在我已经在另一个页面中,在获取我想要解析的值之前,我必须选择一个值(图片中的Venezia ...,组合框“Provincia”中的... ...) ),然后点击一个按钮(图片中的“CERC

    0热度

    1回答

    我传递HTML字符串从我的后台,我现在用的反应-HTML解析器我的html字符串转换成反应成分反应成分。但得到错误。 ERROR在./~/entities/maps/entities.json 模块解析失败:/Users/PrashantKumarKatariya/teabox_web/teabox_django/static/node_modules/entities/maps/entities

    0热度

    1回答

    我想提取所有链接http://example.com/1并忽略2 <br><br>标签与beautifulsoup之后的所有链接。 <div class="compost"> <br><b><a target="_blank" href="http://example.com/1"><span id="s_index18" class="select_index"></span>text 2</

    1热度

    1回答

    在学习了很多关于StackOverflow的文章和一些问题之后,我知道我需要为此目的编写一个定制的解析器插件,并且我也知道如何做到这一点,但我被困在如何进行。 事实上,我对系统的“流程图”感到困惑,这可能需要对Nutch抓取和解析机制进行深入研究。从哪儿开始?定制HTML解析过程,然后解析相关页面上的img标签,最后使用JSoup等工具完成该过程。 例如,让我必须抓取网络并收集某个特定品牌商品的所

    2热度

    1回答

    中解析http [s] weboages,直到最近我才能从网站here解析表数据。我注意到传输协议从http改为https,我相信这是原因,旧的代码不再工作。我得到这个错误:IOError: Error reading file 'https:/....我的代码基本上是 import lxml.html page = lxml.html.parse(url) table = [page.xpa

    0热度

    1回答

    的基本上我们有一个网站,有一堆不同的项目数据,并布置成能够描述在树中的项目状结构(http://www.isoldwhat.com/getcats/fullcategorytree.php)。我们希望打破所有类别并将它们导出到Json文件。我遇到的问题是要打开每个类别,我需要点击它并让它重新加载。我想我必须模仿每个类别的点击次数。解析这些数据的最佳方法是什么?我可能会使用一些jQuery,但我打开

    0热度

    1回答

    我想创建一个json文件,可以打破树形结构中所有类别的项目列表,并维护类别所在的嵌套顺序(从本网站http://www.isoldwhat.com/getcats/fullcategorytree.php)。目前,我有以下代码来解析所有类别的: #!/usr/bin/env python import sys import urllib2 from pprint import pprint

    0热度

    1回答

    我有一些我正在使用BeautifulSoup解析的HTML。我使用下面的代码获得所有的类别了DOM的: def dataList(element): categoryList = [] try: for ul in categorySoup('ul', recursive=False): for li in ul('li', recursive=Tru