web-scraping

    1热度

    3回答

    我已经在python中编写脚本来从一些html元素中删除一些文本。脚本现在可以解析它。但是,问题是结果看起来很奇怪,它们之间有一堆空格。我该如何解决它?任何帮助将不胜感激。 这是HTML元素的文本应该被刮掉: html=""" <div class="postal-address"> <p>11525 23 AVE</p> <p>EDMONTON, AB

    1热度

    1回答

    这是我第一次在这里发布。 我想问问你是否有办法分析python中的页面中的活动数据,如Firefox或Chrome(firefox screen here)。 我正在制作一个脚本,它从网站上取消一个JSON格式的文件,但他们不断更改名称,唯一的方法是我可以知道文件的名称来自“网络”分析器。 我想解析与该页面相关的JSON文件,但是当我更新页面时他们正在更改名称。 感谢所有

    0热度

    1回答

    当我使用类来抓取任何Web数据时,我完全是python的新手。所以,对于任何严重的错误,事先道歉。我编写了一个脚本来使用wikipedia网站上的a标签解析文本。我试图从我的级别准确地编写代码,但由于某种原因,当我执行代码时会抛出错误。我的代码和错误在下面给出,供您考虑。 脚本: import requests from lxml.html import fromstring class T

    0热度

    1回答

    我需要能够以编程方式读或刮擦该URL的内容: https://www.toysrus.com/product?productId=122872496 我试过设置用户代理,饼干,各种。我也试着在Chrome“复制为卷曲”从开发者工具 - 命令>网络,这给下面卷曲bash命令: curl 'https://www.toysrus.com/product?productId=122872496' -H

    -1热度

    1回答

    我在用下面的代码网页: from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Chrome('C:/.../chromedriver_win32/chromedriver') link = 'http://performance.morningstar.com/funds/etf/to

    2热度

    2回答

    我已经在python中编写脚本来从一些html元素中删除一些文本。我写的脚本可以解析它。然而,问题在于数据正在被解析,它们之间有巨大的空间。我尝试了.strip()方法,但对结果没有任何影响。我该如何解决它? HTML元素: html=""" <div class="organisation-details"> <div class="personnel shaded">

    2热度

    1回答

    我尝试做一些网页搜刮 目的是根据邮政编码收集所有的补救措施。问题是当我尝试我的代码时,我的列表是空的,因为url根据邮政编码没有改变。这就是为什么我想在修改过程中更改HTML值的原因。 我不知道如何做到这一点。我尝试使用Selenium和XPATH但是我无法找到任何东西。 这里的HTML代码:(红色是我需要改变。) 编辑:的确,我们的目标是根据邮政编码来收集与名称的分页和补救的类型,这这就是为什么

    -1热度

    1回答

    我想创建一个网页版本控制备份/日志。如果网页(包括JS和CSS)被修改,它会在驱动器上保存一个静态副本。 我如何get一个网页的CSS和JavaScript?只需连接到网页并阅读内容并返回即可获得HTML。但我如何获得CSS &本页面的Javascript也是如此? 该系统不能直接访问网络服务器,因此我必须通过远程执行network。 我的想法是我搜索了我为.css和'.js'搜索到的HTML,并

    2热度

    2回答

    好吧,决定编辑这个真正的快速,只是在这里包括我的整个剧本。 这是我第一个使用python的“真实世界”应用程序,或者对于这个问题,任何编程语言。 我已经使用我发现的教程构建了一个基本的网页抓取工具,并且正在尝试添加信息并在其基础上创建一些比实际更有用的工具。 我遇到的问题是,收集的信息到目前为止一直比较容易获得,但现在我被困在这里将代码的代价拉到我的python脚本中。 我可以从这里得到价格,但是

    0热度

    1回答

    尝试使用网络链接下载多个zip文件。通过这种方法,下载文件,因为得到的文件名覆盖相同的多个年 - library(rvest) url <- "https://download.open.fda.gov/" page <- read_html(url) zips <- grep("\\/drug-event",html_nodes(page,"key"), value=TRUE) zi