web-scraping

1热度

3回答

我已经在python中编写脚本来从一些html元素中删除一些文本。脚本现在可以解析它。但是，问题是结果看起来很奇怪，它们之间有一堆空格。我该如何解决它？任何帮助将不胜感激。这是HTML元素的文本应该被刮掉： html=""" <div class="postal-address"> <p>11525 23 AVE</p> <p>EDMONTON, AB

1热度

1回答

使用python进行Web活动分析

这是我第一次在这里发布。我想问问你是否有办法分析python中的页面中的活动数据，如Firefox或Chrome（firefox screen here）。我正在制作一个脚本，它从网站上取消一个JSON格式的文件，但他们不断更改名称，唯一的方法是我可以知道文件的名称来自“网络”分析器。我想解析与该页面相关的JSON文件，但是当我更新页面时他们正在更改名称。感谢所有

0热度

1回答

执行我的类爬虫时遇到问题

当我使用类来抓取任何Web数据时，我完全是python的新手。所以，对于任何严重的错误，事先道歉。我编写了一个脚本来使用wikipedia网站上的a标签解析文本。我试图从我的级别准确地编写代码，但由于某种原因，当我执行代码时会抛出错误。我的代码和错误在下面给出，供您考虑。脚本： import requests from lxml.html import fromstring class T

0热度

1回答

如何让cURL绕过这个僵硬的僵尸程序？

我需要能够以编程方式读或刮擦该URL的内容： https://www.toysrus.com/product?productId=122872496 我试过设置用户代理，饼干，各种。我也试着在Chrome“复制为卷曲”从开发者工具 - 命令>网络，这给下面卷曲bash命令： curl 'https://www.toysrus.com/product?productId=122872496' -H

-1热度

1回答

如何点击在线选项卡上使用Python硒

我在用下面的代码网页： from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Chrome('C:/.../chromedriver_win32/chromedriver') link = 'http://performance.morningstar.com/funds/etf/to

2热度

2回答

无法删除结果之间的巨大空间

我已经在python中编写脚本来从一些html元素中删除一些文本。我写的脚本可以解析它。然而，问题在于数据正在被解析，它们之间有巨大的空间。我尝试了.strip()方法，但对结果没有任何影响。我该如何解决它？ HTML元素： html=""" <div class="organisation-details"> <div class="personnel shaded">

2热度

1回答

在网页搜索期间修改HTML内容

我尝试做一些网页搜刮目的是根据邮政编码收集所有的补救措施。问题是当我尝试我的代码时，我的列表是空的，因为url根据邮政编码没有改变。这就是为什么我想在修改过程中更改HTML值的原因。我不知道如何做到这一点。我尝试使用Selenium和XPATH但是我无法找到任何东西。这里的HTML代码：（红色是我需要改变。）编辑：的确，我们的目标是根据邮政编码来收集与名称的分页和补救的类型，这这就是为什么

-1热度

1回答

刮整个网页+ CSS + javascript

我想创建一个网页版本控制备份/日志。如果网页（包括JS和CSS）被修改，它会在驱动器上保存一个静态副本。我如何get一个网页的CSS和JavaScript？只需连接到网页并阅读内容并返回即可获得HTML。但我如何获得CSS &本页面的Javascript也是如此？该系统不能直接访问网络服务器，因此我必须通过远程执行network。我的想法是我搜索了我为.css和'.js'搜索到的HTML，并

2热度

2回答

如何从html中将特定位的信息提取到python webscraper？

好吧，决定编辑这个真正的快速，只是在这里包括我的整个剧本。这是我第一个使用python的“真实世界”应用程序，或者对于这个问题，任何编程语言。我已经使用我发现的教程构建了一个基本的网页抓取工具，并且正在尝试添加信息并在其基础上创建一些比实际更有用的工具。我遇到的问题是，收集的信息到目前为止一直比较容易获得，但现在我被困在这里将代码的代价拉到我的python脚本中。我可以从这里得到价格，但是

0热度

1回答

R - 网页报废和下载多个zip文件并保存文件不会被覆盖

尝试使用网络链接下载多个zip文件。通过这种方法，下载文件，因为得到的文件名覆盖相同的多个年 - library(rvest) url <- "https://download.open.fda.gov/" page <- read_html(url) zips <- grep("\\/drug-event",html_nodes(page,"key"), value=TRUE) zi